DeepAnalyze：面向自主数据科学的智能体大语言模型 (Agentic LLM)

流

DeepAnalyze：面向自主数据科学的智能体大语言模型 (Agentic LLM)

中国人民大学 RUC DataLab 与清华大学联合推出的开放权重 (open-weight) 8B 参数智能体模型，面向端到端的自主数据科学工作流——涵盖数据准备、分析、建模、可视化及报告生成。

流通 ID deepanalyze

日期 Apr 29, 2026

语言中文

信号 DeepAnalyze · GitHub · 2026 背景 DeepAnalyze 是由中国人民大学（RUC DataLab）与清华大学联合研发的开放权重 (open-weight) 8B 参数智能体 (agent) 模型 (model)，由张少雷、范炬、李国良、杜小勇等研究员领衔。该模型基于全新发布的 DataScience-Instruct-500K 数据集进行训练，该数据集包含 50 万条数据科学指令-响应配对样本。项目自发布以来迅速获得社区关注（截至信号发出时，GitHub 星标数已超 4.1k）。

相关性 DeepAnalyze 代表了智能体 LLM (Agentic LLM) 模式向数据科学垂直领域的针对性深化。与通用编程智能体不同，它被设计为能够自主执行完整的数据科学流水线 (pipeline)——跨异构数据格式（SQL 数据库、CSV、Excel、JSON、XML 及 PDF）完成数据获取、清洗、分析、建模、可视化与自动化报告生成。训练数据（DataScience-Instruct-500K）的公开，也折射出智能体专属微调领域日益壮大的开放数据运动。

当前状态模型 (Model)：DeepAnalyze-8B，在 HuggingFace 上以开放协议授权发布能力 (Capabilities)：端到端数据科学自动化、SQL/代码生成、多阶段分析流水线、结果可视化与自然语言报告起草数据科学 (Data Science)：支持结构化、半结构化及开放式数据源研究 (Research)：arXiv 论文已发布（2510.16872），含消融实验与基准测试结果社区 (Community)：开发活跃，拥有 671 个 fork，8 个待合并的 Pull Request

开放问题 DeepAnalyze-8B 在数据科学专属基准测试中，与通用编程智能体（如 Claude Code、AutoDev）相比表现如何？8B 权重的许可限制具体为何？DataScience-Instruct-500K 数据集的质量与偏差特征，与通用指令微调语料库相比有何异同？

关联 (Connections) [gptme] —— 终端原生自主会话，支持多提供商 LLM 接入 [aider] —— 基于终端的 AI 编程助手，具备仓库上下文感知能力

译注原文 "pipeline" 译为“流水线”，此处取“理”之连贯性，强调数据科学并非离散任务堆叠，而是如水流般贯穿获取、清洗、分析与生成的连续过程。"Agentic LLM" 与 "open-weight" 保留双语对照，以凸显其超越传统工具调用、具备自主规划意图的 agent 特性，以及权重公开对社区可验证性的意义。

DeepAnalyze：面向自主数据科学的智能体大语言模型 (Agentic LLM)

Related entries

Score

调解说明