数据科学的”自动驾驶”难题:想象一下,你手里有一堆CSV文件和数据库,需要从中挖掘商业洞察、生成可视化图表、建立预测模型,最后写成一份完整的分析报告。这个过程涉及数据清洗、探索分析、建模、可视化等多个环节,每一步都需要专业知识和反复试错。

数据分析报告通常需要人类分析师花费数天甚至数周才能完成。而现在,一个只有8B参数的大模型模型,就能自动完成从原始数据到专业分析报告的全过程。

数据科学的”自动驾驶”难题:想象一下,你手里有一堆CSV文件和数据库,需要从中挖掘商业洞察、生成可视化图表、建立预测模型,最后写成一份完整的分析报告。这个过程涉及数据清洗、探索分析、建模、可视化等多个环节,每一步都需要专业知识和反复试错。

这正是”自动数据科学”要解决的核心挑战:能否让大模型像人类数据科学家一样,自主完成整个数据分析流程?

目前的大模型数据分析工具主要有两类:一类是专门处理单一任务的模型(比如只做表格问答或代码生成),另一类是基于预设流程的大模型助手(比如用GPT-4配合固定的工作流程)。但它们都有致命缺陷——无法真正”自主思考”,只能按部就班执行人类设定的步骤。

 

图片图片

 

DeepAnalyze:从”助手”到”专家”:DeepAnalyze是首个专门为自动数据科学设计的”agent模型”。与传统方法最大的不同在于,它具备两项关键能力:

1. 自主编排能力:能理解复杂任务需求,自动规划并协调一系列相互依赖的操作,而不需要人类预先定义工作流程。

2. 适应性优化能力:能在真实环境中与数据交互,根据反馈不断调整策略,就像人类数据科学家在分析中会反复尝试和修正。

 

图片图片

 

五种核心动作:DeepAnalyze设计了五种基本动作来与数据环境互动:

•分析(Analyze):进行规划、推理、自我验证

•理解(Understand):读取和理解数据库、表格等结构化数据

•编码(Code):生成Python代码处理数据

•执行(Execute):运行代码并收集环境反馈

•回答(Answer):产生最终输出

 

图片图片

 

模型会自动在这些动作之间切换,无需人工干预。

像培养人类专家一样训练大模型:训练DeepAnalyze面临两大难题:奖励稀疏(任务太难,模型在早期很难成功,缺少正向反馈)和轨迹稀缺(缺少高质量的问题解决示例数据)。

 

图片图片

 

论文的解决方案是”课程式agent训练”,模仿人类数据科学家的学习路径:

第一阶段:单项能力训练:就像学生先学习数学、编程、统计等基础课程,模型首先在推理、结构化数据理解、代码生成等单项能力上进行训练。

第二阶段:综合能力训练:在掌握基础技能后,通过强化学习让模型在真实环境中执行复杂任务。这个阶段采用混合奖励机制:

•对有标准答案的任务,根据准确性和交互质量评分

•对开放式研究任务,从报告的实用性、丰富性、合理性、可解释性和可读性五个维度评估

 

图片图片

 

数据合成:创造训练样本:由于高质量的数据科学训练数据极为稀缺,团队开发了数据驱动的轨迹合成框架:

•推理轨迹合成:用先进的大模型模型提取推理过程,并通过关键词引导进行优化

•交互轨迹合成:构建多agent系统(提问者、解决者、检查者),自动生成完整的问题解决过程

最终构建了包含约50万样本的训练数据集DataScience-Instruct-500K。

实验结果:在12个数据科学基准测试中,仅有80亿参数的DeepAnalyze-8B,超越了大多数基于最先进商业模型(如GPT-4-Turbo、Claude 3.5 Sonnet)的系统。

 

图片图片

 

端到端数据科学流程:在DataSciBench测试中,DeepAnalyze-8B的表现仅次于GPT-4o,但不需要任何外部编排框架就能完成复杂任务。

 

图片图片

 

深度数据研究:研究团队构建了新基准DABStep-Research来评估深度研究能力。结果显示,DeepAnalyze-8B在五类任务(数据准备、分析、洞察提取、报告生成、开放式研究)中全面领先所有对比系统。

特别值得注意的是,商业模型在开放式研究任务上表现明显下滑,而DeepAnalyze-8B在没有明确指导的情况下仍能出色完成。它生成的报告在内容深度和结构化呈现上,已经接近专业分析师的水平。

其他能力表现

•代码生成:在DS-1000基准上超越GPT-4-Turbo

•表格问答:超越此前最佳模型Reasoning-Table

•数据分析和建模:在DSBench上达到与基于多种先进商业模型的系统相当的性能

DeepAnalyze标志着数据科学领域从”基于工作流的助手”向”agent模型”的范式转变。它不只是执行预设步骤的工具,而是能够自主思考、探索和优化的大模型数据科学家。

更重要的是,这项工作实现了数据科学界长期以来的目标:从原始数据自动提取可操作的洞察。研究团队已开源模型、代码和训练数据,为下一代智能数据系统(包括数据发现、数据治理、数据生态系统和数据管理)铺平了道路。

论文标题:DeepAnalyze: Agentic Large Language Models for Autonomous Data Science

论文链接:https://arxiv.org/abs/2510.16872

文章来自:51CTO

Loading

作者 yinhua

发表回复