近日,阿里巴巴推出了一款名为DS Assistant的AI数据科学助手,它能够自动化地完成从数据探索到模型评估的全流程,让数据科学工作变得更加简单、高效。

DS Assistant基于Modelscope-Agent框架开发,这一框架由阿里巴巴开源,具有丰富的工具生态和灵活的模块设计。DS Assistant的推出,标志着即使是没有深厚数据科学背景的用户,也能够轻松地处理复杂的数据科学问题。

image.png

DS Assistant的核心优势在于其自动化的工作流程。用户只需提供需求,DS Assistant便能够自动执行探索性数据分析、数据预处理、特征工程、模型训练和评估等步骤。这一过程不仅提高了工作效率,也降低了数据科学工作的门槛。

Modelscope-Agent框架是DS Assistant背后的强大支撑,它具备以下特点:

支持接入各主流开源模型,如vllm、ollama等;

提供RAG组件,快速接入知识库;

丰富的工具生态,支持Modelscope社区模型和langchain工具。

DS Assistant采用了新兴的plan-and-execute框架,通过明确计划和执行步骤,高效完成复杂任务。其工作流程包括任务计划、子任务调度、任务执行和结果整合,大幅提高了任务执行的效率和可控性。

系统架构方面,DS Assistant由四个主要模块组成:DS Assistant本身作为系统大脑,负责整体调度;Plan模块负责生成任务列表并进行拓扑排序;Execution模块负责具体执行和保存结果;Memory management模块记录任务中间执行结果。

在实战案例中,DS Assistant成功应用于Kaggle上的ICR - Identifying Age-Related Conditions比赛任务。通过自动化的数据处理和分析流程,DS Assistant不仅提高了任务执行的成功率,还为用户生成了详细的处理过程记录。

DS Assistant的效果通过ML-Benchmark进行了评估,从Normalized Performance Score (NPS)、总时间和总token数三个维度来看,DS Assistant在部分复杂数据科学任务上取得了超越开源SOTA的效果。

DS Assistant的应用价值在于:

对于不熟悉数据分析流程的用户,DS Assistant提供了快速了解数据处理思路和技术点的途径;

对于了解数据分析流程的用户,DS Assistant提供了详细的处理方法描述,方便进行实验参照比较;

对于所有人,DS Assistant都能自动化地快速实现对当前文件的更深层次理解。

未来,DS Assistant将从提高任务执行成功率、支持对话交互式任务推进和支持批处理相同任务多批文件的场景三个方向进行优化,以进一步提升用户体验。

阿里巴巴的这一创新工具,不仅降低了数据科学领域的入门门槛,也为数据科学家们提供了强大的自动化助手,预示着数据科学领域的新变革。

官方仓库:https://github.com/modelscope/modelscope-agent/blob/master/examples/agents/data_science_assistant.ipynb

参考资料:https://blog.langchain.dev/planning-agents/