Recentemente, a Alibaba lançou uma ferramenta de IA para ciência de dados chamada DS Assistant, que automatiza todo o fluxo de trabalho, desde a exploração de dados até a avaliação de modelos, tornando o trabalho em ciência de dados mais simples e eficiente.

O DS Assistant é desenvolvido com base no framework Modelscope-Agent, um framework de código aberto da Alibaba com um rico ecossistema de ferramentas e um design modular flexível. O lançamento do DS Assistant significa que mesmo usuários sem um profundo conhecimento em ciência de dados podem lidar facilmente com problemas complexos de ciência de dados.

image.png

A principal vantagem do DS Assistant é seu fluxo de trabalho automatizado. Os usuários precisam apenas fornecer suas necessidades, e o DS Assistant executará automaticamente etapas como análise exploratória de dados, pré-processamento de dados, engenharia de recursos, treinamento de modelos e avaliação. Esse processo não apenas aumenta a eficiência do trabalho, mas também reduz a barreira de entrada para a ciência de dados.

O framework Modelscope-Agent é o forte suporte por trás do DS Assistant, com as seguintes características:

Suporta a integração de modelos open source populares, como vllm e ollama;

Oferece um componente RAG para acesso rápido a bancos de conhecimento;

Um rico ecossistema de ferramentas, suportando modelos da comunidade Modelscope e ferramentas langchain.

O DS Assistant utiliza o framework emergente de planejamento e execução (plan-and-execute), concluindo tarefas complexas de forma eficiente por meio de etapas de planejamento e execução claramente definidas. Seu fluxo de trabalho inclui planejamento de tarefas, agendamento de subtarefas, execução de tarefas e integração de resultados, melhorando significativamente a eficiência e o controle da execução de tarefas.

Em termos de arquitetura do sistema, o DS Assistant consiste em quatro módulos principais: o próprio DS Assistant como o cérebro do sistema, responsável pela orquestração geral; o módulo de planejamento (Plan) responsável por gerar listas de tarefas e realizar ordenação topológica; o módulo de execução (Execution) responsável pela execução específica e salvamento de resultados; e o módulo de gerenciamento de memória (Memory management) que registra os resultados intermediários das tarefas.

Em casos práticos, o DS Assistant foi aplicado com sucesso na competição ICR - Identifying Age-Related Conditions no Kaggle. Por meio de um processo automatizado de processamento e análise de dados, o DS Assistant não apenas aumentou a taxa de sucesso na execução de tarefas, mas também gerou registros detalhados do processo de processamento para os usuários.

O desempenho do DS Assistant foi avaliado pelo ML-Benchmark. Considerando a pontuação de desempenho normalizada (NPS), o tempo total e o número total de tokens, o DS Assistant superou o desempenho de ponta (SOTA) em algumas tarefas complexas de ciência de dados.

O valor da aplicação do DS Assistant reside em:

Para usuários não familiarizados com o fluxo de trabalho de análise de dados, o DS Assistant oferece uma maneira rápida de entender os conceitos e técnicas de processamento de dados;

Para usuários familiarizados com o fluxo de trabalho de análise de dados, o DS Assistant fornece descrições detalhadas dos métodos de processamento, facilitando a comparação e a referência de experimentos;

Para todos, o DS Assistant pode automatizar a compreensão mais profunda dos arquivos atuais de forma rápida.

No futuro, o DS Assistant será otimizado em três direções: aumentar a taxa de sucesso na execução de tarefas, suportar o avanço de tarefas interativas de conversação e suportar cenários de processamento em lote de vários arquivos de tarefas idênticas, para melhorar ainda mais a experiência do usuário.

Esta ferramenta inovadora da Alibaba não apenas reduz a barreira de entrada para o campo da ciência de dados, mas também fornece aos cientistas de dados um poderoso assistente automatizado, sinalizando uma nova transformação no campo da ciência de dados.

Repositório oficial: https://github.com/modelscope/modelscope-agent/blob/master/examples/agents/data_science_assistant.ipynb

Referências: https://blog.langchain.dev/planning-agents/