Recientemente, Alibaba lanzó un asistente de ciencia de datos con IA llamado DS Assistant, que automatiza todo el flujo de trabajo, desde la exploración de datos hasta la evaluación del modelo, haciendo que el trabajo de ciencia de datos sea más simple y eficiente.

DS Assistant se basa en el framework Modelscope-Agent, de código abierto y desarrollado por Alibaba, que cuenta con un rico ecosistema de herramientas y un diseño modular flexible. El lanzamiento de DS Assistant significa que incluso los usuarios sin una sólida formación en ciencia de datos pueden manejar fácilmente problemas complejos de ciencia de datos.

image.png

La principal ventaja de DS Assistant es su flujo de trabajo automatizado. Los usuarios solo necesitan proporcionar sus necesidades, y DS Assistant ejecutará automáticamente pasos como el análisis exploratorio de datos, el preprocesamiento de datos, la ingeniería de características, el entrenamiento del modelo y la evaluación. Este proceso no solo aumenta la eficiencia del trabajo, sino que también reduce el umbral de entrada para la ciencia de datos.

El framework Modelscope-Agent es el potente motor detrás de DS Assistant, y cuenta con las siguientes características:

Admite la integración de los principales modelos de código abierto, como vllm y ollama;

Proporciona componentes RAG para una rápida integración con bases de conocimiento;

Un rico ecosistema de herramientas, compatible con los modelos de la comunidad Modelscope y las herramientas langchain.

DS Assistant utiliza el novedoso framework de planificación y ejecución (plan-and-execute), completando tareas complejas de manera eficiente mediante pasos de planificación y ejecución claramente definidos. Su flujo de trabajo incluye la planificación de tareas, la programación de subtareas, la ejecución de tareas y la integración de resultados, lo que aumenta considerablemente la eficiencia y la controlabilidad de la ejecución de tareas.

En cuanto a la arquitectura del sistema, DS Assistant se compone de cuatro módulos principales: el propio DS Assistant actúa como el "cerebro" del sistema, responsable de la programación general; el módulo Plan genera la lista de tareas y realiza el ordenamiento topológico; el módulo Execution se encarga de la ejecución específica y el almacenamiento de resultados; y el módulo Memory management registra los resultados intermedios de la ejecución de las tareas.

En casos prácticos, DS Assistant se aplicó con éxito a la tarea de la competición ICR - Identifying Age-Related Conditions en Kaggle. Mediante el procesamiento y análisis automatizados de datos, DS Assistant no solo mejoró la tasa de éxito de la ejecución de tareas, sino que también generó un registro detallado del proceso de procesamiento para el usuario.

El rendimiento de DS Assistant se evaluó mediante ML-Benchmark. En términos de Normalized Performance Score (NPS), tiempo total y número total de tokens, DS Assistant superó el rendimiento de los sistemas de código abierto SOTA en algunas tareas complejas de ciencia de datos.

El valor de aplicación de DS Assistant radica en:

Para los usuarios no familiarizados con el flujo de trabajo del análisis de datos, DS Assistant proporciona una forma rápida de comprender las ideas y los puntos técnicos del procesamiento de datos;

Para los usuarios familiarizados con el flujo de trabajo del análisis de datos, DS Assistant proporciona descripciones detalladas de los métodos de procesamiento, facilitando la comparación y referencia de experimentos;

Para todos los usuarios, DS Assistant puede automatizar la comprensión profunda del archivo actual de forma rápida.

En el futuro, DS Assistant se optimizará en tres áreas: aumentar la tasa de éxito de la ejecución de tareas, admitir el avance de tareas interactivas de conversación y admitir escenarios de procesamiento por lotes de múltiples archivos de la misma tarea, con el fin de mejorar aún más la experiencia del usuario.

Esta innovadora herramienta de Alibaba no solo reduce el umbral de entrada en el campo de la ciencia de datos, sino que también proporciona a los científicos de datos un potente asistente automatizado, presagiando una nueva revolución en el campo de la ciencia de datos.

Repositorio oficial: https://github.com/modelscope/modelscope-agent/blob/master/examples/agents/data_science_assistant.ipynb

Referencias: https://blog.langchain.dev/planning-agents/