Récemment, Alibaba a lancé un assistant de science des données IA appelé DS Assistant, capable d'automatiser l'ensemble du processus, de l'exploration des données à l'évaluation des modèles, rendant ainsi le travail de science des données plus simple et plus efficace.
DS Assistant est développé sur la base du framework Modelscope-Agent, un framework open source d'Alibaba, doté d'un riche écosystème d'outils et d'une conception modulaire flexible. Le lancement de DS Assistant signifie que même les utilisateurs sans expérience approfondie en science des données peuvent facilement gérer des problèmes complexes de science des données.
Le principal avantage de DS Assistant réside dans son processus de travail automatisé. Il suffit à l'utilisateur de fournir ses besoins, et DS Assistant exécutera automatiquement les étapes d'analyse exploratoire des données, de prétraitement des données, d'ingénierie des caractéristiques, d'entraînement des modèles et d'évaluation. Ce processus améliore non seulement l'efficacité du travail, mais réduit également le seuil d'entrée pour le travail de science des données.
Le framework Modelscope-Agent est le puissant moteur de DS Assistant. Il possède les caractéristiques suivantes :
Il prend en charge l'intégration de la plupart des modèles open source, tels que vllm et ollama ;
Il fournit un composant RAG pour une intégration rapide des bases de connaissances ;
Il dispose d'un riche écosystème d'outils, prenant en charge les modèles de la communauté Modelscope et les outils langchain.
DS Assistant utilise le framework plan-and-execute émergent, qui, grâce à une planification et à des étapes d'exécution claires, permet d'accomplir efficacement des tâches complexes. Son processus de travail comprend la planification des tâches, l'ordonnancement des sous-tâches, l'exécution des tâches et l'intégration des résultats, ce qui améliore considérablement l'efficacité et la contrôlabilité de l'exécution des tâches.
En termes d'architecture système, DS Assistant se compose de quatre modules principaux : DS Assistant lui-même, agissant comme le cerveau du système, responsable de l'ordonnancement global ; le module Plan, responsable de la génération de la liste des tâches et du tri topologique ; le module Execution, responsable de l'exécution concrète et de la sauvegarde des résultats ; et le module Memory management, qui enregistre les résultats intermédiaires de l'exécution des tâches.
Dans des cas pratiques, DS Assistant a été utilisé avec succès dans le cadre du concours ICR - Identifying Age-Related Conditions sur Kaggle. Grâce à un processus automatisé de traitement et d'analyse des données, DS Assistant a non seulement amélioré le taux de réussite de l'exécution des tâches, mais a également généré pour l'utilisateur un enregistrement détaillé du processus de traitement.
Les performances de DS Assistant ont été évaluées à l'aide de ML-Benchmark. En termes de Normalized Performance Score (NPS), de temps total et de nombre total de jetons, DS Assistant a surpassé les solutions open source SOTA sur certaines tâches complexes de science des données.
La valeur applicative de DS Assistant réside dans :
Pour les utilisateurs non familiers avec les processus d'analyse de données, DS Assistant offre un moyen rapide de comprendre les concepts et les techniques de traitement des données ;
Pour les utilisateurs familiers avec les processus d'analyse de données, DS Assistant fournit une description détaillée des méthodes de traitement, facilitant ainsi la comparaison et les références expérimentales ;
Pour tous, DS Assistant permet une compréhension plus approfondie des fichiers actuels de manière automatisée et rapide.
À l'avenir, DS Assistant sera optimisé dans trois directions : l'amélioration du taux de réussite de l'exécution des tâches, la prise en charge de la progression des tâches interactives par le biais de dialogues et la prise en charge du traitement par lots de plusieurs lots de fichiers pour les mêmes tâches, afin d'améliorer encore l'expérience utilisateur.
Cet outil innovant d'Alibaba, non seulement abaisse le seuil d'entrée dans le domaine de la science des données, mais fournit également aux scientifiques des données un puissant assistant automatisé, annonçant une nouvelle révolution dans le domaine de la science des données.
Référentiel officiel : https://github.com/modelscope/modelscope-agent/blob/master/examples/agents/data_science_assistant.ipynb
Références : https://blog.langchain.dev/planning-agents/