Kürzlich hat Alibaba einen KI-gestützten Datenwissenschaftlichen Assistenten namens DS Assistant vorgestellt. Dieser automatisiert den gesamten Prozess von der Datenexploration bis zur Modellbewertung und macht die Arbeit im Bereich Data Science einfacher und effizienter.
DS Assistant basiert auf dem Modelscope-Agent-Framework, das von Alibaba Open Source bereitgestellt wird und über ein umfangreiches Tool-Ökosystem und ein flexibles Moduldesign verfügt. Die Einführung von DS Assistant bedeutet, dass auch Benutzer ohne fundierte Kenntnisse in Data Science komplexe datenwissenschaftliche Probleme problemlos bewältigen können.
Der Kernvorteil von DS Assistant liegt in seinem automatisierten Workflow. Der Benutzer muss lediglich seine Anforderungen angeben, und DS Assistant führt automatisch explorative Datenanalyse, Datenvorverarbeitung, Feature-Engineering, Modelltraining und -bewertung durch. Dieser Prozess steigert nicht nur die Effizienz, sondern senkt auch die Einstiegshürde für Data Science.
Das Modelscope-Agent-Framework ist die starke Grundlage von DS Assistant und zeichnet sich durch folgende Merkmale aus:
Unterstützung für den Zugriff auf gängige Open-Source-Modelle wie vllm und ollama;
Bereitstellung von RAG-Komponenten für den schnellen Zugriff auf Wissensdatenbanken;
Umfangreiches Tool-Ökosystem mit Unterstützung für Modelscope-Community-Modelle und Langchain-Tools.
DS Assistant verwendet das neue Plan-and-Execute-Framework, um komplexe Aufgaben durch klare Planung und Ausführungsschritte effizient zu erledigen. Der Workflow umfasst Aufgabenplanung, Unteraufgabenplanung, Aufgabenabwicklung und Ergebnisintegration, was die Effizienz und Kontrollierbarkeit der Aufgabenabwicklung deutlich verbessert.
Architekturseitig besteht DS Assistant aus vier Hauptmodulen: DS Assistant selbst fungiert als „Systemgehirn“ und ist für die Gesamtkoordination zuständig; das Plan-Modul erstellt die Aufgabenliste und führt eine topologische Sortierung durch; das Execution-Modul übernimmt die konkrete Ausführung und Speicherung der Ergebnisse; das Memory-Management-Modul zeichnet die Zwischenergebnisse der Aufgaben auf.
In einem praktischen Anwendungsfall wurde DS Assistant erfolgreich im Kaggle-Wettbewerb ICR - Identifying Age-Related Conditions eingesetzt. Durch die automatisierte Datenverarbeitung und -analyse hat DS Assistant nicht nur die Erfolgsrate der Aufgaben erhöht, sondern auch detaillierte Prozessaufzeichnungen für den Benutzer erstellt.
Die Leistung von DS Assistant wurde mit ML-Benchmark bewertet. Gemessen an Normalized Performance Score (NPS), Gesamtzeit und Gesamtzahl der Token übertrifft DS Assistant bei einigen komplexen Data-Science-Aufgaben die Open-Source-SOTA.
Der Anwendungswert von DS Assistant liegt in:
Für Benutzer, die mit Datenanalyseprozessen nicht vertraut sind, bietet DS Assistant einen schnellen Einstieg in die Datenverarbeitung und die zugrundeliegenden Technologien;
Für Benutzer mit Kenntnissen in Datenanalyseprozessen bietet DS Assistant detaillierte Beschreibungen der Verarbeitungsmethoden, die als Referenz für Experimente dienen können;
Für alle Benutzer ermöglicht DS Assistant eine automatisierte und schnelle Vertiefung des Verständnisses der aktuellen Datei.
Zukünftig wird DS Assistant in drei Bereichen optimiert: Erhöhung der Erfolgsrate der Aufgabenabwicklung, Unterstützung von interaktiven Aufgaben im Dialogformat und Unterstützung von Batch-Verarbeitung für mehrere Dateien derselben Aufgabe, um das Benutzererlebnis weiter zu verbessern.
Dieses innovative Tool von Alibaba senkt nicht nur die Einstiegshürde im Bereich Data Science, sondern bietet Data Scientists auch einen leistungsstarken automatisierten Assistenten und läutet eine neue Ära in der Data Science ein.
Offizielles Repository: https://github.com/modelscope/modelscope-agent/blob/master/examples/agents/data_science_assistant.ipynb
Referenzen: https://blog.langchain.dev/planning-agents/