Ein Forschungsteam aus mehreren chinesischen Institutionen hat kürzlich den Datensatz „Infinity-MM“ erstellt, einen der derzeit größten öffentlich verfügbaren multimodalen KI-Datensätze. Gleichzeitig wurde ein leistungsstarkes, kleines neues Modell namens Aquila-VL-2B trainiert.
Der Datensatz umfasst vier Hauptkategorien: 10 Millionen Bildbeschreibungen, 24,4 Millionen allgemeine visuelle Anweisungsdaten, 6 Millionen ausgewählte, hochwertige Anweisungsdaten und 3 Millionen von GPT-4 und anderen KI-Modellen generierte Daten.
Für die Generierung nutzte das Forschungsteam bestehende Open-Source-KI-Modelle. Zuerst analysiert das RAM++-Modell Bilder und extrahiert wichtige Informationen, um anschließend zugehörige Fragen und Antworten zu generieren. Zusätzlich wurde ein spezielles Klassifizierungssystem entwickelt, um die Qualität und Vielfalt der generierten Daten sicherzustellen.
Diese Methode zur Generierung synthetischer Daten verwendet eine mehrschichtige Verarbeitung, die RAM++ und MiniCPM-V-Modelle kombiniert. Durch Bilderkennung, Anweisungsklassifizierung und Antwortgenerierung werden präzise Trainingsdaten für KI-Systeme bereitgestellt.
Das Aquila-VL-2B-Modell basiert auf der LLaVA-OneVision-Architektur, verwendet Qwen-2.5 als Sprachmodell und SigLIP für die Bildverarbeitung. Das Training des Modells erfolgte in vier Phasen mit steigender Komplexität. In der ersten Phase lernte das Modell grundlegende Bild-Text-Beziehungen; spätere Phasen umfassten allgemeine visuelle Aufgaben, die Ausführung spezifischer Anweisungen und die endgültige Integration der synthetisch generierten Daten. Die Bildauflösung wurde während des Trainings ebenfalls schrittweise erhöht.
Im Test erzielte Aquila-VL-2B mit nur 2 Milliarden Parametern im MMStar-Benchmark einen Spitzenwert von 54,9 %. Besonders hervorzuheben ist die Leistung des Modells bei mathematischen Aufgaben: Im MathVista-Test erreichte es 59 %, weit über vergleichbaren Systemen.
Auch beim allgemeinen Bildverständnis zeigte Aquila-VL-2B hervorragende Ergebnisse: HallusionBench-Score 43 %, MMBench-Score 75,2 %. Die Forscher gaben an, dass die Einbeziehung synthetisch generierter Daten die Leistung des Modells deutlich verbessert hat. Ohne diese zusätzlichen Daten wäre die durchschnittliche Leistung um 2,4 % gesunken.
Das Forschungsteam hat sich entschieden, den Datensatz und das Modell der Forschungsgemeinschaft zur Verfügung zu stellen. Für das Training wurden hauptsächlich Nvidia A100-GPUs und chinesische Chips verwendet. Die erfolgreiche Einführung von Aquila-VL-2B zeigt, dass Open-Source-Modelle in der KI-Forschung zunehmend mit traditionellen Closed-Source-Systemen mithalten, insbesondere bei der Nutzung synthetischer Trainingsdaten.
Infinity-MM-Paper: https://arxiv.org/abs/2410.18558
Aquila-VL-2B-Projekt: https://huggingface.co/BAAI/Aquila-VL-2B-llava-qwen
Highlights:
🌐 Der Datensatz „Infinity-MM“ enthält 10 Millionen Bildbeschreibungen und 24,4 Millionen visuelle Anweisungsdaten.
💡 Das neue Modell Aquila-VL-2B liefert hervorragende Ergebnisse in mehreren Benchmark-Tests und bricht Rekorde.
📈 Die Verwendung synthetischer Daten verbessert die Modellleistung deutlich. Das Forschungsteam stellt den Datensatz und das Modell der Community zur Verfügung.