Ein Forschungsteam aus mehreren chinesischen wissenschaftlichen Einrichtungen hat kürzlich den enorm großen multimodalen Datensatz Infinity-MM veröffentlicht und darauf basierend das leistungsstarke KI-Modell Aquila-VL-2B trainiert. Dieser Durchbruch verleiht der Entwicklung multimodaler KI neuen Schwung.
Der Infinity-MM-Datensatz ist beeindruckend groß und umfasst vier Datenkategorien: 10 Millionen Bildbeschreibungen, 24,4 Millionen allgemeine visuelle Anweisungsdaten, 6 Millionen ausgewählte, hochwertige Anweisungsdaten und 3 Millionen von KI-Modellen wie GPT-4 generierte Daten. Das Forschungsteam verwendete das Open-Source-KI-Modell RAM++ zur Bildanalyse und Informationsgewinnung und sicherte durch ein einzigartiges Sechs-Klassen-System die Qualität und Vielfalt der generierten Daten.
Bildquelle: Das Bild wurde mit KI generiert und von Midjourney lizenziert.
Das Modell Aquila-VL-2B basiert auf LLaVA-OneVision und integriert das Qwen-2.5-Sprachmodell und die SigLIP-Bildverarbeitungs-Technologie. Das Forschungsteam verwendete eine vierstufige, schrittweise Trainingsmethode: Beginnend mit dem grundlegenden Lernen von Bild-Text-Beziehungen, gefolgt von allgemeinen visuellen Aufgaben, der Verarbeitung spezifischer Anweisungen und schließlich der Integration synthetischer Daten, wobei die maximale Bildauflösung schrittweise erhöht wurde.
Trotz seiner Größe von nur 2 Milliarden Parametern zeigt Aquila-VL-2B in verschiedenen Benchmark-Tests eine beeindruckende Leistung. Im Multimodalen Verständnis-Test MMStar erzielte es mit 54,9 % das beste Ergebnis, im Mathematik-Test MathVista sogar 59 %, was deutlich über vergleichbaren Systemen liegt. In Tests zum allgemeinen Bildverständnis erreichte das Modell bei HallusionBench 43 % und bei MMBench 75,2 %.
Die Forschungsergebnisse zeigen, dass die Einbeziehung synthetischer Daten einen erheblichen Beitrag zur Leistungssteigerung des Modells leistet. Experimente zeigen, dass die Modellleistung ohne diese zusätzlichen Daten durchschnittlich um 2,4 % sinkt. Ab der dritten Stufe übertraf Aquila-VL-2B Referenzmodelle wie InternVL2-2B und Qwen2VL-2B deutlich, insbesondere in der vierten Stufe, wo die Leistung mit zunehmendem Datenvolumen noch stärker zunahm.
Erwähnenswert ist, dass das Forschungsteam sowohl den Datensatz als auch das Modell der Forschungsgemeinschaft zur Verfügung gestellt hat, was die Entwicklung multimodaler KI-Technologien erheblich fördern wird. Das Modell wurde nicht nur auf Nvidia A100-GPUs trainiert, sondern unterstützt auch chinesische selbstentwickelte Chips und zeigt damit eine hohe Hardware-Anpassungsfähigkeit.