Apple hat kürzlich ein bedeutendes Update für sein multimodales KI-Modell MM1 veröffentlicht und es auf die Version MM1.5 aktualisiert. Dieses Upgrade ist weit mehr als nur eine einfache Versionsnummernänderung; es stellt eine umfassende Leistungssteigerung dar, die das Modell in verschiedenen Bereichen deutlich leistungsfähiger macht.

Das Kernstück des MM1.5-Upgrades ist die innovative Datenverarbeitungsmethode. Das Modell verwendet einen datenzentrierten Trainingsansatz, bei dem der Trainingssatz sorgfältig ausgewählt und optimiert wurde. Konkret verwendet MM1.5 hochauflösende OCR-Daten und synthetische Bildbeschreibungen sowie optimierte, visuell-instruierte Feinabstimmungsdaten. Durch die Einbindung dieser Daten konnte das Modell in Bereichen wie Texterkennung, Bildverständnis und der Ausführung visueller Anweisungen deutlich verbessert werden.

image.png

In Bezug auf die Modellgröße umfasst MM1.5 verschiedene Versionen mit einer Parameteranzahl zwischen 1 und 30 Milliarden, darunter dichte und Mixture-of-Experts (MoE)-Varianten. Bemerkenswert ist, dass selbst die kleineren Modelle mit 1 und 3 Milliarden Parametern durch die sorgfältige Gestaltung der Daten und der Trainingsstrategie beeindruckende Leistungen erzielen.

image.png

Die Leistungssteigerung von MM1.5 zeigt sich vor allem in folgenden Bereichen: textdichte Bildinterpretation, visuelle Referenz und Lokalisierung, Multi-Bild-Inferenz, Videoverständnis und mobile UI-Interpretation. Diese Fähigkeiten ermöglichen den Einsatz von MM1.5 in vielfältigeren Szenarien, wie z. B. der Erkennung von Künstlern und Instrumenten auf Konzertfotos, dem Verständnis von Diagrammen und der Beantwortung zugehöriger Fragen sowie der Lokalisierung bestimmter Objekte in komplexen Szenen.

image.png

image.png

Um die Leistung von MM1.5 zu bewerten, verglichen die Forscher es mit anderen fortschrittlichen multimodalen Modellen. Die Ergebnisse zeigen, dass MM1.5-1B unter den Modellen mit 1 Milliarde Parametern hervorragend abschneidet und deutlich besser als vergleichbare Modelle ist. MM1.5-3B übertrifft MiniCPM-V2.0 und liegt auf Augenhöhe mit InternVL2 und Phi-3-Vision. Darüber hinaus zeigen die Untersuchungen, dass sowohl dichte Modelle als auch MoE-Modelle mit zunehmender Größe eine deutlich verbesserte Leistung aufweisen.

Der Erfolg von MM1.5 unterstreicht nicht nur Apples Forschungsstärke im Bereich der künstlichen Intelligenz, sondern weist auch den Weg für die zukünftige Entwicklung multimodaler Modelle. Durch die Optimierung der Datenverarbeitung und der Modellarchitektur können selbst kleinere Modelle eine hohe Leistung erzielen. Dies ist besonders wichtig für den Einsatz leistungsstarker KI-Modelle auf Geräten mit begrenzten Ressourcen.

论文地址: https://arxiv.org/pdf/2409.20566