Kürzlich hat das Apple AI-Forschungsteam seine neue Generation von multimodalen großen Sprachmodellen (MLLMs) vorgestellt – die MM1.5-Familie. Diese Modellreihe kann verschiedene Datentypen wie Text und Bilder kombinieren und zeigt neue Fähigkeiten der KI beim Verständnis komplexer Aufgaben. Aufgaben wie visuelle Frage-Antwort-Systeme, Bilderzeugung und die Interpretation multimodaler Daten lassen sich mit diesen Modellen deutlich besser lösen.
Eine große Herausforderung bei multimodalen Modellen besteht darin, eine effektive Interaktion zwischen verschiedenen Datentypen zu ermöglichen. Bisherige Modelle hatten oft Schwierigkeiten bei der Verarbeitung textreicher Bilder oder fein granulierter visueller Aufgaben. Daher hat das Apple-Forschungsteam in den MM1.5-Modellen eine innovative datenzentrierte Methode eingeführt, die hochauflösende OCR-Daten und synthetische Bildbeschreibungen nutzt, um die Verständnisfähigkeit des Modells zu verbessern.
Diese Methode hat nicht nur dazu geführt, dass MM1.5 in Aufgaben zur visuellen Erkennung und Lokalisierung frühere Modelle übertrifft, sondern auch zwei spezialisierte Modelle hervorgebracht: MM1.5-Video und MM1.5-UI, die jeweils für das Verständnis von Videos und die Analyse mobiler Benutzeroberflächen entwickelt wurden.
Das Training der MM1.5-Modelle erfolgt in drei Hauptphasen.
Die erste Phase ist ein groß angelegtes Pretraining mit 2 Milliarden Bild-Text-Paaren, 600 Millionen verflochtenen Bild-Text-Dokumenten und 2 Billionen rein textbasierten Tokens.
Die zweite Phase ist ein kontinuierliches Pretraining mit 45 Millionen hochwertigen OCR-Daten und 7 Millionen synthetischen Beschreibungen, um die Leistung bei textreichen Bildaufgaben weiter zu verbessern.
Schließlich wird das Modell in der Phase des überwachten Feinabstimmens mit sorgfältig ausgewählten Einzelbild-, Mehrbild- und rein textbasierten Daten optimiert, um es für präzise visuelle Referenzen und Mehrbild-Inferenzen besser zu machen.
In einer Reihe von Bewertungen hat das MM1.5-Modell in mehreren Benchmark-Tests hervorragende Leistungen gezeigt, insbesondere bei der Verarbeitung textreicher Bilder, wo es eine Verbesserung von 1,4 Punkten gegenüber früheren Modellen erzielte. Auch MM1.5-Video, das speziell für das Verständnis von Videos entwickelt wurde, erreicht dank seiner starken multimodalen Fähigkeiten in relevanten Aufgaben ein führendes Niveau.
Die MM1.5-Modellfamilie setzt nicht nur neue Maßstäbe für multimodale große Sprachmodelle, sondern zeigt auch ihr Potenzial in verschiedenen Anwendungen, von allgemeinem Bild-Text-Verständnis bis hin zur Video- und Benutzeroberflächenanalyse.
Wichtigste Punkte:
🌟 ** Modellvarianten **: Umfassen dichte Modelle und MoE-Modelle mit Parametern von 1 Milliarde bis 300 Milliarden, um Skalierbarkeit und flexible Bereitstellung zu gewährleisten.
📊 ** Trainingsdaten **: Verwendung von 2 Milliarden Bild-Text-Paaren, 600 Millionen verflochtenen Bild-Text-Dokumenten und 2 Billionen rein textbasierten Tokens.
🚀 ** Leistungsverbesserung **: Verbesserung um 1,4 Punkte gegenüber früheren Modellen in Benchmark-Tests, die sich auf das Verständnis textreicher Bilder konzentrieren.