Das Multimodale Modell "Frettchen"

Ein gemeinsames Team von Apple AI/ML und der Columbia University hat das multimodale Großmodell "Frettchen" (Ferret) entwickelt, welches erfolgreich Googles Mensch-Maschine-CAPTCHA gemeistert hat. Es kann Verkehrssignale erkennen und die Genauigkeit von Großmodellen bei "Sehen-Sprechen-Antworten"-Aufgaben verbessern.

Die Innovation von Ferret liegt in der Integration von räumlichem Verständnis mit Zitaten und Lokalisierung. Im Gegensatz zu traditionellen multimodalen Modellen versteht es sowohl Semantik als auch Objekte gleichzeitig. Durch die Verwendung einer gemischten Bereichsdarstellungsmethode, die diskrete Koordinaten und kontinuierliche Merkmale kombiniert, zeigt das Modell in multiplen Aufgabenbewertungen eine hervorragende Leistung, insbesondere bei Aufgaben zur Referenzierung und visuellen Grounding.

Dieser Durchbruch wurde von einem chinesischen Team erzielt und unterstreicht die Stärke Chinas in der Forschung zu multimodalen Großmodellen. Er bietet neue Perspektiven für das Bildverständnis und multimodale Aufgaben. Die Erfolge von Ferret versprechen wichtige Fortschritte in Bereichen wie Mensch-Computer-Interaktion und intelligenter Suche.