Forscher von Apple und der Columbia University haben gemeinsam das multimodale Sprachmodell Ferret entwickelt, das darauf ausgelegt ist, ein tiefes Verständnis von Bildern und deren Beschreibung zu ermöglichen. Das Modell zeichnet sich durch ein starkes globales Verständnis aus und kann gleichzeitig frei formulierte Texte und referenzierte Bereiche verarbeiten. Seine Leistung übertrifft die herkömmlicher Modelle.
Die Forscher erstellten den GRIT-Datensatz, um das Modelltraining zu leiten und die Performance von Ferret in verschiedenen Aufgaben zu bewerten. Die Ergebnisse zeigen eine bemerkenswerte Fähigkeit zur Referenzierung und Lokalisierung. Ferret verspricht bahnbrechende Fortschritte in Bereichen wie Mensch-Computer-Interaktion und intelligenter Suche.