In der Welt der KI begrüßen wir ein bemerkenswertes neues Mitglied: Cambrian-1, ein von Größen der Branche wie LeCun und Xie Saining entwickeltes multimodales großes Sprachmodell (MLLM). Dieses Modell ist nicht nur ein technologischer Sprung, sondern auch eine tiefgreifende Reflexion über die Forschung im Bereich des multimodalen Lernens.

Die Designphilosophie von Cambrian-1 stellt das Visuelle an die erste Stelle – eine wertvolle Besonderheit im heutigen, sprachzentrierten KI-Forschungsfeld. Es erinnert uns daran, dass der Mensch Wissen auf weit mehr als nur sprachlichem Wege erwirbt; visuelle, auditive und taktile Sinneserfahrungen sind ebenso wichtig. Die Open-Source-Veröffentlichung von Cambrian-1 bietet allen Forschern und Entwicklern, die sich für multimodales Lernen interessieren, eine wertvolle Ressource.

image.png

Der Aufbau des Modells konzentriert sich auf fünf Kernelemente: visuelles Merkmalslernen, Konnektordesign, Instruktions-Feintuning-Daten, Instruktions-Feintuning-Strategie und Benchmark-Tests. Jedes Element stellt eine eingehende Erforschung des MLLM-Designraums dar und spiegelt die einzigartigen Erkenntnisse des Forschungsteams zu bestehenden Problemen wider.

Bemerkenswert ist die beeindruckende Leistung von Cambrian-1 bei visuellen Sprach-Aufgaben. Es übertrifft nicht nur andere Open-Source-Modelle, sondern erreicht in einigen Benchmark-Tests sogar die Leistung der besten proprietären Modelle der Branche. Hinter diesem Erfolg stehen die innovativen Überlegungen des Forschungsteams zum Instruktions-Feintuning und zum Konnektordesign.

Der Weg zur Entwicklung von Cambrian-1 war jedoch nicht immer einfach. Die Forscher stellten fest, dass selbst gut trainierte MLLMs in ihren Konversationsfähigkeiten Schwächen aufweisen können – ein Phänomen, das als „Anrufbeantworter-Phänomen“ bezeichnet wird. Um dieses Problem zu lösen, wurden im Training System-Prompts hinzugefügt, um das Modell zu reichhaltigeren Dialogen anzuregen.

Der Erfolg von Cambrian-1 ist dem starken Forschungsteam zu verdanken. Shengbang Tong (童晟邦) als Erstautor der Veröffentlichung hat einen unverzichtbaren Beitrag geleistet. Derzeit promoviert er an der New York University bei Professor Yann LeCun und Professor Xie Saining. Seine Forschungsinteressen umfassen Weltmodelle, unüberwachtes/selbstüberwachtes Lernen, generative Modelle und multimodale Modelle.

Die Open-Source-Veröffentlichung von Cambrian-1 bringt frischen Wind in die KI-Community. Es bietet nicht nur ein leistungsstarkes Werkzeug für multimodales Lernen, sondern regt auch zu vertieften Überlegungen über die Forschung im Bereich des multimodalen Lernens an. Mit der wachsenden Zahl von Forschern und Entwicklern, die sich an der Erforschung von Cambrian-1 beteiligen, können wir davon ausgehen, dass es eine wichtige treibende Kraft für die Entwicklung der KI-Technologie sein wird.

Projekt-Adresse: https://github.com/cambrian-mllm/cambrian

Veröffentlichung: https://arxiv.org/abs/2406.16860