Das viel beachtete chinesische KI-Unternehmen Moonshot AI (月之暗面) hat kürzlich die Veröffentlichung von zwei neuen visuellen Sprachmodellen – Kimi-VL und Kimi-VL-Thinking – als Open Source angekündigt. Diese Modelle zeichnen sich durch ihre leichtgewichtige Architektur und ihre herausragenden Fähigkeiten im multimodalen Verständnis und der Inferenz aus. In mehreren wichtigen Benchmark-Tests übertrafen sie zahlreiche große Modelle, darunter GPT-4o, was in der Branche große Aufmerksamkeit erregt.

QQ_1744593881911.png

Leichtgewicht mit enormer Leistung

Im Gegensatz zu den gängigen großen Modellen mit oft Hunderten von Milliarden oder sogar Billionen Parametern, verwenden Kimi-VL und Kimi-VL-Thinking die MoE-Architektur (Mixture-of-Experts, Expertenmischung) mit nur etwa 3 Milliarden aktivierten Parametern. Dies bedeutet, dass sie effizienter zu betreiben und bereitzustellen sind und geringere Anforderungen an die Rechenressourcen stellen. Erstaunlicherweise erzielten diese Modelle trotz ihrer leichtgewichtigen Architektur in mehreren Benchmark-Tests bemerkenswerte Ergebnisse und demonstrierten damit ihre starke Inferenzfähigkeit.

Multimodale Intelligenz verbessert: Hervorragende Leistungen bei mathematischem Denken und Agentenoperationen

Die Kimi-VL-Modelle zeichnen sich durch ihre Fähigkeiten im Bereich multimodales Denken und Agentenfunktionalität aus. Im MathVision-Benchmark-Test, der die multimodale mathematische Denkfähigkeit von Modellen prüft, erreichte Kimi-VL 36,8 % – eine Leistung, die mit deutlich größeren Modellen mithalten kann.

Noch beeindruckender ist das Ergebnis im ScreenSpot-Pro-Test zur Bewertung der Agenten-Operationsfähigkeit, wo Kimi-VL 34,5 % erreichte. Dies zeigt das große Potenzial des Modells beim Verständnis komplexer Benutzeroberflächen und der Ausführung entsprechender Aktionen und legt den Grundstein für die zukünftige Entwicklung intelligenterer Mensch-Computer-Interaktionsanwendungen.

QQ_1744593893636.png

HD-Sicht: Native Unterstützung für die Verarbeitung hochauflösender Bilder

Dank der MoonViT-Architektur verfügen die Kimi-VL-Modelle über eine starke Bild- und Text-Erkennungs- und -Verständnisfähigkeit. Im OCRBench-Benchmark-Test erreichte es einen Wert von 867, was seine hervorragende Leistung bei der Verarbeitung hochauflösender Bilder und der Erkennung komplexer Texte belegt. Diese Eigenschaft ist für Anwendungen mit vielen Bildern und Dokumenten entscheidend.

Sehr langes Gedächtnis: Müheloses Beherrschen langen Kontextverständnisses

Die Fähigkeit zum Verständnis langer Kontexte ist ein weiteres Highlight der Kimi-VL-Modelle. Sie unterstützen Kontexteingaben von bis zu 128.000 Tokens. Dies bedeutet, dass das Modell längere Dokumente, Videos und andere komplexe lange Textinformationen gleichzeitig verarbeiten und tiefergehend verstehen und analysieren kann.

Im MMLongBench-Doc-Test zum Verständnis langer Dokumente erreichte Kimi-VL 35,1 %, im LongVideoBench-Test zum Verständnis langer Videos sogar 64,5 %. Dies verleiht den Kimi-VL-Modellen ein enormes Anwendungspotenzial in Bereichen wie Dokumentenfragenbeantwortung und Videoanalyse, die die Verarbeitung umfangreicher Kontextinformationen erfordern.

Open Source und gemeinschaftlich: Gemeinsam die Zukunft der multimodalen Intelligenz gestalten

Moonshot AI betont, dass die Open-Source-Veröffentlichung von Kimi-VL und Kimi-VL-Thinking nur ein kleiner Schritt auf dem Weg zur universellen multimodalen Intelligenz ist. Durch Open Source möchten sie mehr Entwickler aus der Community für die Anwendungsentwicklung gewinnen und gemeinsam die unbegrenzten Möglichkeiten der Kimi-VL-Modelle in Bereichen wie Dokumentenfragenbeantwortung, Benutzeroberflächenbedienung, Bild- und Textverständnis sowie Videoanalyse erforschen.

Entwickler können die Informationen und den Code zu den Kimi-VL-Modellen über folgende Wege erhalten:

  • GitHub: https://github.com/MoonshotAI/Kimi-VL

  • https://huggingface.co/moonshotai/Kimi-VL-A3B-Instruct