Am 15. Januar 2025 gab die in Peking ansässige Firma Beijing Yue Zhi Anmian Technology Co., Ltd. die offizielle Veröffentlichung ihres neuen multimodalen Bildverständnismodells moonshot-v1-vision-preview bekannt. Dieses Modell erweitert die multimodalen Fähigkeiten der moonshot-v1-Modellreihe und unterstützt Kimi dabei, die Welt besser zu verstehen.

Das Vision-Modell verfügt über eine leistungsstarke Bilderkennungsfähigkeit und kann komplexe Details und feine Unterschiede in Bildern präzise erkennen. Es kann sowohl Nahrungsmittel als auch Tiere unterscheiden, selbst wenn diese sich sehr ähnlich sehen. Beispielsweise kann das Vision-Modell 16 ähnliche Bilder von Blaubeer-Muffins und Chihuahuas, die selbst für das menschliche Auge schwer zu unterscheiden sind, genau klassifizieren und erkennen.

Das Vision-Modell bietet zudem eine branchenführende, hochentwickelte Bilderkennungsfähigkeit und zeigt eine hervorragende Leistung bei der OCR-Texterkennung und im Bereich des Bildverständnisses. Es ist genauer als herkömmliche Dokumentenscanner und OCR-Software und kann sogar handschriftliche Inhalte auf Belegen und Lieferscheinen erkennen, selbst wenn diese unleserlich sind.

微信截图_20250115135433.png

Das Vision-Bildmodell unterstützt mehrstufige Dialoge, Streaming-Ausgabe, Funktionsaufrufe, JSON-Modus, Partiellen Modus usw. Derzeit wird jedoch keine Online-Suche unterstützt. Die Erstellung von Context Caches mit Bildinhalten ist nicht möglich, aber die Verwendung bereits erstellter Caches zur Nutzung des Vision-Modells ist unterstützt. Bilder im URL-Format werden nicht unterstützt; aktuell wird nur die Verwendung von Bildern im base64-Format unterstützt.

Modellkosten

ModellAbrechnungseinheitPreis
moonshot-v1-8k-vision-preview1M Tokens¥12,00
moonshot-v1-32k-vision-preview1M Tokens¥24,00
moonshot-v1-128k-vision-preview1M Tokens¥60,00