Le 15 janvier 2025, Beijing Yue Zhi Anmian Technology Co., Ltd. a annoncé la sortie officielle de son nouveau modèle de compréhension d'images multimodales, moonshot-v1-vision-preview. Ce modèle améliore les capacités multimodales de la série de modèles moonshot-v1, aidant Kimi à mieux comprendre le monde.

Le modèle Vision possède de puissantes capacités de reconnaissance d'images, capable d'identifier précisément les détails complexes et les nuances subtiles, qu'il s'agisse de nourriture ou d'animaux, en distinguant des objets similaires mais différents. Par exemple, face à 16 images de pancakes aux myrtilles et de chihuahua similaires et difficiles à distinguer pour l'œil humain, le modèle Vision peut les différencier et les identifier avec précision.

Le modèle Vision possède également des capacités de reconnaissance d'images avancées parmi les meilleures en Chine, offrant d'excellentes performances dans la reconnaissance de caractères optiques (OCR) et la compréhension d'images. Il est plus précis que les logiciels de numérisation et de reconnaissance OCR classiques, capable de reconnaître des contenus manuscrits illisibles tels que des reçus ou des bordereaux d'expédition.

微信截图_20250115135433.png

Le modèle visuel Vision prend en charge les conversations multi-tours, la sortie en continu, l'appel d'outils, le mode JSON, le mode partiel, etc. Cependant, il ne prend pas encore en charge la recherche en ligne, la création de cache de contexte avec contenu d'image, mais il prend en charge l'utilisation du cache déjà créé pour appeler le modèle Vision. Il ne prend pas en charge les images au format URL, et actuellement, seules les images codées en base64 sont prises en charge.

Tarification du modèle

ModèleUnité de facturationPrix
moonshot-v1-8k-vision-preview1M jetons¥12.00
moonshot-v1-32k-vision-preview1M jetons¥24.00
moonshot-v1-128k-vision-preview1M jetons¥60.00