El 15 de enero de 2025, Beijing Moon's Dark Side Technology Co., Ltd. anunció el lanzamiento oficial de su nuevo modelo de comprensión de imágenes multimodales, moonshot-v1-vision-preview. Este modelo mejora las capacidades multimodales de la serie de modelos moonshot-v1, ayudando a Kimi a comprender mejor el mundo.

El modelo Vision posee una potente capacidad de reconocimiento de imágenes, capaz de identificar con precisión detalles complejos y sutiles, diferenciando objetos similares pero distintos, ya sean alimentos o animales. Por ejemplo, frente a 16 imágenes similares de panqueques de arándanos y cachorros chihuahua, difíciles de distinguir incluso para el ojo humano, el modelo Vision puede diferenciarlos e identificarlos con precisión.

El modelo Vision también cuenta con una capacidad de reconocimiento de imágenes avanzada líder en el país, con un rendimiento excelente en escenarios de reconocimiento de texto OCR y comprensión de imágenes. Es más preciso que los programas de escaneo de documentos y reconocimiento OCR comunes, pudiendo reconocer contenido manuscrito descuidado en recibos, albaranes, etc.

微信截图_20250115135433.png

El modelo de visión Vision admite características como el diálogo multiturno, la salida continua, la llamada a herramientas, el modo JSON, el modo parcial, etc. Sin embargo, actualmente no admite la búsqueda en línea ni la creación de caché de contexto con contenido de imágenes. Sí admite el uso de caché ya creadas para llamar al modelo Vision, no admite imágenes en formato URL y actualmente solo admite el uso de contenido de imágenes codificado en base64.

Precios del modelo

ModeloUnidad de facturaciónPrecio
moonshot-v1-8k-vision-preview1M tokens¥12.00
moonshot-v1-32k-vision-preview1M tokens¥24.00
moonshot-v1-128k-vision-preview1M tokens¥60.00