Lanzamiento de la API del modelo de comprensión de imágenes multimodales Kimi de Moonshot

AIbase基地

Publicado elNoticias de IA · 3 minutos de lectura · Jan 15, 2025

373

El 15 de enero de 2025, Beijing Moon's Dark Side Technology Co., Ltd. anunció el lanzamiento oficial de su nuevo modelo de comprensión de imágenes multimodales, moonshot-v1-vision-preview. Este modelo mejora las capacidades multimodales de la serie de modelos moonshot-v1, ayudando a Kimi a comprender mejor el mundo.

El modelo Vision posee una potente capacidad de reconocimiento de imágenes, capaz de identificar con precisión detalles complejos y sutiles, diferenciando objetos similares pero distintos, ya sean alimentos o animales. Por ejemplo, frente a 16 imágenes similares de panqueques de arándanos y cachorros chihuahua, difíciles de distinguir incluso para el ojo humano, el modelo Vision puede diferenciarlos e identificarlos con precisión.

El modelo Vision también cuenta con una capacidad de reconocimiento de imágenes avanzada líder en el país, con un rendimiento excelente en escenarios de reconocimiento de texto OCR y comprensión de imágenes. Es más preciso que los programas de escaneo de documentos y reconocimiento OCR comunes, pudiendo reconocer contenido manuscrito descuidado en recibos, albaranes, etc.

微信截图_20250115135433.png

El modelo de visión Vision admite características como el diálogo multiturno, la salida continua, la llamada a herramientas, el modo JSON, el modo parcial, etc. Sin embargo, actualmente no admite la búsqueda en línea ni la creación de caché de contexto con contenido de imágenes. Sí admite el uso de caché ya creadas para llamar al modelo Vision, no admite imágenes en formato URL y actualmente solo admite el uso de contenido de imágenes codificado en base64.

Precios del modelo

Modelo	Unidad de facturación	Precio
moonshot-v1-8k-vision-preview	1M tokens	¥12.00
moonshot-v1-32k-vision-preview	1M tokens	¥24.00
moonshot-v1-128k-vision-preview	1M tokens	¥60.00

Lanzamiento de kimi-latest de MoonShot AI: Experimente el modelo más reciente de Kimi en primicia

El 18 de febrero, MoonShot AI, con sede en Pekín, anunció el lanzamiento de su último modelo, kimi-latest, en la plataforma abierta Kimi, con el objetivo de ofrecer a los desarrolladores y usuarios empresariales una capacidad de generación de IA más potente y estable. Desde el inicio de la prueba pública de la plataforma abierta Kimi el 31 de enero de 2024, los modelos de la serie moonshot-v1 han sido el pilar fundamental del asistente inteligente Kimi.

通义AI desmiente gastos publicitarios multimillonarios: datos gravemente inexactos, la inversión real fue menor

A través de su cuenta oficial de Weibo, 通义AI, perteneciente a Alibaba, ha desmentido públicamente los datos de inversión en marketing de sus productos de IA que han circulado recientemente. Anteriormente, se difundió en internet información que sugería que varias compañías de IA habían invertido cientos de millones en publicidad durante el tercer trimestre, incluyendo datos específicos sobre la inversión en 通义千问 que generaron gran interés. Según la respuesta oficial de 通义AI, los datos que circulaban, como los 4,5 millones de inversión en 通义千问 durante el tercer trimestre y los 900.000 en los primeros 20 días de octubre, no se corresponden con la realidad. La empresa afirmó que la inversión real fue significativamente menor a la cifra divulgada, aunque no reveló la cantidad exacta.

Kimi lanza la API del modelo moonshot-v1-auto; próximamente, función de búsqueda en línea

La plataforma abierta Kimi lanza recientemente la API del modelo moonshot-v1-auto, que selecciona automáticamente el modelo óptimo para ahorrar costes. También se han actualizado las funciones de inicio de sesión con contraseña de cuenta, cambio de número de teléfono y alerta de saldo, mejorando la experiencia del usuario. En el futuro, se añadirá la función de búsqueda en línea para mejorar las capacidades de la API y ofrecer a los desarrolladores más oportunidades de innovación.

Apple lanza el modelo de visión multimodal 4M-21 de código abierto, capaz de realizar docenas de tareas

Investigadores de Apple y la Escuela Politécnica Federal de Lausana (EPFL) han lanzado conjuntamente un modelo de visión multimodal a gran escala llamado 4M-21 de código abierto. A diferencia de otros modelos optimizados para tareas o tipos de datos específicos, 4M-21 presenta una versatilidad y flexibilidad generalizadas. A pesar de tener solo 3 mil millones de parámetros, puede ofrecer docenas de funciones, incluyendo clasificación de imágenes, detección de objetos, segmentación semántica, segmentación de instancias, estimación de profundidad y estimación de normales de superficie.