¡Bienvenido a la sección 【AI日报】! Aquí encontrará su guía diaria para explorar el mundo de la inteligencia artificial. Todos los días le presentaremos los temas más relevantes del ámbito de la IA, con enfoque en los desarrolladores, para ayudarle a comprender las tendencias tecnológicas y las innovadoras aplicaciones de los productos de IA.

Conozca los nuevos productos de IA aquí: https://top.aibase.com/

1. Lanzamiento de la API del modelo de comprensión de imágenes multimodales Kimi de Moon's Dark Side

El 15 de enero de 2025, Moon's Dark Side Technology Co., Ltd. de Beijing lanzó oficialmente su nuevo modelo de comprensión de imágenes multimodales moonshot-v1-vision-preview. Este modelo mejora aún más las capacidades multimodales de la serie moonshot-v1 existente, con el objetivo de ayudar a Kimi a comprender mejor el mundo. Este modelo Vision posee una capacidad de reconocimiento de imágenes excepcional, capaz de identificar detalles complejos y distinguir objetos similares, con un rendimiento sobresaliente, especialmente en el reconocimiento de texto OCR y la comprensión de imágenes, superando la precisión de los softwares tradicionales.

image.png

【Resumen de AiBase:】

🖼️ El modelo Vision posee una potente capacidad de reconocimiento de imágenes, capaz de distinguir con precisión detalles complejos y objetos similares.

📄 Presenta un rendimiento excelente en el reconocimiento de texto OCR y la comprensión de imágenes, superando a los softwares comunes en la capacidad de reconocer escritura a mano descuidada.

💬 El modelo admite características como diálogos de varias rondas y llamadas a herramientas, ofreciendo un uso flexible, pero no admite la búsqueda en línea.

2. MiniMax lanza la nueva serie de modelos MiniMax-01 de código abierto

MiniMax lanzó el 15 de enero de 2025 su nueva serie de modelos de código abierto MiniMax-01, que incluye el modelo de lenguaje básico MiniMax-Text-01 y el modelo multimodal visual MiniMax-VL-01. Esta serie, mediante un innovador mecanismo de atención lineal y una gran cantidad de parámetros, ha logrado un procesamiento eficiente de textos largos, con un rendimiento comparable al de los modelos internacionales de vanguardia.

image.png

【Resumen de AiBase:】

🧠 La serie de modelos MiniMax-01 utiliza un innovador mecanismo de atención lineal, superando las limitaciones de las arquitecturas tradicionales y permitiendo el procesamiento de contextos de hasta 4 millones de tokens.

💡 Esta serie de modelos iguala el rendimiento de GPT-4o y Claude-3.5-Sonnet en varias tareas, destacando especialmente en tareas con textos largos.

💰 MiniMax ofrece servicios de API de comprensión de texto y multimodales al precio más bajo del sector, con una tarifa estándar de 1 yuan/millón de tokens de entrada y 8 yuanes/millón de tokens de salida.

Enlace de detalles: https://github.com/MiniMax-AI

3. Zhou Hongyi participa en el rodaje de una serie corta de IA, con efectos especiales e hardware de IA

Zhou Hongyi, fundador del grupo 360, anunció su participación en el rodaje de la primera serie corta de IA de China. La serie se rodará en Xi'an y se prevé que se estrene durante el Festival de Primavera. La serie, con temática de viajes en el tiempo, constará de 60 episodios y tiene como objetivo transmitir energía positiva y evitar tramas melodramáticas. Zhou Hongyi espera mostrar la tecnología de IA a través de la serie corta, promover su popularización en la vida diaria y, al mismo tiempo, impulsar el desarrollo del producto de búsqueda de IA nanométrica de 360.

image.png

【Resumen de AiBase:】

🌟 La serie corta se rodará en Xi'an y se estrenará durante el Festival de Primavera. Su temática es el viaje en el tiempo y constará de 60 episodios.

🤖 Las imágenes de efectos especiales serán generadas por la búsqueda de IA nanométrica, reduciendo los costes de producción y mejorando los efectos visuales.

📚 Tiene como objetivo popularizar los conocimientos de IA, ayudar a todos a dominar la tecnología de IA y eliminar la brecha digital.

4. El laboratorio de investigación de Alibaba, DAMO Academy, lanza Valley2, un gran modelo multimodal para el comercio electrónico

Valley2, lanzado por DAMO Academy de Alibaba, es un gran modelo de lenguaje multimodal diseñado específicamente para el comercio electrónico, con el objetivo de mejorar el rendimiento en diversas áreas y ampliar los límites de sus aplicaciones. Este modelo, que combina un codificador visual avanzado y un innovador módulo de procesamiento, ha demostrado un rendimiento excepcional en varias pruebas de referencia, lo que representa un avance significativo en los modelos de lenguaje multimodales.

image.png

【Resumen de AiBase:】

🌟 Valley2 está diseñado para el comercio electrónico, utilizando Qwen2.5 como base y combinándolo con el codificador visual SigLIP-384 para mejorar el procesamiento multimodal.

📊 El proceso de entrenamiento incluye el alineamiento texto-visual y el entrenamiento posterior del pensamiento en cadena, garantizando la eficiencia del modelo en la resolución de problemas complejos.

🏆 Valley2 ha demostrado un rendimiento excepcional en varias pruebas de referencia públicas, superando a modelos de tamaño similar, especialmente en aplicaciones del comercio electrónico.

Enlace de detalles: https://www.modelscope.cn/models/bytedance-research/Valley-Eagle-7B

5. ¡Llega el agente inteligente ChatGPT! Se lanza la función "Tareas": gestión inteligente de recordatorios y tareas pendientes

OpenAI lanzó recientemente la nueva función "Tareas" para ChatGPT, que permite a los usuarios programar acciones y recordatorios futuros, haciéndolo más parecido a un asistente digital tradicional. Esta función ya se ha implementado para los usuarios suscritos a Plus, Team y Pro, quienes pueden simplemente introducir la tarea y la hora, y ChatGPT se encargará de ello. Sin embargo, por ahora solo está disponible para usuarios de pago.

image.png

【Resumen de AiBase:】

✅ La nueva función "Tareas" permite a los usuarios programar acciones y recordatorios futuros, mejorando la utilidad de ChatGPT.

🔔 Los usuarios pueden informar a ChatGPT de la tarea y la hora que necesitan simplemente introduciéndolos, facilitando la gestión de las tareas diarias.

💼 Actualmente solo está disponible para usuarios de pago, no está claro si se ofrecerá a usuarios gratuitos, se espera que siga siendo una función premium.

6. Kokoro-TTS, un pequeño modelo de texto a voz, que llegó a ser el número uno en la clasificación de TTS

Kokoro es un nuevo modelo de síntesis de voz recién lanzado, con 82 millones de parámetros, que rápidamente se ha destacado en el campo de la TTS. Tras su lanzamiento en la plataforma Hugging Face, obtuvo el primer puesto en la clasificación con solo 100 horas de datos de audio, demostrando una excelente relación calidad-precio. Aunque actualmente existen limitaciones en la clonación de voz, la conformidad y eficiencia de su proceso de entrenamiento sientan las bases para su desarrollo futuro.

image.png

【Resumen de AiBase:】

🌟 Kokoro-82M es un nuevo modelo de síntesis de voz con 82 millones de parámetros y admite varios paquetes de voz.

🎤 Este modelo ha demostrado un rendimiento excepcional en el campo de la TTS, alcanzando el primer puesto en la clasificación con menos de 100 horas de datos de audio para su entrenamiento.

📊 El entrenamiento del modelo Kokoro utilizó datos con licencia abierta, garantizando su cumplimiento, aunque actualmente presenta algunas limitaciones funcionales.

Enlace de detalles: https://huggingface.co/hexgrad/Kokoro-82M

7. Topview AI lanza Product Avatar, el primer avatar digital del mundo que admite la generación de productos en mano

La solución de avatar digital "Product Avatar" de Topview AI ha revolucionado el sector del comercio electrónico. Los comerciantes solo necesitan subir una imagen del producto, y la IA generará un avatar digital que lo sostenga y lo presente mediante locución, ahorrando tiempo y costes de grabación. Este producto también admite varios idiomas y personalización, marcando el inicio de una nueva etapa en la comercialización online impulsada por la IA.

image.png

【Resumen de AiBase:】

🤖 La generación de avatares digitales de IA es rápida y no requiere modelos humanos, ahorrando tiempo y costes.

🌍 Admite más de 1000 modelos de avatares digitales y 28 idiomas, satisfaciendo las necesidades del mercado global.

🎥 Un modo de presentación de productos flexible y eficiente, los comerciantes pueden cambiar los productos en cualquier momento, mejorando la eficiencia de la promoción.

Enlace de detalles: https://www.topview.ai/ai-product-avatar

8. Nvidia invierte 4 millones de dólares en MetAI para convertir archivos CAD en mundos 3D en cuestión de minutos

Nvidia realizó recientemente una ronda semilla de financiación de 4 millones de dólares a la empresa emergente MetAI, con el objetivo de impulsar el desarrollo de la tecnología de gemelos digitales de IA. MetAI se centra en utilizar la IA y la tecnología 3D para convertir rápidamente archivos CAD en entornos 3D funcionales, reduciendo considerablemente el tiempo de creación de gemelos digitales. La empresa planea trasladar su sede a Estados Unidos en 2025 y ampliar su equipo de I+D para satisfacer la creciente demanda del mercado.

image.png

【Resumen de AiBase:】

🌟 Nvidia invierte 4 millones de dólares en la empresa emergente MetAI para impulsar el desarrollo de la tecnología de gemelos digitales de IA.

🤖 MetAI utiliza la IA y la tecnología 3D para convertir rápidamente los archivos CAD en entornos 3D funcionales, reduciendo el tiempo de creación de gemelos digitales.

🚀 MetAI planea trasladar su sede a Estados Unidos en 2025 y ampliar su equipo de I+D para hacer frente a la creciente demanda del mercado.

9. Siete mejoras en las capacidades principales de iFlytek StarFire 4.0 Turbo: capacidades matemáticas y de código que superan a GPT-4o

La mejora integral de iFlytek StarFire 4.0 Turbo marca otro gran avance de iFlytek en el campo de la inteligencia artificial. Esta actualización no solo ha mejorado significativamente las siete capacidades principales, como la generación de texto y la comprensión del lenguaje, sino que también ha superado a GPT-4o en capacidades matemáticas y de código, mostrando una capacidad aún mayor para resolver problemas matemáticos complejos.

image.png

【Resumen de AiBase:】

🔢 Mejora significativa de las capacidades matemáticas, superando a GPT-4o y capaz de resolver problemas matemáticos complejos.

💻 Nuevo modelo de inferencia profunda StarFire X1, con 175 mil millones de parámetros, adecuado para el análisis de datos en profundidad.

📈 iFlytek ha invertido un total acumulado de 12.500 millones de yuanes en I+D desde 2020, apoyando el desarrollo continuo de la tecnología de IA.

10. Gemini AI logra un nuevo avance en el procesamiento visual: análisis simultáneo de vídeo en tiempo real e imágenes estáticas

Gemini AI de Google ha logrado recientemente un importante avance en el campo del procesamiento visual, capaz de procesar simultáneamente vídeo en tiempo real e imágenes estáticas. Esta tecnología, demostrada mediante la aplicación experimental AnyChat, marca un avance en el procesamiento de múltiples flujos de la inteligencia artificial. Los desarrolladores pueden utilizar la arquitectura de Gemini para crear plataformas personalizadas aplicables a diversos campos, como la educación y el arte, mostrando un amplio potencial de aplicación.

image.png

【Resumen de AiBase:】

🌟 Gemini AI logra el procesamiento simultáneo de vídeo en tiempo real e imágenes estáticas, superando las limitaciones anteriores.

🎨 La plataforma AnyChat muestra el amplio potencial de aplicación de la IA en campos como la educación y el arte.

🚀 Los desarrolladores pueden utilizar fácilmente la tecnología de Gemini para construir sus propias aplicaciones de IA visual.

Enlace de detalles: https://huggingface.co/spaces/akhaliq/anychat

11. Lanzamiento del gran modelo de voz de interpretación simultánea StarFire de iFlytek: alcanza el nivel de los intérpretes humanos expertos

iFlytek lanzó hoy el gran modelo de voz de interpretación simultánea StarFire, marcando el lanzamiento del primer gran modelo de China con capacidad de interpretación simultánea de voz de extremo a extremo. El lanzamiento de esta tecnología ha mejorado significativamente la fluidez y precisión de la traducción, especialmente en contextos de intercambio internacional. Este modelo admite la traducción instantánea de varios idiomas, con un tiempo de respuesta de menos de 5 segundos, alcanzando el nivel de los intérpretes humanos expertos, lo que presagia una mayor comodidad y eficiencia en los intercambios internacionales futuros.

【Resumen de AiBase:】

🚀 El gran modelo de voz de interpretación simultánea StarFire es el primer gran modelo de China con capacidad de interpretación simultánea de voz de extremo a extremo, mejorando significativamente los resultados de la traducción.

🌍 Este modelo prácticamente elimina el retraso en la traducción del inglés al chino, adecuado para eventos internacionales, turismo, etc.

⚡ Admite traducción en tiempo real y ajuste de velocidad de habla adaptable, mejorando significativamente la naturalidad y fluidez de la traducción, superando las tecnologías internacionales similares.

12. OpenBMB lanza el modelo multimodal MiniCPM-o2.6: procesamiento visual y de voz también en teléfonos móviles

MiniCPM-o2.6, lanzado por OpenBMB, es un modelo multimodal con 8 mil millones de parámetros, diseñado para abordar el desafío de la alta demanda de recursos informáticos y la compatibilidad con dispositivos de borde. Este modelo presenta un rendimiento excepcional en el procesamiento visual, de voz y de lenguaje, pudiendo ejecutarse eficientemente en teléfonos inteligentes y tabletas. Gracias a su diseño modular, MiniCPM-o2.6 integra varios componentes potentes y admite procesamiento en tiempo real y funciones multilingües.

image.png

【Resumen de AiBase:】

🌟 MiniCPM-o2.6 es un modelo multimodal con 8 mil millones de parámetros que puede ejecutarse eficientemente en dispositivos de borde, admitiendo el procesamiento visual, de voz y de lenguaje.