Boletín diario de IA: Alibaba's Tongyi Qianwen encabeza la lista de modelos de código abierto a nivel mundial; MiniMax lanza el modelo de voz Speech-02; Los usuarios de pago de ChatGPT aumentan a 20 millones

¡Bienvenido a la sección 【AI日报】! Aquí encontrará su guía diaria para explorar el mundo de la inteligencia artificial.Cada día le presentaremos los temas más relevantes del ámbito de la IA, enfocados en desarrolladores, para ayudarle a comprender las tendencias tecnológicas y las innovadoras aplicaciones de los productos de IA.

Conozca los nuevos productos de IA https://top.aibase.com/

1. El modelo de código abierto Qwen2.5-Omni de Alibaba se sitúa en la cima de la clasificación mundial de modelos de código abierto

Hugging Face publicó la última clasificación de modelos de gran tamaño.El Qwen2.5-Omni de Alibaba, gracias a su rendimiento excepcional y sus capacidades multimodales, logró alcanzar la cima, convirtiéndose en el líder mundial de los modelos de código abierto. Este logro no solo demuestra la fortaleza de Alibaba en la investigación y el desarrollo tecnológico, sino que también crea las condiciones para la popularización y aplicación de la tecnología de IA.

【Resumen de AiBase:】
🏆 Qwen2.5-Omni se convierte en el modelo de código abierto número uno a nivel mundial, mostrando un potente rendimiento y capacidades multimodales.
🔍 DeepSeek-V3-0324 y SpatialLM-Llama-1B le siguen de cerca, ofreciendo más opciones a los desarrolladores.
🌐 Alibaba ha lanzado 200 modelos de código abierto, impulsando la popularización y aplicación de la tecnología de IA.

2. MiniMax Audio lanza el modelo de voz Speech-02, capaz de procesar 200.000 caracteres de una sola vez

MiniMax Audio ha lanzado recientemente su nueva serie de modelos de voz Speech-02, compatible con más de 30 idiomas y capaz de procesar hasta 200.000 caracteres a la vez. El nuevo modelo no solo ha alcanzado una similitud con la voz humana del 99% en cuanto a naturalidad en la síntesis de voz, sino que también ha resuelto problemas de ritmo en la reproducción de audio, garantizando una experiencia auditiva fluida. Además, las nuevas funciones "Read Anything" y "Long-Text Mode" permiten a los usuarios acceder y procesar contenido de texto largo de forma más sencilla, mejorando considerablemente la experiencia del usuario.

【Resumen de AiBase:】
🎤 La serie Speech-02 es compatible con más de 30 idiomas, con una similitud de voz del 99%, ofreciendo una experiencia de audio natural y fluida.
📄 La nueva función "Read Anything" permite a los usuarios cargar archivos o pegar URL para escuchar cualquier tipo de contenido.
📝 El "Long-Text Mode" admite la entrada de 200.000 caracteres a la vez, facilitando el procesamiento de textos largos, ideal para audiolibros y podcasts.
Enlace de detalles: https://www.minimax.io/audio

3. ¡Enorme éxito! Los usuarios de pago de ChatGPT aumentan a 20 millones, con un crecimiento anual de ingresos del 30%

En tan solo tres meses, el número de usuarios de pago de ChatGPT de OpenAI ha superado los 20 millones, con un crecimiento anual de ingresos cercano al 30%, lo que demuestra la gran demanda de esta herramienta de inteligencia artificial. A pesar de una ligera disminución en el porcentaje de usuarios de pago, los usuarios activos semanales ya alcanzan los 500 millones. Para apoyar a su creciente base de usuarios, OpenAI planea recaudar 40.000 millones de dólares, aunque la empresa sigue registrando pérdidas y se estima que la rentabilidad se alcanzará dentro de cinco años.

【Resumen de AiBase:】
🌟 Los usuarios de pago de ChatGPT han superado los 20 millones, con un crecimiento anual de ingresos del 30%.
💰 OpenAI planea recaudar 40.000 millones de dólares, mientras sigue en su camino hacia la rentabilidad.
🚀 Competidores como Gemini, Claude y Grok están creciendo rápidamente, intensificando la competencia en el mercado.

4. ElevenLabs lanza "Text To Bark", el primer modelo de texto a voz para perros del mundo

ElevenLabs ha lanzado "Text To Bark", el primer modelo de inteligencia artificial de texto a voz diseñado específicamente para perros. Esta tecnología puede convertir texto escrito en ladridos de perro altamente realistas, afirmando que el 95% de los perros no pueden distinguir el origen del sonido. Esta innovación ofrece nuevas posibilidades para la comunicación entre humanos y mascotas, aunque los perros probablemente no puedan comprender la intención específica.

【Resumen de AiBase:】
🐕‍🦺 El modelo "Text To Bark" convierte texto en ladridos de perro, afirmando que el 95% de los perros no pueden distinguir su autenticidad.
🎤 Los usuarios pueden seleccionar la raza de perro y ajustar el tono y el ritmo del ladrido para adaptarse a diferentes situaciones.
🌐 ElevenLabs planea expandir esta tecnología a otros animales, explorando sistemas de interacción multimodales.
Enlace de detalles: https://top.aibase.com/tool/text-to-bark

5. ¿Cansado de procesar varias imágenes? La actualización de Tencent Yuanbao permite la carga y el procesamiento inteligente de varias imágenes con un solo clic

Tencent Yuanbao ha realizado una importante actualización de funciones, especialmente en la capacidad de reconocimiento de imágenes. Los usuarios ahora pueden cargar hasta 10 imágenes a la vez, utilizando los modelos Hun Yuan o DeepSeek para lograr una identificación e interpretación coherente de las imágenes. Esta función demuestra una alta utilidad en aplicaciones prácticas, ayudando a los usuarios a extraer información rápidamente, generar textos e incluso convertir bocetos en demos web.

【Resumen de AiBase:】
📸 Permite cargar 10 imágenes a la vez, mejorando la eficiencia del reconocimiento de imágenes.
📝 Combinado con la capacidad de comprensión multimodal de Hun Yuan, ofrece un análisis de contenido y generación de textos coherentes.
💻 Compatible con múltiples plataformas, incluyendo móvil, ordenador y web, con una operación sencilla.

6. Lanzamiento del modelo EasyControl_Ghibli: desbloquea gratuitamente la generación de imágenes al estilo de Studio Ghibli

El lanzamiento del modelo EasyControl_Ghibli proporciona a los usuarios una herramienta gratuita para generar fácilmente imágenes al estilo de Studio Ghibli. Supera las limitaciones de la generación tradicional de imágenes de IA, permitiendo que incluso los usuarios comunes participen en la creación artística y experimenten la diversión y calidez de la tecnología. Aunque el modelo aún tiene margen de mejora, su naturaleza de código abierto y su facilidad de uso abren nuevas posibilidades para la educación, el entretenimiento y la expresión personal, mostrando el potencial y el encanto de la tecnología de IA.

【Resumen de AiBase:】
🌟 El modelo EasyControl_Ghibli está disponible en la plataforma Hugging Face, permitiendo a los usuarios generar imágenes al estilo de Studio Ghibli de forma gratuita.
🖼️ Este modelo se entrenó con 100 fotos reales de rostros asiáticos, capaz de capturar la luz y las emociones de las obras de Studio Ghibli.
🚀 La naturaleza de código abierto y la facilidad de uso del modelo permiten a los usuarios comunes participar fácilmente en la creación artística, acercando a las personas.
Enlace de detalles: https://top.aibase.com/tool/easycontrol-ghibli

7. Lanzamiento oficial de PaddlePaddle 3.0: compatible con modelos de gran tamaño como Wenxin 4.5, reduciendo el coste de adaptación entre chips en un 80%

PaddlePaddle, la plataforma de aprendizaje profundo de Baidu, ha lanzado recientemente su nueva generación de framework 3.0, marcando una importante innovación tecnológica en el campo del aprendizaje profundo. Este framework, mediante la introducción de cinco innovaciones tecnológicas clave, como el paralelismo automático unificado estático-dinámico, reduce significativamente el coste de desarrollo y entrenamiento de modelos de gran tamaño, mejorando al mismo tiempo el rendimiento y la adaptabilidad. PaddlePaddle 3.0 es compatible con varios modelos de gran tamaño y permite una migración fluida entre chips, reduciendo el coste de adaptación de hardware en un 80%.

【Resumen de AiBase:】
⚙️ PaddlePaddle 3.0 introduce cinco innovaciones tecnológicas clave, reduciendo el coste de desarrollo y entrenamiento de modelos de gran tamaño.
📈 Mediante la implementación optimizada de DeepSeek-R1 en una sola máquina, el rendimiento aumenta hasta el doble.
💻 Compatible con más de 60 chips principales, permitiendo una migración fluida entre chips, reduciendo el coste de adaptación en un 80%.

8. Krea integra la generación de imágenes a partir de texto y la edición de imágenes de Gemini: la interfaz de chat experimenta un salto cualitativo en la usabilidad

Krea, tras su reciente integración profunda con Google Gemini, ha incorporado con éxito las funciones de generación de imágenes a partir de texto y edición de imágenes, mejorando considerablemente la capacidad de generación de la plataforma y la experiencia del usuario. Esta actualización transforma la interfaz de chat de Krea de una simple herramienta de conversación a una plataforma de creación integral, capaz de generar y editar contenido visual rápidamente, reduciendo la barrera de entrada para la creación.

【Resumen de AiBase:】
🖼️ Krea se integra con Google Gemini, lanzando funciones de generación de imágenes a partir de texto y edición de imágenes, mejorando la experiencia del usuario.
💡 Los usuarios pueden generar y editar imágenes rápidamente mediante descripciones en lenguaje natural, reduciendo la barrera de entrada para la creación.
🚀 Esta actualización podría acortar el ciclo de producción en la industria creativa, impulsando la eficiencia del trabajo en equipo.

9. Tencent lanza GeometryCrafter: utilizando la IA para desbloquear la belleza de la coherencia geométrica en videos de mundos abiertos

El modelo GeometryCrafter, recientemente lanzado por Tencent, ha logrado un gran avance en la estimación geométrica de videos de mundos abiertos. Utilizando la tecnología de priorización difusa, ha logrado una comprensión y procesamiento profundos del contenido dinámico de video. Este modelo puede extraer y generar información geométrica coherente sin necesidad de información adicional, llenando un vacío en este campo.

【Resumen de AiBase:】
🌐 GeometryCrafter utiliza la tecnología de priorización difusa para lograr una estimación geométrica coherente en videos de mundos abiertos, mejorando la capacidad de comprensión profunda del contenido de video.
🔍 Este modelo puede generar secuencias de profundidad y estructuras geométricas detalladas y coherentes sin necesidad de datos de posición de la cámara o flujo óptico, llenando un vacío en la industria.
💡 Tencent ha optado por lanzar el código fuente del modelo en Hugging Face, impulsando la democratización de la tecnología de IA y permitiendo que más creadores participen en la exploración tecnológica.
Enlace de detalles: https://huggingface.co/papers/2504.01016

10. Meta lanza el sistema de IA MoCha: convierte texto en personajes animados dinámicos en segundos, con movimientos labiales y corporales naturales y fluidos

El sistema de IA MoCha, desarrollado conjuntamente por Meta y el equipo de investigación de la Universidad de Waterloo, genera personajes animados de cuerpo completo a partir de descripciones de texto, con la capacidad de sincronizar el habla y los movimientos naturales. El lanzamiento de esta tecnología marca una mejora significativa en la eficiencia y la expresividad de la creación de contenido, mostrando un gran potencial de aplicación en áreas como asistentes digitales y avatares virtuales.

【Resumen de AiBase:】
🎭 El sistema MoCha puede generar personajes animados de cuerpo completo a partir de texto, con movimientos naturales y sincronización de voz.
🗣️ Mediante un innovador mecanismo de "atención de ventana de voz-video", MoCha logra una sincronización labial más precisa, resolviendo los desafíos en la generación de audio y video.
👥 El sistema de gestión de múltiples personajes es sencillo y eficiente. Los usuarios solo necesitan definir la información del personaje una vez para poder utilizarla en diferentes escenas, mejorando la comodidad de creación.
Enlace de detalles: https://top.aibase.com/tool/mocha

11. GPT-4.5 supera por primera vez la prueba de Turing mediante la "interpretación de roles": la capacidad de diálogo de la IA alcanza nuevas cotas

Un estudio de la Universidad de California en San Diego muestra que GPT-4.5 de OpenAI superó por primera vez el rendimiento humano en la prueba de Turing mediante la "interpretación de roles", convirtiéndose en el sistema de IA con mayor capacidad de diálogo similar a la humana. Este modelo destaca por su naturalidad lingüística y su expresión emocional, capaz de responder de forma flexible a los cambios emocionales del evaluador, mostrando una inteligencia social similar a la humana. Este avance no solo impulsa el desarrollo de la tecnología de IA, sino que también genera un profundo debate sobre los estándares de inteligencia artificial.

【Resumen de AiBase:】
🤖 GPT-4.5 supera el rendimiento humano en la prueba de Turing estándar con una tasa de aprobación del 73%, convirtiéndose en el primer modelo de IA que realmente la "aprueba".

Noticias de IA

IA Diario

Cronología de la IA

Últimos Casos

Colección de Imágenes

Colección de Videos

Colección de Audio

Colección de Contenido

Últimos Tutoriales

Ranking de Productos de IA

Ranking de Crecimiento de Tráfico de IA

Ranking de Descenso de Tráfico de IA

Ranking Semanal de IA

Estados Unidos

China

India

Brasil

Generación de Imágenes

Asistente Personal

Generación de Personajes

Generación de Videos

Ranking de Proyectos de IA

Ranking de Crecimiento de Proyectos de IA

Ranking de Desarrolladores de IA

Ranking de Organizaciones de IA

Deepseek

TTS

LLM

ChatGPT

Visión General

Boletín diario de IA: Alibaba's Tongyi Qianwen encabeza la lista de modelos de código abierto a nivel mundial; MiniMax lanza el modelo de voz Speech-02; Los usuarios de pago de ChatGPT aumentan a 20 millones

站长之家

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas

阿里通义千问 Qwen-2.5-Omni encabeza la lista mundial de modelos de código abierto

Versión preliminar del modelo de inferencia QwQ-Max de Alibaba Tongyi Qianwen disponible en qwen.ai