¡Bienvenido a la sección 【AI日报】! Aquí encontrará su guía diaria para explorar el mundo de la inteligencia artificial. Todos los días le presentaremos los temas más relevantes del ámbito de la IA, enfocados en desarrolladores, para ayudarle a comprender las tendencias tecnológicas y las innovadoras aplicaciones de productos de IA.

Conozca los nuevos productos de IA https://top.aibase.com/

1. DeepSeek publica una actualización de su estrategia de paralelismo cuatro días después de su lanzamiento de código abierto: las tecnologías DualPipe y EPLB impulsan la revolución del entrenamiento de modelos a gran escala

DeepSeek ha presentado una estrategia de paralelismo optimizada en el cuarto día de su proyecto de código abierto, destacando el algoritmo de paralelismo de canal de doble dirección DualPipe y el equilibrador de carga dinámico EPLB. Estas tecnologías están diseñadas para abordar los problemas centrales del entrenamiento de modelos de lenguaje a gran escala, mejorando significativamente la eficiencia computacional y la utilización de recursos.

image.png

【Resumen de AiBase:】

🔄 El algoritmo DualPipe implementa canales de flujo de datos bidireccionales, lo que aumenta el rendimiento computacional y es adecuado para el entrenamiento de modelos con escalas de parámetros de cientos de miles de millones a billones.

⚖️ El equilibrador de carga dinámico EPLB resuelve el problema de los expertos populares en modelos de expertos mixtos, aumentando la utilización general a más del 92%.

📊 Las herramientas de optimización de superposición de cómputo y comunicación construyen un modelo de eficiencia espacio-temporal, reduciendo el tiempo de entrenamiento de extremo a extremo en aproximadamente un 15%.

Enlace de detalles: https://github.com/deepseek-ai/DualPipe

2. Alibaba inicia la campaña de reclutamiento de primavera de 2026, ofreciendo 3000 puestos de trabajo, casi el 50% relacionados con la IA

Alibaba ha iniciado oficialmente la campaña de reclutamiento de becarios de primavera de 2026, ofreciendo más de 3000 puestos de trabajo, de los cuales casi el 50% están relacionados con la inteligencia artificial. La proporción de puestos de IA es aún mayor en algunos departamentos, como Amap (65%) y Alibaba Cloud (más del 80%). Esta campaña de reclutamiento abarca varios departamentos, lo que demuestra la importancia que Alibaba otorga a la tecnología de IA y su continua atención a los puestos de trabajo relacionados con la tecnología, especialmente en el campo de la IA.

image.png

【Resumen de AiBase:】

🤖 Alibaba inicia la campaña de reclutamiento de becarios de primavera de 2026, ofreciendo 3000 puestos de trabajo, de los cuales casi el 50% están relacionados con la IA.

📈 En departamentos como Amap y Alibaba Cloud, la proporción de puestos de IA es significativamente alta, alcanzando el 65% y el 80%, respectivamente.

💼 Las operaciones de IA B2C de Alibaba han comenzado una contratación a gran escala, con el 90% de los puestos concentrados en el desarrollo de tecnología y productos de IA.

3. ElevenLabs lanza el modelo de voz a texto Scribe, con una precisión sin precedentes: 96.7% en inglés

ElevenLabs ha lanzado recientemente su último modelo de voz a texto, Scribe v1, que afirma haber alcanzado la mayor precisión en varios idiomas. Este modelo admite 99 idiomas y puede distinguir con precisión hasta 32 hablantes diferentes en entornos de audio complejos. El precio de Scribe es de 0,40 dólares por hora, con un descuento del 50% durante las próximas seis semanas.

image.png

【Resumen de AiBase:】

🌟 Scribe v1 es el último modelo de voz a texto de ElevenLabs, que ha establecido un nuevo estándar de precisión en múltiples idiomas.

🗣️ Admite 99 idiomas y puede distinguir hasta 32 hablantes diferentes, adaptándose a entornos de audio complejos.

💰 El precio actual es de 0,40 dólares por hora, con un descuento del 50% durante las próximas seis semanas; se está desarrollando una versión de baja latencia.

Enlace de detalles: https://elevenlabs.io/blog/meet-scribe

4. Microsoft lanza Phi-4, un modelo multimodal y mini, que mejora el procesamiento de voz, visión y texto

Microsoft ha lanzado recientemente los nuevos modelos de la serie Phi-4, incluyendo Phi-4 multimodal y Phi-4 mini, mejorando significativamente la capacidad de procesamiento de las aplicaciones de IA. El modelo Phi-4 multimodal integra el procesamiento de voz, visión y texto, con 56 millones de parámetros, y ha demostrado un rendimiento excepcional en varias pruebas de referencia, especialmente en tareas de reconocimiento automático de voz y traducción. Phi-4 mini se centra en el procesamiento de texto, con 38 millones de parámetros, y también muestra un rendimiento excelente.

image.png

【Resumen de AiBase:】

🎤 El modelo Phi-4 multimodal es el primer modelo de arquitectura unificada de Microsoft que integra el procesamiento de voz, visión y texto, con 56 millones de parámetros, superando a muchos competidores.

📊 El modelo Phi-4 multimodal destaca en el procesamiento visual y el razonamiento matemático, pudiendo comprender eficazmente documentos y gráficos, y realizar reconocimiento óptico de caracteres.

📝 El modelo Phi-4 mini se centra en el procesamiento de texto, con 38 millones de parámetros, mostrando un rendimiento excepcional en tareas de razonamiento de texto y programación, superando a varios modelos de lenguaje grandes populares.

5. Hugging Face lanza FastRTC: el desarrollo de aplicaciones de voz y video en tiempo real se vuelve increíblemente sencillo

Hugging Face ha lanzado recientemente FastRTC, una biblioteca de Python de código abierto diseñada para simplificar el proceso de desarrollo de aplicaciones de IA de audio y video en tiempo real. Esta biblioteca automatiza las complejas funciones de comunicación en tiempo real, permitiendo a los desarrolladores crear aplicaciones básicas en tiempo real con pocas líneas de código, reduciendo drásticamente el tiempo de desarrollo.

image.png

【Resumen de AiBase:】

🎉 Hugging Face lanza FastRTC, una biblioteca de Python de código abierto diseñada para simplificar el desarrollo de aplicaciones de IA de audio y video en tiempo real.

⚡ FastRTC puede realizar tareas que antes requerían semanas de trabajo en pocas líneas de código, permitiendo a los desarrolladores de Python existentes construir fácilmente funciones de voz y video.

🌟 El lanzamiento de esta biblioteca representa una gran oportunidad para el mundo de la IA, promoviendo formas más naturales de interacción humano-computadora y ayudando a las empresas a satisfacer las necesidades de los usuarios más rápidamente.

Enlace de detalles: https://huggingface.co/fastrtc

6. Lienzo de IA nodal FLORA: simplifica el flujo de trabajo creativo, desde el análisis de historias hasta la generación de contenido visual

El lienzo de IA nodal FLORA, lanzado recientemente, es una herramienta diseñada para profesionales creativos que busca simplificar el flujo de trabajo creativo mediante la integración de múltiples funciones de IA. Su núcleo es un sistema nodal que permite a los usuarios crear nodos independientes para procesar diferentes tareas. Las funciones de análisis de historias y generación de indicaciones, herramientas de diseño de personajes y colaboración en equipo de FLORA hacen que el trabajo creativo sea más eficiente y flexible.

image.png

【Resumen de AiBase:】

🖌️ El sistema nodal permite a los usuarios procesar tareas creativas independientes, mejorando la eficiencia del trabajo.

📖 Las herramientas de análisis de historias y diseño de personajes pueden generar indicaciones detalladas para usar con generadores de imágenes de IA avanzados.

🤝 Admite la colaboración en equipo en tiempo real, con una interfaz amigable adecuada para usuarios con poca experiencia técnica.

7. ¿A punto de lanzarse? OpenAI GPT-4.5 aparece en la versión beta de la aplicación Android

OpenAI se está preparando para la versión preliminar de su próxima generación de modelos de lenguaje, GPT-4.5, generando un gran interés. Este modelo se lanzará como una opción experimental en la aplicación de Android de ChatGPT, inicialmente solo para usuarios suscritos a Pro. Aunque las funciones específicas aún no están claras, se espera que GPT-4.5 sea el sucesor de la versión gratuita de ChatGPT, posiblemente con límites de conversación más altos.

image.png

【Resumen de AiBase:】

🚀 GPT-4.5 está a punto de lanzarse, inicialmente para usuarios suscritos a Pro.

🔍 Este modelo aparece como una opción experimental en la aplicación de Android de ChatGPT, cuyas funciones específicas aún no están claras.

💰 La suscripción Pro cuesta 200 dólares al mes y ofrece más funciones y menos restricciones.

8. La aplicación de asistente inteligente de IA Doubao de ByteDance lanza la función "Fotos en movimiento"

La aplicación Doubao de ByteDance ha lanzado la función "Fotos en movimiento", diseñada para convertir fotos estáticas antiguas en videos dinámicos. Los usuarios solo necesitan subir una foto y describir la acción para lograr esta transformación. Esta función no solo agrega color a los recuerdos de los usuarios, sino que también da nueva vida a momentos preciados, reflejando la combinación de tecnología y emoción.

image.png

【Resumen de AiBase:】

📸 Esta función permite a los usuarios convertir fotos estáticas antiguas en videos dinámicos, satisfaciendo la necesidad de los usuarios de animar sus fotos antiguas.

💡 Es fácil de usar: los usuarios solo necesitan subir una foto y describir las acciones que aparecen en ella para generar el efecto dinámico.

❤️ La aplicación Doubao espera ayudar a los usuarios a tener una conversación a través del tiempo con su yo del pasado, conservando momentos preciosos.

9. Modelo de texto a voz IndexTTS de Bilibili: admite la corrección de la pronunciación de caracteres chinos con pinyin y un control preciso de las pausas

El modelo IndexTTS de Bilibili es un sistema de texto a voz de estilo GPT basado en XTTS y Tortoise, con una capacidad única de corrección de la pronunciación de caracteres chinos con pinyin y un control preciso de las pausas. Después de un entrenamiento con miles de horas de datos, IndexTTS ha demostrado un rendimiento excepcional en la tasa de error de palabras y la evaluación de la calidad del sonido, superando a varios sistemas TTS populares y mostrando un rendimiento líder en la industria.

image.png

【Resumen de AiBase:】

🌟 IndexTTS es un modelo TTS de estilo GPT basado en XTTS y Tortoise, capaz de corregir la pronunciación de caracteres chinos y controlar las pausas.

📊 El sistema ha sido entrenado con miles de horas de datos, superando a varios sistemas TTS populares existentes y mostrando un rendimiento líder en la industria.

🔍 IndexTTS ha demostrado un rendimiento excepcional en varias evaluaciones, con tasas de error de palabras y calidad de sonido superiores a otros modelos, mostrando sus sólidas ventajas.

Enlace de detalles: https://github.com/index-tts/index-tts

10. El usuario global mensual de Kuaishou Keling AI aumentó un 113% interanual en enero

Según los últimos datos, el número de usuarios mensuales globales de Kuaishou Keling AI aumentó un 113% interanual en enero. UBS señala que el entretenimiento y la educación online son los campos centrales de aplicación de la IA, y Kuaishou, con su Keling AI de desarrollo propio, ocupa una posición líder en los modelos de generación de video globales. Recientemente, Kuaishou lanzó una función de referencia de varias imágenes, que permite a los usuarios subir varias imágenes de referencia, mejorando aún más la experiencia del usuario y la libertad creativa.

image.png

【Resumen de AiBase:】

📊 El número de usuarios mensuales globales de Kuaishou Keling AI aumentó un 113% interanual en enero.

🎓 El entretenimiento y la educación online son escenarios clave para la aplicación de la IA.

🖼️ La nueva función de referencia de varias imágenes de Keling AI permite a los usuarios subir varias imágenes de referencia.

11. Un profesor universitario dice que los ensayos generados por IA reciben una calificación de cero

Con el rápido desarrollo de la tecnología de inteligencia artificial, las herramientas de IA se han convertido en asistentes para que los estudiantes universitarios completen informes y trabajos de investigación. Sin embargo, algunos profesores universitarios señalan que existe una conducta académica deshonesta entre los estudiantes que dependen del contenido generado por IA, por lo que las universidades han implementado políticas según las cuales los ensayos generados por IA recibirán una calificación de cero. Esta medida tiene como objetivo enfatizar la integridad académica y oponerse a la dependencia excesiva de la tecnología.

image.png

【Resumen de AiBase:】

📚 Algunos profesores universitarios señalan que existe una conducta académica deshonesta entre los estudiantes que dependen del contenido generado por IA.

🚫 Las universidades han implementado políticas según las cuales los ensayos generados por IA recibirán una calificación de cero.

🧠 Las reacciones de los internautas son diversas, con opiniones a favor y en contra, enfatizando la importancia de la integridad académica.

12. Jugadora de Go de 19 años sancionada con 8 años de suspensión por hacer trampa con IA

La Asociación China de Go ha impuesto una dura sanción a la jugadora profesional Qin Siyue por hacer trampa en el Campeonato Nacional de Go, revocando su rango profesional y suspendiéndola por ocho años. Qin Siyue llevaba un teléfono móvil durante la competición y utilizó un programa de inteligencia artificial para hacer trampa, un hecho grave que además ocultó al ser interrogada. Esta sanción tiene como objetivo mantener la equidad y la justicia en el sector del Go, advirtiendo a los jugadores para que cumplan con las normas de la competición y eliminen las prácticas de trampa.