Boletín diario de IA: OpenAI lanza la API o1-pro más cara de la historia; Tencent lanzará el nuevo modelo de inferencia Huanyuan T1; el modelo de video Step-Video-TI2V de Jieyue Xingchen se convierte en código abierto

¡Bienvenido a la sección 【AI日报】! Aquí encontrará su guía diaria para explorar el mundo de la inteligencia artificial. Cada día le presentaremos los temas más relevantes del ámbito de la IA, centrándonos en los desarrolladores y ayudándole a comprender las tendencias tecnológicas y las innovadoras aplicaciones de productos de IA.

Conozca los nuevos productos de IA https://top.aibase.com/

1. ¡El más caro! OpenAI lanza el modelo de IA o1-pro, con un precio de generación diez veces superior al de o1

OpenAI ha lanzado recientemente su nueva generación de modelos de IA, o1-pro, con el objetivo de ofrecer una capacidad de razonamiento superior. Sin embargo, su elevado precio ha generado un gran interés. El precio de entrada y generación de o1-pro es el doble y diez veces superior, respectivamente, al de GPT-4.5 y al del o1 estándar. A pesar de ello, OpenAI confía en su rendimiento y cree que podrá satisfacer las necesidades de los desarrolladores para tareas complejas.

【Resumen de AiBase:】
💡 OpenAI lanza el nuevo modelo de IA o1-pro, diseñado para mejorar la capacidad de razonamiento.
💰 El precio de o1-pro es extremadamente alto: el coste de entrada es el doble que el de GPT-4.5, y el coste de generación es diez veces superior al de o1 estándar.
🤔 Las opiniones de los usuarios iniciales sobre o1-pro son dispares, pero muestra una mayor fiabilidad en la codificación y resolución de problemas matemáticos.

2. ¡Movimiento controlable! El modelo de generación de vídeo a partir de imágenes Step-Video-TI2V de Jieyue Xingchen se publica como código abierto

El modelo Step-Video-TI2V, desarrollado por Shanghai Jieyue Xingchen Intelligent Technology Co., Ltd., presenta una innovación significativa en el campo de la generación de vídeo a partir de imágenes. Basado en Step-Video-T2V con 30 000 millones de parámetros, este modelo puede generar vídeos de alta calidad con control sobre la amplitud del movimiento y el movimiento de la cámara, lo que lo hace especialmente adecuado para la creación de animaciones y la producción de vídeos cortos. Gracias a la optimización de la coherencia y la dinámica de la generación, este modelo ofrece a los creadores opciones más flexibles para satisfacer diversas necesidades de tamaño y efecto.

【Resumen de AiBase:】
🚀 El modelo Step-Video-TI2V, basado en 30 000 millones de parámetros, puede generar vídeos de 5 segundos y 540P de resolución, con control sobre la amplitud del movimiento y el movimiento de la cámara.
🎨 El modelo ofrece un excelente rendimiento en efectos de anime, siendo adecuado para la creación de animaciones y la producción de vídeos cortos, y admite la generación de varios tamaños.
🔧 Mediante la introducción de condiciones de imagen y el módulo AdaLN, se ha mejorado la coherencia y el control dinámico de la generación de vídeo con respecto a la imagen original.
Enlace de detalles: https://yuewen.cn/videos

3. ¡腾讯 HunYuan vuelve a la carga! El nuevo modelo de razonamiento T1 se lanzará el 21 de marzo por la noche

腾讯 HunYuan ha anunciado que su nuevo modelo de razonamiento T1 se lanzará oficialmente el 21 de marzo. Esto marca una nueva etapa en la iteración tecnológica y la actualización de productos en el campo de los grandes modelos de inteligencia artificial. Simultáneamente, el gran modelo de IA 腾讯 HunYuan ha entrado por primera vez en la lista de los 15 mejores de Chatbot Arena a nivel mundial, demostrando que su capacidad tecnológica ha alcanzado un nivel internacional líder. El público espera que el modelo T1 mejore su capacidad de razonamiento, consolidando aún más la posición de 腾讯 en la competencia mundial de grandes modelos.

【Resumen de AiBase:】
🚀 腾讯 HunYuan lanzará el nuevo modelo de razonamiento T1 el 21 de marzo, lo que representa una mejora tecnológica.
🏆 El gran modelo de IA 腾讯 HunYuan ha entrado por primera vez en la lista de los 15 mejores de Chatbot Arena a nivel mundial, mostrando su capacidad tecnológica.
🌍 Se espera que el modelo T1 mejore su capacidad de razonamiento y consolide la posición de 腾讯 en la competencia mundial.

4. ¡Coste diez veces menor! Open-Sora 2.0, la IA de vídeo de código abierto, alcanza una calidad de imagen de nivel comercial

Open-Sora 2.0, recientemente lanzado por HPC-AI Tech, es un sistema de IA de vídeo revolucionario. Su coste de entrenamiento es solo una décima parte del de los sistemas tradicionales, y su calidad de salida es comparable a la de los productos comerciales. Este sistema ha logrado una mejora significativa en la velocidad de entrenamiento mediante un proceso de entrenamiento de tres etapas y un codificador automático eficiente, aunque existen algunas limitaciones en la resolución y la duración del vídeo. El lanzamiento de Open-Sora 2.0 podría tener un profundo impacto en la estructura de costes del sector de la IA de vídeo, impulsando la competencia entre los sistemas de código abierto y los comerciales.

【Resumen de AiBase:】
💡 El coste de entrenamiento de Open-Sora 2.0 es de solo 200 000 dólares, muy inferior a los millones de dólares que cuestan los sistemas de generación de vídeo de alta calidad existentes.
⚙️ El sistema utiliza un proceso de entrenamiento de tres etapas y un codificador automático de vídeo DC-AE, lo que proporciona una velocidad de entrenamiento 5,2 veces superior y una velocidad de generación de vídeo más de diez veces mayor.
📈 La puntuación VBench de Open-Sora 2.0 difiere solo en un 0,69% de la de Sora de OpenAI, mostrando un excelente rendimiento en calidad visual y precisión de las indicaciones.

5. El robot Atlas de Boston Dynamics logra un nuevo avance: sus capacidades de movimiento se acercan al nivel humano

Boston Dynamics ha mostrado recientemente las últimas capacidades de movimiento de su robot humanoide Atlas. Combinando el aprendizaje por refuerzo y la captura de movimiento, Atlas puede aprender por sí mismo y mostrar movimientos más naturales y flexibles similares a los humanos. Este avance tecnológico se considera un paso adelante hacia aplicaciones reales del robot humanoide, especialmente en sectores como la industria, la sanidad y los rescates.

【Resumen de AiBase:】
🤖 Atlas ha logrado movimientos más naturales similares a los humanos gracias al aprendizaje por refuerzo y la captura de movimiento.
🚀 Este avance tecnológico ha mejorado la adaptabilidad y la coordinación del robot en entornos complejos.
🌐 La colaboración entre Boston Dynamics y el RAI Institute abre nuevas posibilidades para la comercialización de la tecnología de robots humanoides.

6. ¡Impresionante! Un robot humanoide realiza una acrobacia de nivel "humano superior": el G1 de Unitree completa su primer salto mortal lateral, ¡y reta a los humanos a superarlo!

El robot humanoide G1 de Unitree Technology ha completado con éxito un salto mortal lateral de alta dificultad y ha aterrizado con seguridad, lo que representa un gran avance en la capacidad de movimiento de los robots. Este logro no solo demuestra la alta fiabilidad y el índice de éxito del G1, sino que también ha llamado la atención de los entusiastas de la tecnología de todo el mundo. Para verificar aún más sus capacidades, Unitree Technology ha lanzado el "Desafío de Salto Mortal Lateral para Humanos", animando a los humanos a intentar esta acrobacia de alta dificultad. El ganador recibirá un robot G1 o un premio equivalente.

【Resumen de AiBase:】
🤸‍♂️ El robot G1 de Unitree Technology ha completado con éxito un salto mortal lateral, convirtiéndose en el primer robot humanoide del mundo en lograr esta hazaña.
🏆 Unitree Technology ha lanzado el "Desafío de Salto Mortal Lateral para Humanos", animando a los humanos a intentar esta acrobacia de alta dificultad.
🌍 La competición ha atraído la atención de los entusiastas de la tecnología de todo el mundo, que esperan ver a la primera persona que replique el salto mortal lateral del robot.

7. Adobe presenta el proyecto "Project Slide Wow": los datos se convierten en presentaciones de PowerPoint atractivas con un solo clic

En la conferencia anual de innovación digital de Adobe, el proyecto "Project Slide Wow" ha llamado la atención del mercado. Esta herramienta impulsada por IA generativa está diseñada para convertir rápidamente los datos de los clientes en presentaciones de PowerPoint atractivas, simplificando enormemente el trabajo de los analistas de datos y los profesionales de marketing. Gracias a la generación automática de diapositivas de alta calidad y a un asistente inteligente integrado, los usuarios pueden actualizar y ajustar el contenido de la presentación en tiempo real, garantizando la precisión y la actualidad de la información.

【Resumen de AiBase:】
✨ La herramienta de IA generativa puede convertir rápidamente los datos sin procesar en presentaciones de PowerPoint de alta calidad, simplificando enormemente el proceso de creación.
🤖 El asistente inteligente integrado responde en tiempo real a las necesidades del usuario, ofreciendo opciones adicionales de visualización y generación dinámica de diapositivas.
📊 Dispone de capacidad de actualización de datos en tiempo real, lo que garantiza que la información de la presentación esté siempre actualizada, mejorando la eficiencia de la toma de decisiones empresariales.

8. Orpheus TTS: un nuevo modelo TTS con una expresión emocional cercana a la humana

Orpheus TTS es un nuevo modelo de texto a voz de código abierto que ha llamado la atención por su bajísima latencia y su gran capacidad de expresión emocional. Este modelo destaca en escenarios de conversación en tiempo real, ofreciendo una salida de voz natural y fluida que mejora enormemente la experiencia de interacción de voz inteligente. Su naturaleza de código abierto también ofrece a los desarrolladores más posibilidades de personalización, y es probable que se convierta en un referente en varios campos en el futuro.

【Resumen de AiBase:】
⚡ **Latencia ultrabaja**: La latencia predeterminada es de aproximadamente 200 milisegundos, que se puede reducir a 25-50 milisegundos mediante optimización, lo que satisface las necesidades de las conversaciones en tiempo real.
🎭 **Expresión emocional**: La salida de voz es natural y fluida, con una amplia gama de variaciones de tono que mejoran la experiencia interactiva.
🎙️ **Flujo de salida en tiempo real**: Admite la generación de audio en streaming, garantizando la sincronización entre la generación de voz y la entrada, lo que es adecuado para diversas situaciones.
Enlace de detalles: https://github.com/canopyai/Orpheus-TTS

9. LG publica como código abierto el modelo EXAONE Deep, que se presenta como el primer modelo de IA de razonamiento de Corea del Sur desarrollado de forma autónoma

LG AI Research ha publicado recientemente como código abierto el modelo de IA de razonamiento EXAONE Deep, marcando el comienzo de una nueva era de IA proactiva. Este modelo, con 32 000 millones de parámetros, muestra una capacidad de razonamiento excepcional, especialmente en los campos de la lógica y las matemáticas, obteniendo una puntuación de 94,5 en las matemáticas del examen de acceso a la universidad, comparable a la de un estudiante superdotado.

【Resumen de AiBase:】
🧠 EXAONE Deep es el primer modelo de IA de razonamiento de Corea del Sur desarrollado de forma autónoma, con capacidad para formular hipótesis y verificarlas mediante razonamiento.
📊 EXAONE Deep, con 32 000 millones de parámetros, muestra un rendimiento excepcional en los campos de la lógica y las matemáticas, obteniendo una puntuación de 94,5 en las matemáticas del examen de acceso a la universidad de Corea del Sur.
📱 LG también ha publicado como código abierto modelos ligeros y para dispositivos finales, que mantienen el 95% y el 86% del rendimiento, respectivamente, y son adecuados para teléfonos inteligentes, automóviles y otros sectores.
Enlace de detalles: https://top.aibase.com/tool/exaone-deep

10. El navegador Google Chrome integrará próximamente el asistente de IA Gemini, ¡para una mayor comodidad de uso!

En el contexto del rápido desarrollo de la tecnología de internet, el navegador Google Chrome está a punto de integrar profundamente el asistente de IA Gemini. Esta función mejorará enormemente la experiencia del usuario en línea, haciendo que las operaciones sean más fáciles. Los usuarios podrán llamar al asistente Gemini directamente a través del icono en la parte frontal de la ventana, con soporte para atajos de teclado personalizados e icono en la bandeja del sistema, aunque actualmente no admite el modo de fijación de la barra lateral.

【Resumen de AiBase:】
✨ El asistente de IA Gemini se integrará profundamente en el navegador Chrome, mejorando la experiencia del usuario en línea.
🔧 Los usuarios pueden llamar rápidamente al asistente Gemini a través del icono en la parte frontal de la ventana, con soporte para atajos de teclado personalizados.
🗣️ El asistente Gemini admite funciones como la búsqueda por voz, pero actualmente no admite el modo de fijación de la barra lateral.

AI Diario

Boletín diario de IA: OpenAI lanza la API o1-pro más cara de la historia; Tencent lanzará el nuevo modelo de inferencia Huanyuan T1; el modelo de video Step-Video-TI2V de Jieyue Xingchen se convierte en código abierto

站长之家

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas

¡El más caro! OpenAI lanza el modelo de IA o1-pro, diez veces más costoso que el o1

OpenAI lanzará o3-mini en unas semanas, con un rendimiento ligeramente inferior al de o1-pro