¡Bienvenido a la sección 【AI日报】! Aquí encontrará su guía diaria para explorar el mundo de la inteligencia artificial. Todos los días le presentamos los temas más relevantes del ámbito de la IA, centrados en los desarrolladores, para ayudarle a comprender las tendencias tecnológicas y las innovadoras aplicaciones de los productos de IA.

Conozca los nuevos productos de IA haciendo clic aquí: https://top.aibase.com/

1. Manus, el primer agente inteligente universal del mundo, se vuelve viral; los códigos de invitación se venden hasta por 50.000 yuanes

El primer agente inteligente universal del mundo, Manus, ha generado un gran interés en el sector tecnológico. Manus tiene la capacidad de pensar de forma independiente y realizar tareas complejas, pudiendo entregar resultados completos y mostrando una gran versatilidad. No solo puede gestionar tareas cotidianas, sino que también puede realizar estudios de mercado en profundidad, planificar viajes personalizados y muchas otras tareas. En el mercado de segunda mano, el precio de los códigos de invitación de Manus oscila entre 999 y 50.000 yuanes, e incluso algunos vendedores afirman no aceptar regateos, lo que demuestra la escasez de este producto.

image.png

【Resumen de AiBase:】

🚀 Manus tiene la capacidad de pensar de forma independiente y realizar tareas complejas, mostrando una gran versatilidad y capacidad de ejecución.

📊 En varios campos, como los estudios de mercado y la planificación de viajes, los ejemplos de aplicación de Manus demuestran su utilidad y eficiencia.

🏆 Manus ha batido un nuevo récord en las pruebas de referencia de GAIA, con un rendimiento técnico muy superior al de productos similares, lo que demuestra su posición de liderazgo.

Enlace de detalles: https://manus.im/

2. Alibaba lanza el modelo de inferencia de código abierto QwQ-32B, con un rendimiento comparable al de DeepSeek-R1 y una menor necesidad de memoria

El equipo Qwen de Alibaba ha lanzado el modelo de lenguaje grande de código abierto QwQ-32B, con el objetivo de mejorar su rendimiento en tareas de resolución de problemas complejos mediante el aprendizaje por refuerzo. Este modelo, basado en 32.000 millones de parámetros y una longitud de contexto extendida de 131.072 tokens, puede igualar a modelos con más parámetros en pruebas de referencia de matemáticas y programación, al tiempo que requiere menos memoria.

image.png

【Resumen de AiBase:】

🚀 QwQ-32B utiliza la técnica de aprendizaje por refuerzo para mejorar su capacidad de resolución de problemas complejos.

💡 En pruebas de referencia de matemáticas y programación, su rendimiento es comparable al de modelos con más parámetros, con una menor necesidad de memoria.

🧠 Cuenta con una longitud de contexto extendida y capacidades agentivas, y en el futuro se seguirá explorando el potencial del aprendizaje por refuerzo.

Enlace de detalles: https://qwenlm.github.io/blog/qwq-32b/

3. OpenAI anuncia que GPT-4.5 se lanzará gradualmente para todos los usuarios de ChatGPT Plus

OpenAI anunció recientemente que su último modelo de inteligencia artificial, GPT-4.5, se lanzará gradualmente para los usuarios de ChatGPT Plus. Aunque este modelo ha mejorado notablemente en la capacidad de diálogo, todavía presenta deficiencias en el razonamiento complejo. Su alto coste de uso, de 150 dólares por millón de tokens, genera preocupación sobre su adopción generalizada.

image.png

【Resumen de AiBase:】

💬 GPT-4.5 es el último y más grande modelo de inteligencia artificial lanzado por OpenAI, y se lanzará gradualmente para los usuarios de ChatGPT Plus.

⚖️ Aunque GPT-4.5 ha mejorado notablemente en la capacidad de diálogo, todavía presenta deficiencias en el razonamiento complejo.

💰 El coste de uso de GPT-4.5 es de 150 dólares por millón de tokens, lo que genera preocupación sobre su adopción generalizada.

4. Doubao lanza el modo de razonamiento profundo: visualización de la cadena lógica de IA, un nuevo avance en la búsqueda de preguntas y respuestas

ByteDance ha lanzado el modo de razonamiento "pensamiento profundo" para su asistente de IA Doubao, que mejora la confianza y la transparencia del usuario en la IA mediante la visualización de la cadena lógica. Esta tecnología, basada en el modelo Doubao 1.5 y combinada con los avances en los modelos de razonamiento profundo, mejora la inteligencia y la humanización de la IA, lo que presagia un amplio futuro en los campos de preguntas y respuestas, búsqueda, escritura y lectura.

image.png

【Resumen de AiBase:】

🔍 El modo de pensamiento profundo muestra la cadena lógica completa de la IA, mejorando la experiencia de interacción del usuario.

🤖 Este modo se basa en el modelo Doubao 1.5, utilizando algoritmos RL y optimización de ingeniería para mejorar la inteligencia de la IA.

📈 La nueva función presagia un amplio futuro para la IA en diversos campos, y la experiencia del usuario ha mejorado notablemente.

5. Lanzamiento de LTX-Video 0.9.5: licencia de uso comercial permitida, la generación de vídeo con IA de código abierto alcanza nuevas cotas

El lanzamiento de la versión 0.9.5 de LTX-Video marca un gran avance en la tecnología de generación de vídeo con IA de código abierto. No solo permite licencias de uso comercial, permitiendo a las empresas y desarrolladores individuales utilizar este modelo en proyectos comerciales, sino que también incluye compatibilidad con fotogramas clave, lo que mejora la flexibilidad y la calidad de la generación de vídeo. Además, el modelo también ha mejorado notablemente en resolución y velocidad de generación, satisfaciendo mejor las necesidades de narrativas complejas.

image.png

【Resumen de AiBase:】

🌟 El punto más destacado es la licencia de uso comercial permitida, lo que amplía sus perspectivas de aplicación.

🎥 Se incluye compatibilidad con fotogramas clave, lo que mejora la flexibilidad de la generación de vídeo.

📈 Se ha mejorado notablemente la resolución y la velocidad de generación, satisfaciendo las necesidades de narrativas complejas.

6. Sistema de texto a voz Spark-TTS: compatible con la clonación de voz de muestra cero y control de grano fino

Spark-TTS es un sistema avanzado de texto a voz que ha generado un gran interés en la comunidad de IA gracias a sus capacidades de clonación de voz de muestra cero y control de voz de grano fino. Este sistema, basado en Qwen2.5, simplifica el proceso de generación de audio, mejora la eficiencia y admite la generación multilingüe, siendo especialmente adecuado para la producción de audiolibros. Su arquitectura técnica utiliza un codificador-decodificador de flujo único BiCodec, lo que garantiza una calidad de voz natural y controlable, permitiendo a los usuarios ajustar las características de la voz según sus necesidades.

image.png

【Resumen de AiBase:】

🎤 Clonación de voz de muestra cero: permite generar la voz de un hablante sin necesidad de datos de entrenamiento específicos, ideal para aplicaciones personalizadas.

⚙️ Control de voz de grano fino: los usuarios pueden ajustar con precisión la velocidad y el tono de la voz para satisfacer diferentes necesidades.

🌍 Generación multilingüe: admite varios idiomas, manteniendo una alta naturalidad y precisión, ampliando su aplicabilidad global.

Enlace de detalles: https://github.com/SparkAudio/Spark-TTS

7. Google lanza la versión preliminar de Whisk Animate: convierte imágenes en vídeos cortos de 8 segundos

Google ha lanzado la versión preliminar de Whisk Animate en su plataforma de IA experimental Google Labs, permitiendo a los usuarios utilizar el avanzado modelo Veo2 para convertir imágenes estáticas de Whisk en clips de vídeo dinámicos de 8 segundos. Esta nueva función ha generado rápidamente un gran debate en las redes sociales, con comentarios positivos de los usuarios, mostrando su potencial en la industria creativa. El lanzamiento de Whisk Animate indica que la conversión de diseños estáticos a contenido dinámico se ha vuelto más sencilla y eficiente, consolidando aún más la ventaja competitiva de Google en el campo de la IA generativa.

image.png

【Resumen de AiBase:】

🎥 Whisk Animate utiliza el modelo Veo2 para convertir imágenes estáticas en vídeos dinámicos de 8 segundos, mostrando la flexibilidad de la generación de animaciones.

🌟 Los comentarios de los usuarios son positivos, algunos probadores tempranos lo califican como "increíblemente sorprendente", mostrando su potencial creativo.

🖼️ El lanzamiento de Whisk Animate ofrece nuevas herramientas para la industria creativa, simplificando el proceso de creación de vídeos cortos y diseño de anuncios.

8. Cohere lanza el nuevo modelo de IA multimodal Aya Vision, disponible en dos versiones: 32B y 8B

El laboratorio de investigación sin fines de lucro de Cohere ha lanzado Aya Vision, un modelo de IA multimodal líder que puede realizar diversas tareas lingüísticas y visuales. Este modelo se ofrece de forma gratuita a través de WhatsApp con el objetivo de facilitar el acceso a la tecnología para investigadores de todo el mundo. Aya Vision está disponible en dos versiones, 32B y 8B, superando a modelos de la competencia de mayor tamaño. Además, Cohere también ha lanzado una nueva herramienta de evaluación de referencia, AyaVisionBench, para abordar la actual crisis de evaluación en el sector de la IA.

image.png

【Resumen de AiBase:】

🌟 Cohere califica el modelo Aya Vision como el mejor de la industria, capaz de realizar diversas tareas lingüísticas y visuales.

💡 Aya Vision está disponible en dos versiones, 32B y 8B, superando a modelos de la competencia de mayor tamaño.

🔍 Cohere también ha lanzado la nueva herramienta de evaluación de referencia AyaVisionBench para mejorar los problemas de evaluación de modelos de IA.

Enlace de detalles: https://cohere.com/blog/aya-vision

9. ByteDance busca proveedores de etiquetado de datos de IA

ByteDance publicó un anuncio el 6 de marzo para reclutar proveedores de etiquetado de datos de IA de alta calidad para satisfacer las necesidades de su negocio en rápido crecimiento. Este reclutamiento se centra principalmente en empresas con abundantes recursos verticales, especialmente en los campos de la medicina, el derecho y la educación. Las empresas participantes deben ser personas jurídicas independientes, con un capital social mínimo de 1 millón de yuanes, una buena reputación social y no se aceptarán solicitudes conjuntas. Esta estrategia tiene como objetivo mejorar la calidad del contenido y la capacidad de servicio de datos, impulsando la competencia e innovación en el sector.

image.png

【Resumen de AiBase:】

🌟 ByteDance busca proveedores de etiquetado de datos de IA, con un capital social mínimo de 1 millón de yuanes.

📄 Las empresas participantes deben ser personas jurídicas independientes, con una buena reputación social y no se aceptarán solicitudes conjuntas.

🚀 El reclutamiento tiene como objetivo satisfacer las necesidades del rápido crecimiento de ByteDance en el campo del etiquetado de datos de IA, impulsando el desarrollo del sector.

10. OpenAI lanza un agente de IA "de nivel doctoral", con una tarifa mensual de hasta 20.000 dólares

OpenAI anunció recientemente el lanzamiento de un agente de IA denominado "de nivel doctoral", diseñado para satisfacer las necesidades de alta gama de los sectores financiero, sanitario y manufacturero. Este agente de IA tiene una tarifa mensual de hasta 20.000 dólares, ofreciendo varios tipos de servicios, con un precio basado en el valor económico que el producto crea para el cliente. Aunque el alto coste ha generado algunas bromas, OpenAI claramente se centra en las grandes empresas como clientes objetivo, en lugar de usuarios individuales.

image.png

【Resumen de AiBase:】

💰 La tarifa mensual de este agente de IA oscila entre 2.000 y 20.000 dólares, con un precio basado en el valor económico que crea para el cliente.

🏢 OpenAI se centra en las grandes empresas como clientes objetivo, permitiendo a las empresas pagar por puesto de trabajo, reduciendo el umbral de uso.

✈️ El agente de IA está diseñado para completar tareas automáticamente con la mínima intervención humana, como buscar información de vuelos y realizar pagos automáticamente.

11. La App Store de Apple lanzará pronto resúmenes de reseñas de aplicaciones generados por IA, facilitando la obtención de comentarios de los usuarios

Apple anunció que incluirá una función de resumen de reseñas de aplicaciones generadas por IA en la próxima versión de iOS 18.4. Esta función tiene como objetivo proporcionar a los usuarios un resumen conciso de las reseñas de las aplicaciones, ayudándoles a obtener rápidamente información sobre los puntos fuertes y la información clave de la aplicación. El resumen será generado por un modelo de lenguaje grande y se actualizará semanalmente, inicialmente en la App Store de Estados Unidos.

image.png

【Resumen de AiBase:】

🌟 Apple lanzará una función de resumen de reseñas de aplicaciones generadas por IA en iOS 18.4, ayudando a los usuarios a comprender rápidamente los comentarios de las aplicaciones.