¡Bienvenido a la sección 【AI日报】! Aquí encontrará su guía diaria para explorar el mundo de la inteligencia artificial. Cada día le presentamos los temas más relevantes del ámbito de la IA, enfocados en desarrolladores, para ayudarle a comprender las tendencias tecnológicas y las innovadoras aplicaciones de los productos de IA.

Conozca los nuevos productos de IA https://top.aibase.com/

1. Modelo de generación de video de fotogramas inicial y final de Alibaba Tongyi Wanxiang Wan2.1-FLF2V-14B de código abierto

El laboratorio Tongyi de Alibaba ha lanzado el modelo Wan2.1-FLF2V-14B en Hugging Face y GitHub, lo que representa un gran avance en la tecnología de generación de video con IA. Este modelo admite la generación de videos de alta definición y, mediante fotogramas iniciales y finales proporcionados por el usuario, permite transiciones de animación fluidas. Cuenta con diversas funciones, como texto a video y edición de video. Su naturaleza de código abierto reduce las barreras de entrada tecnológica, lo que ha atraído la atención de los desarrolladores y ha impulsado la aplicación generalizada de la creación de videos con IA.

image.png

【Resumen de AiBase:】

📸 Admite el control de fotogramas inicial y final; solo necesita proporcionar dos imágenes para generar un video fluido de 5 segundos a 720p de alta definición.

🚀 El modelo admite la multi-modalidad; además de la generación de video, también puede realizar la generación de imágenes y audio guiadas por texto, ampliando los escenarios creativos.

🌐 El ecosistema de código abierto ha fomentado la participación de los desarrolladores; la actividad de prueba gratuita lanzada por Alibaba ha estimulado aún más los comentarios y la optimización de la comunidad.

Enlace de detalles: https://github.com/Wan-Video/Wan2.1

2. ByteDance lanza el modelo de agente inteligente Seed UI-TARS-1.5 de código abierto

El modelo UI-TARS-1.5 de ByteDance ha logrado avances significativos en el campo de los agentes inteligentes multimodales, especialmente en la operación de la interfaz gráfica de usuario (GUI) y la inferencia de juegos. Este modelo ha mejorado sus capacidades de inferencia de alto nivel mediante el aprendizaje por refuerzo, mostrando un rendimiento superior en tareas complejas. El UI-TARS-1.5 de código abierto proporciona a los desarrolladores herramientas potentes, impulsando el desarrollo de la tecnología de agentes inteligentes multimodales. En el futuro, se seguirá optimizando para acercarse al nivel humano.

image.png

【Resumen de AiBase:】

🖥️ UI-TARS-1.5 ha logrado un rendimiento SOTA en 7 puntos de referencia de evaluación de GUI, mostrando capacidades de inferencia e interacción a largo plazo.

🎮 En las tareas de juego, UI-TARS-1.5 ha mostrado una escalabilidad de inferencia estable y ha verificado la eficacia de su mecanismo de "pensar-luego-actuar" en Minecraft.

📈 Este modelo, mediante el aumento de la percepción visual y el mecanismo de inferencia System2, ha logrado una operación precisa de la GUI, reduciendo las barreras de entrada para los desarrolladores.

Enlace de detalles: https://github.com/bytedance/UI-TARS - Sitio web: https://seed-tars.com/ - Arxiv: https://arxiv.org/abs/2501.12326

3. OpenAI publica un documento práctico sobre la "Guía práctica para la creación de agentes" (con recursos del documento)

La reciente publicación de OpenAI, "Guía práctica para la creación de agentes", proporciona a los equipos de productos e ingeniería los conocimientos y las mejores prácticas necesarios para construir sistemas de agentes. Esta guía describe en detalle la definición, el diseño y la implementación segura de los agentes, destacando las diferencias fundamentales entre los agentes y el software tradicional, especialmente adecuado para la toma de decisiones complejas y el procesamiento de datos no estructurados.

image.png

【Resumen de AiBase:】

🧠 Los agentes tienen un alto grado de autonomía y pueden realizar flujos de trabajo complejos en nombre del usuario, a diferencia de las funciones de automatización del software tradicional.

🔧 La construcción de agentes requiere considerar los componentes centrales, como el modelo, las herramientas y las instrucciones, para garantizar la eficacia y la fiabilidad de los agentes.

🔒 Las protecciones de seguridad son clave para gestionar la privacidad de los datos y los riesgos para la reputación; los desarrolladores deben establecer medidas de protección de varias capas para hacer frente a los posibles riesgos.

Enlace de detalles: https://cdn.openai.com/business-guides-and-resources/a-practical-guide-to-building-agents.pdf

4. Tencent lanza InstantCharacter de código abierto, con alta coherencia de personajes, poses, estilos y escenarios personalizables

El equipo de Tencent HunYuan ha lanzado oficialmente el marco InstantCharacter de código abierto, una herramienta de personalización de personajes basada en transformadores de difusión que ofrece alta coherencia y flexibilidad. Puede generar diversas personalizaciones de personajes a partir de una sola imagen y es adecuada para diversos estilos artísticos. El lanzamiento de código abierto de este marco reducirá las barreras de entrada tecnológica para la personalización de personajes, estimulando la innovación de los desarrolladores de todo el mundo. Sin embargo, también es necesario prestar atención a los problemas de derechos de autor y ética.

image.png

【Resumen de AiBase:】

🖼️ Impulsado por una sola imagen: solo necesita una imagen de personaje y un mensaje de texto para generar diversas poses, estilos y escenarios.

🔄 Alta coherencia: mediante la arquitectura DiT avanzada, se garantiza una alta coherencia en las características del personaje de las imágenes generadas.

🌈 Diversidad de estilos: admite diversos estilos, como realismo, anime y dibujos animados, para satisfacer diferentes necesidades creativas.

Enlace de detalles: https://huggingface.co/spaces/InstantX/InstantCharacter

5. Tecnología innovadora de difusión de video FramePack: solo 6 GB de memoria de video, 1,5 segundos/fotograma

FramePack es una tecnología revolucionaria de difusión de video; su baja demanda de memoria de video y su capacidad de generación eficiente la convierten en un cambio de reglas en el campo de la generación de video. Con solo 6 GB de memoria de video, FramePack puede generar videos de miles de fotogramas a velocidad de fotogramas completa, reduciendo enormemente las barreras de entrada tecnológica. Además, su velocidad de generación puede alcanzar 1,5 segundos/fotograma después de la optimización, lo que ofrece nuevas posibilidades para la creación de contenido y las aplicaciones en tiempo real.image.png

【Resumen de AiBase:】

💻 FramePack solo necesita 6 GB de memoria de video y puede generar videos de miles de fotogramas a 30 fps, reduciendo las barreras de entrada tecnológica.

⚡ Velocidad de generación asombrosa: 2,5 segundos/fotograma sin optimizar, 1,5 segundos/fotograma después de la optimización, adecuado para diversas aplicaciones.

🌍 Esta tecnología ofrece amplias perspectivas de aplicación en los campos de creación de contenido, desarrollo de juegos y computación perimetral, impulsando la "popularización" de la tecnología de generación de video.

Enlace de detalles: https://lllyasviel.github.io/frame_pack_gitpage/

6. Google lanza Gemini 2.5 Flash: un asistente de IA que combina inteligencia y velocidad

La última versión de Google, Gemini 2.5 Flash, ha mejorado significativamente su capacidad de inferencia, especialmente mediante la introducción de un modelo de inferencia completamente mixto que permite a los desarrolladores controlar de forma flexible el costo y la latencia durante el proceso de pensamiento. Al establecer un presupuesto de pensamiento, los desarrolladores pueden encontrar un equilibrio ideal entre calidad y eficiencia. Esta versión ofrece un excelente rendimiento en tareas complejas, especialmente en escenarios de inferencia de varios pasos, mostrando su rendimiento y flexibilidad excepcionales.

image.png

【Resumen de AiBase:】

💡 Gemini 2.5 Flash introduce un modelo de inferencia completamente mixto que permite a los desarrolladores elegir habilitar la función de pensamiento y controlar de forma flexible el proceso de inferencia.

⚙️ Los desarrolladores pueden establecer un presupuesto de pensamiento para equilibrar la calidad, el costo y la latencia, satisfaciendo las necesidades de diferentes tareas.

📊 En la prueba de "prompts difíciles" de LMArena, Gemini 2.5 Flash obtuvo un excelente resultado, solo superado por 2.5 Pro, mostrando su potente capacidad de inferencia.

7. OpenAI lanza la API de procesamiento Flex para facilitar las aplicaciones de IA de bajo costo

OpenAI ha lanzado recientemente la API de procesamiento Flex para hacer frente a la intensa competencia en el mercado de la inteligencia artificial. Esta API permite a los usuarios utilizar modelos de IA a un costo menor, aunque con algunas concesiones en la velocidad de respuesta y la disponibilidad. El procesamiento Flex es especialmente adecuado para tareas de baja prioridad y no productivas, lo que reduce significativamente los costos, especialmente en el contexto del aumento generalizado de los precios de los servicios de IA, ofreciendo una opción económica.

image.png

【Resumen de AiBase:】

💰 La API de procesamiento Flex permite a los usuarios utilizar modelos de IA a un costo menor, ideal para desarrolladores con presupuestos limitados.

⚡ Con el procesamiento Flex, el precio de los tokens de entrada del modelo o3 se reduce a 5 USD por millón, y el de los tokens de salida a 20 USD por millón.

🔒 Para garantizar un uso adecuado, los desarrolladores deben acceder al modelo o3 mediante un proceso de verificación de identidad para mantener la seguridad de la plataforma.

8. El editor de imágenes Midjourney recibe una importante actualización: nueva interfaz de usuario, funciones de capas y herramientas inteligentes

Midjourney lanzó el 17 de abril de 2025 una importante actualización de su editor de imágenes, optimizando la experiencia del usuario e introduciendo varias funciones innovadoras, incluida una nueva interfaz de usuario, funciones de capas, herramientas de selección inteligente y un mecanismo de moderación de contenido mejorado. Estas mejoras no solo aumentan la eficiencia y la flexibilidad de la edición, sino que también mejoran la seguridad de la plataforma, consolidando aún más el liderazgo de Midjourney en el campo de las herramientas creativas de IA.

image.png

【Resumen de AiBase:】

🖌️ Nueva interfaz de usuario optimizada que mejora la eficiencia operativa y la experiencia creativa, adecuada tanto para diseñadores profesionales como para usuarios principiantes.

📂 Se han introducido funciones de capas que permiten a los usuarios gestionar las imágenes por capas, aumentando la flexibilidad y la precisión de la creación.

🔍 Se han añadido herramientas de selección inteligente que utilizan algoritmos de IA para simplificar las operaciones de edición complejas y mejorar la eficiencia de la edición.

9. Microsoft lanza el nuevo modelo de lenguaje BitNet b1.58 2B4T, con solo 0,4 GB de memoria

El modelo de lenguaje de código abierto BitNet b1.58 2B4T, lanzado por el equipo de investigación de Microsoft, ha llamado la atención por sus 2000 millones de parámetros y su consumo de memoria de solo 0,4 GB. Este modelo utiliza una innovadora arquitectura de baja precisión de 1,58 bits, lo que reduce significativamente las necesidades de recursos informáticos y ofrece un rendimiento superior en comparación con productos similares. Después del entrenamiento previo y el ajuste fino, BitNet ha mostrado un rendimiento excelente en varias pruebas de referencia, con ventajas significativas en consumo de energía y latencia de decodificación.

image.png

【Resumen de AiBase:】

🌟 Este modelo tiene 2000 millones de parámetros y un consumo de memoria de solo 0,4 GB, significativamente menor que el de productos similares.

🔧 Utiliza una arquitectura innovadora que abandona los valores numéricos tradicionales de 16 bits y utiliza un almacenamiento de pesos de baja precisión de 1,58 bits.

🚀 Ya está disponible en Hugging Face, y Microsoft planea optimizar aún más las funciones y el rendimiento del modelo.

Enlace de detalles: https://arxiv.org/html/2504.12285v1

10. Genspark Super Agent añade una herramienta de conversión de archivos que admite más de 400 formatos de archivo

Genspark Super Agent ha lanzado una nueva herramienta de conversión de archivos que admite la conversión entre más de 400 formatos de archivo, lo que aumenta enormemente la eficiencia de trabajo de los usuarios. Esta herramienta es fácil de usar; los usuarios solo necesitan cargar el archivo y seleccionar el formato de destino para completar la conversión rápidamente. Sus características de optimización inteligente e integración perfecta hacen de esta herramienta un asistente indispensable para usuarios individuales y empresariales en sus tareas diarias.

image.png

【Resumen de AiBase:】

📁 Admite la conversión entre más de 400 formatos de archivo, satisfaciendo diversas necesidades de oficina.

⚡ El proceso de conversión se optimiza de forma inteligente, reduciendo la pérdida de información y mejorando la flexibilidad de edición de archivos.

💡 Ofrece 200 créditos gratuitos diarios para reducir las barreras de entrada de los usuarios al uso de la tecnología de IA.

Enlace de detalles: https://page.genspark.site/page/toolu_015jDXJp3H2Whpw4V2vS71sH/genspark_file_converter_orange_n_icon.html