DeepSeek lanza Janus-Pro, un nuevo modelo multimodal de gran envergadura

AIbase基地

Publicado elNoticias de IA · 4 minutos de lectura · Jan 28, 2025

925

El modelo de lenguaje grande chino DeepSeek ha lanzado su nuevo modelo multimodal Janus-Pro, entrando oficialmente en el campo de la generación de imágenes a partir de texto. Este movimiento marca un gran avance en la tecnología de IA multimodal de DeepSeek.

En las pruebas de referencia GenEval y DPG-Bench, Janus-Pro-7B no solo superó a DALL-E3 de OpenAI, sino que también superó a modelos populares como Stable Diffusion y Emu3-Gen. Janus-Pro utiliza la licencia de código abierto MIT, lo que significa que se puede utilizar sin restricciones en entornos comerciales. DeepSeek afirma que Janus-Pro es una versión mejorada del modelo JanusFlow lanzado el 13 de noviembre de 2024.

DeepSeek lanza un nuevo modelo multimodal de última generación; su rendimiento supera al de OpenAI

En comparación con los modelos anteriores, Janus-Pro ha optimizado sus estrategias de entrenamiento, ampliado sus datos de entrenamiento y aumentado el tamaño del modelo. Estas mejoras han permitido a Janus-Pro lograr importantes avances en la comprensión multimodal y en el seguimiento de instrucciones de texto a imagen, al tiempo que mejoran la estabilidad de la generación de imágenes a partir de texto.

DeepSeek lanza un nuevo modelo multimodal de última generación; su rendimiento supera al de OpenAI

Aunque actualmente Janus-Pro solo puede procesar imágenes con una resolución de 384x384, teniendo en cuenta su tamaño de modelo compacto, el nivel de rendimiento alcanzado es asombroso.

Como modelo multimodal, Janus-Pro no solo puede generar imágenes, sino que también puede describir imágenes, identificar puntos de referencia, reconocer texto en imágenes y proporcionar información sobre el conocimiento presente en las imágenes.

Puntos clave:
🌟 DeepSeek lanza el modelo multimodal Janus-Pro, entrando en el campo de la generación de imágenes a partir de texto.
📈 En las pruebas de referencia, Janus-Pro-7B supera en rendimiento a modelos populares como DALL-E3 de OpenAI.
✅ Janus-Pro utiliza la licencia de código abierto MIT, pudiendo utilizarse sin restricciones en entornos comerciales.

¡Gran avance en la IA de avatares digitales! Hedra lanza Character-3 y Hedra Studio: inferencia conjunta de imagen, texto y audio

Hedra ha presentado Character-3 y Hedra Studio, dos innovaciones que marcan un hito en la tecnología de avatares digitales. Estos avances permiten la inferencia conjunta de imagen, texto y audio, abriendo nuevas posibilidades para la creación de experiencias inmersivas y realistas en diversas aplicaciones.

El servicio de recarga de la API de la plataforma abierta DeepSeek se ha restablecido oficialmente

Con la restauración del servicio de recarga, DeepSeek también ha ajustado los precios de llamada de algunos modelos. El período de promoción del modelo deepseek-chat ha finalizado, y el precio de llamada del modelo V3 en el que se basa se ha ajustado a 2 yuanes por millón de tokens de entrada y 8 yuanes por millón de tokens de salida. El precio de llamada del modelo R1 en el que se basa el modelo deepseek-reasoner es de 4 yuanes por millón de tokens de entrada y 16 yuanes por millón de tokens de salida.

¡阿里巴巴 lanza el modelo de inferencia multimodal QVQ-72B! Mejora la capacidad visual y lingüística, resolviendo problemas complejos con facilidad

Alibaba ha lanzado recientemente un nuevo modelo de inferencia multimodal llamado QVQ-72B. Construido sobre Qwen2-VL-72B, este modelo integra potentes capacidades lingüísticas y visuales, lo que le permite manejar tareas de inferencia y análisis más complejas. Esto marca un nuevo avance de Alibaba en el campo de la IA multimodal. QVQ-72B muestra una mejora significativa en el razonamiento visual, problemas matemáticos y científicos, especialmente en tareas de razonamiento de varios pasos. Esto significa que el modelo no solo puede comprender información textual, sino también información de imágenes, y realizar inferencias de varios pasos.

Noticias de IA

DeepSeek lanza Janus-Pro, un nuevo modelo multimodal de gran envergadura

AIbase基地

Noticias de IA relacionadas recomendadas

¡Gran avance en la IA de avatares digitales! Hedra lanza Character-3 y Hedra Studio: inferencia conjunta de imagen, texto y audio

El servicio de recarga de la API de la plataforma abierta DeepSeek se ha restablecido oficialmente

¡阿里巴巴 lanza el modelo de inferencia multimodal QVQ-72B! Mejora la capacidad visual y lingüística, resolviendo problemas complejos con facilidad