El modelo de lenguaje grande chino DeepSeek ha lanzado su nuevo modelo multimodal Janus-Pro, entrando oficialmente en el campo de la generación de imágenes a partir de texto. Este movimiento marca un gran avance en la tecnología de IA multimodal de DeepSeek.
En las pruebas de referencia GenEval y DPG-Bench, Janus-Pro-7B no solo superó a DALL-E3 de OpenAI, sino que también superó a modelos populares como Stable Diffusion y Emu3-Gen. Janus-Pro utiliza la licencia de código abierto MIT, lo que significa que se puede utilizar sin restricciones en entornos comerciales. DeepSeek afirma que Janus-Pro es una versión mejorada del modelo JanusFlow lanzado el 13 de noviembre de 2024.
En comparación con los modelos anteriores, Janus-Pro ha optimizado sus estrategias de entrenamiento, ampliado sus datos de entrenamiento y aumentado el tamaño del modelo. Estas mejoras han permitido a Janus-Pro lograr importantes avances en la comprensión multimodal y en el seguimiento de instrucciones de texto a imagen, al tiempo que mejoran la estabilidad de la generación de imágenes a partir de texto.
Aunque actualmente Janus-Pro solo puede procesar imágenes con una resolución de 384x384, teniendo en cuenta su tamaño de modelo compacto, el nivel de rendimiento alcanzado es asombroso.
Como modelo multimodal, Janus-Pro no solo puede generar imágenes, sino que también puede describir imágenes, identificar puntos de referencia, reconocer texto en imágenes y proporcionar información sobre el conocimiento presente en las imágenes.
Puntos clave:
🌟 DeepSeek lanza el modelo multimodal Janus-Pro, entrando en el campo de la generación de imágenes a partir de texto.
📈 En las pruebas de referencia, Janus-Pro-7B supera en rendimiento a modelos populares como DALL-E3 de OpenAI.
✅ Janus-Pro utiliza la licencia de código abierto MIT, pudiendo utilizarse sin restricciones en entornos comerciales.