Stability AI ha lanzado recientemente su último modelo de generación de imágenes a partir de texto mediante aprendizaje profundo: Stable Diffusion 3.5. Esta versión incluye tres modelos de código abierto mejorados, diseñados para satisfacer las necesidades de diferentes usuarios, incluidos investigadores, clientes empresariales y aficionados.

image.png

Entre ellos, Stable Diffusion 3.5 Large es el modelo más potente de toda la serie, con la asombrosa cantidad de 8100 millones de parámetros. Este modelo, con su excepcional calidad de imagen y su alta capacidad de respuesta a las indicaciones, se convierte en la opción ideal para usuarios profesionales, capaz de generar imágenes de alta calidad con una resolución de hasta 1 megapíxel.

Además, Stable Diffusion 3.5 Large Turbo es una versión simplificada de Stable Diffusion 3.5 Large. Genera imágenes de alta calidad, pero con una velocidad considerablemente mayor; solo necesita 4 pasos para completar la generación de imágenes, lo que lo hace mucho más eficiente que la versión anterior y perfecto para usuarios que necesitan una creación rápida.

Otro modelo nuevo es Stable Diffusion 3.5 Medium, con 2500 millones de parámetros. Este modelo utiliza la arquitectura y los métodos de entrenamiento mejorados de MMDiT-X, diseñado para ser "listo para usar" y funcionar sin problemas incluso en hardware de consumo. Ofrece un buen equilibrio entre la calidad de generación de imágenes y la facilidad de personalización, pudiendo generar imágenes de 0,25 a 2 megapíxeles.

Este lanzamiento se produce después de que Stable Diffusion 3 Medium, lanzado en junio, no cumpliera con las expectativas. Stability AI decidió lanzar una solución más transformadora. La empresa afirma que espera recuperar su competitividad en el mercado con esta actualización para afrontar el desafío de plataformas como DALL-E de OpenAI y Midjourney.

Una innovación tecnológica importante de los nuevos modelos es la introducción de la técnica de normalización consulta-clave (Query-Key Normalization). Esta innovación mejora la capacidad de personalización y la respuesta a las indicaciones del modelo. Los usuarios pueden obtener resultados más coherentes con indicaciones precisas y una interpretación de imágenes más rica con indicaciones más generales.

La serie de modelos Stable Diffusion 3.5 se lanzará bajo la licencia comunitaria de Stability AI, lo que permite su uso gratuito para fines no comerciales. Las entidades con ingresos anuales inferiores a 1 millón de dólares también pueden utilizarlo gratuitamente con fines comerciales; las que superen esa cifra deberán solicitar una licencia empresarial.

Todos los modelos y los pesos necesarios para su autohospedaje estarán disponibles en Hugging Face y la API de Stability AI. Además, se espera que la función ControlNets, que ofrece opciones avanzadas de personalización de imágenes, se lance en los próximos días.

Enlace oficial:

https://stability.ai/stable-image

Enlaces de Hugging Face para las tres versiones:

https://huggingface.co/stabilityai/stable-diffusion-3.5-large

https://huggingface.co/stabilityai/stable-diffusion-3.5-large-turbo

https://huggingface.co/stabilityai/stable-diffusion-3.5-medium

Puntos clave:

🌟 El nuevo Stable Diffusion 3.5 ofrece tres versiones de modelos para adaptarse a las diferentes necesidades de los usuarios.

⚡ Stable Diffusion 3.5 Large Turbo ofrece una velocidad de generación de imágenes más rápida, ideal para creaciones rápidas.

📈 Los nuevos modelos incorporan la técnica de normalización consulta-clave, lo que mejora la capacidad de personalización y la capacidad de respuesta.