Anoche, Stability AI lanzó su modelo más potente: Stable Diffusion 3.5. No se trata de un único modelo, sino de un paquete completo con tres versiones diseñadas para satisfacer las diversas necesidades de investigadores, aficionados, startups y empresas.

Las tres versiones son Stable Diffusion 3.5 Large, Stable Diffusion 3.5 Large Turbo y Stable Diffusion 3.5 Medium, que se lanzará el 29 de octubre.

微信截图_20241023082320.png

Stable Diffusion 3.5 Large es un modelo base con 8 mil millones de parámetros, conocido por su excelente calidad de imagen y precisión en la interpretación de indicaciones. Ideal para usos profesionales, puede generar imágenes con una resolución de hasta 1 millón de píxeles.

Stable Diffusion 3.5 Large Turbo es una versión destilada del anterior. Genera imágenes de alta calidad en solo 4 pasos, siendo mucho más rápido que Stable Diffusion 3.5 Large.

Stable Diffusion 3.5 Medium, por su parte, cuenta con 2.5 mil millones de parámetros y utiliza la arquitectura y métodos de entrenamiento mejorados MMDiT-X. Diseñado para ser plug-and-play, funciona directamente en hardware de consumo, equilibrando la calidad de imagen con la capacidad de personalización. Genera imágenes con una resolución entre 0.25 y 2 millones de píxeles.

微信截图_20241023082357.png

El desarrollo de estos modelos priorizó la capacidad de personalización. La integración de Query-Key Normalization en los bloques transformer estabilizó el proceso de entrenamiento y simplificó el ajuste fino y el desarrollo posterior. Para apoyar la flexibilidad en tareas posteriores, Stability AI ha mantenido una base de conocimiento más amplia y estilos diversos en los modelos, aunque esto pueda aumentar la incertidumbre en los resultados.

Los modelos Stable Diffusion 3.5 destacan en varios aspectos: personalización, rendimiento eficiente y salida diversificada. Se pueden ajustar fácilmente para satisfacer necesidades creativas específicas o para construir aplicaciones según flujos de trabajo personalizados. También están optimizados para funcionar en hardware de consumo estándar, sin requerir hardware de alta gama. Además, crean imágenes representativas de todo el mundo sin necesidad de indicaciones extensas, generando imágenes con diversos estilos y estéticas, como 3D, fotografía, pintura, arte lineal y prácticamente cualquier estilo visual imaginable.

微信截图_20241023082912.png

微信截图_20241023082919.png

Stability AI también destaca su compromiso con la seguridad, tomando medidas razonables para prevenir el mal uso de Stable Diffusion 3.5 y priorizando la integridad desde las primeras etapas de desarrollo. Además, la licencia de la comunidad de Stability AI es muy permisiva, permitiendo el uso gratuito del modelo para fines no comerciales, incluyendo la investigación científica. Las startups, pequeñas y medianas empresas y creadores con ingresos anuales inferiores a 1 millón de dólares también pueden utilizarlo gratuitamente para fines comerciales. Se mantiene la propiedad de los medios generados, sin restricciones de licencia.

Los modelos Stable Diffusion 3.5 ya están disponibles para autohospedaje en Hugging Face, y el código de inferencia también es de código abierto. También se puede acceder al modelo a través de plataformas como la API de Stability AI, Replicate, ComfyUI y DeepInfra.

Dirección de prueba:https://huggingface.co/spaces/stabilityai/stable-diffusion-3.5-large