¡Uso comercial gratuito para individuos! Stability AI lanza el modelo de generación de imágenes a partir de texto Stable Diffusion 3.5

AIbase基地

Publicado elNoticias de IA · 5 minutos de lectura · Oct 23, 2024

343

Anoche, Stability AI lanzó su modelo más potente: Stable Diffusion 3.5. No se trata de un único modelo, sino de un paquete completo con tres versiones diseñadas para satisfacer las diversas necesidades de investigadores, aficionados, startups y empresas.

Las tres versiones son Stable Diffusion 3.5 Large, Stable Diffusion 3.5 Large Turbo y Stable Diffusion 3.5 Medium, que se lanzará el 29 de octubre.

微信截图_20241023082320.png

Stable Diffusion 3.5 Large es un modelo base con 8 mil millones de parámetros, conocido por su excelente calidad de imagen y precisión en la interpretación de indicaciones. Ideal para usos profesionales, puede generar imágenes con una resolución de hasta 1 millón de píxeles.

Stable Diffusion 3.5 Large Turbo es una versión destilada del anterior. Genera imágenes de alta calidad en solo 4 pasos, siendo mucho más rápido que Stable Diffusion 3.5 Large.

Stable Diffusion 3.5 Medium, por su parte, cuenta con 2.5 mil millones de parámetros y utiliza la arquitectura y métodos de entrenamiento mejorados MMDiT-X. Diseñado para ser plug-and-play, funciona directamente en hardware de consumo, equilibrando la calidad de imagen con la capacidad de personalización. Genera imágenes con una resolución entre 0.25 y 2 millones de píxeles.

微信截图_20241023082357.png

El desarrollo de estos modelos priorizó la capacidad de personalización. La integración de Query-Key Normalization en los bloques transformer estabilizó el proceso de entrenamiento y simplificó el ajuste fino y el desarrollo posterior. Para apoyar la flexibilidad en tareas posteriores, Stability AI ha mantenido una base de conocimiento más amplia y estilos diversos en los modelos, aunque esto pueda aumentar la incertidumbre en los resultados.

Los modelos Stable Diffusion 3.5 destacan en varios aspectos: personalización, rendimiento eficiente y salida diversificada. Se pueden ajustar fácilmente para satisfacer necesidades creativas específicas o para construir aplicaciones según flujos de trabajo personalizados. También están optimizados para funcionar en hardware de consumo estándar, sin requerir hardware de alta gama. Además, crean imágenes representativas de todo el mundo sin necesidad de indicaciones extensas, generando imágenes con diversos estilos y estéticas, como 3D, fotografía, pintura, arte lineal y prácticamente cualquier estilo visual imaginable.

微信截图_20241023082912.png

微信截图_20241023082919.png

Stability AI también destaca su compromiso con la seguridad, tomando medidas razonables para prevenir el mal uso de Stable Diffusion 3.5 y priorizando la integridad desde las primeras etapas de desarrollo. Además, la licencia de la comunidad de Stability AI es muy permisiva, permitiendo el uso gratuito del modelo para fines no comerciales, incluyendo la investigación científica. Las startups, pequeñas y medianas empresas y creadores con ingresos anuales inferiores a 1 millón de dólares también pueden utilizarlo gratuitamente para fines comerciales. Se mantiene la propiedad de los medios generados, sin restricciones de licencia.

Los modelos Stable Diffusion 3.5 ya están disponibles para autohospedaje en Hugging Face, y el código de inferencia también es de código abierto. También se puede acceder al modelo a través de plataformas como la API de Stability AI, Replicate, ComfyUI y DeepInfra.

Dirección de prueba:https://huggingface.co/spaces/stabilityai/stable-diffusion-3.5-large

ScaleOT: El marco presentado en AAAI 2025 mejora la privacidad en un 50% y reduce el coste computacional en un 90%

Recientemente, durante la conferencia académica de inteligencia artificial AAAI 2025, un equipo conjunto de Ant Group, la Universidad de Zhejiang, la Universidad de Liverpool y la Universidad Normal del Este de China presentó el innovador marco de ajuste fuera de sitio (offsite-tuning): ScaleOT. Este marco puede mejorar la protección de la privacidad en un 50% sin pérdida de rendimiento del modelo. En comparación con la técnica de destilación del conocimiento, el consumo de potencia de cálculo se reduce significativamente en un 90%, proporcionando una solución eficiente y ligera para el ajuste fuera de sitio de modelos con parámetros de miles de millones. El artículo fue seleccionado para una presentación oral en AAAI debido a su innovación.

360 ZhiNao lanza Tiny-R1-32B: rendimiento casi completo de Deepseek-R1 con el 5% de los parámetros

El equipo de 360 ZhiNao, en colaboración con la Universidad de Pekín, ha lanzado oficialmente el modelo de inferencia de tamaño medio Tiny-R1-32B-Preview. Este modelo, con solo el 5% de los parámetros, se acerca con éxito al rendimiento completo de Deepseek-R1-671B, lo que demuestra el enorme potencial de los modelos pequeños en el campo de la inferencia eficiente. El modelo destaca especialmente en varios ámbitos clave. En el ámbito de las matemáticas, Tiny-R1-32B-Preview...

FlashVideo: Un nuevo paradigma en la generación de video: Avance en velocidad de previsualización y calidad de imagen

FlashVideo, una innovadora tecnología de generación de video, ha anunciado recientemente su código abierto. Este framework, mediante un diseño único de dos etapas, resuelve ingeniosamente el equilibrio entre velocidad y calidad en la generación de video con IA. FlashVideo adopta una idea similar al LQIP (Low Quality Image Placeholder) de las páginas web, dividiendo el proceso de generación de video en dos etapas: previsualización y mejora de la calidad. En la etapa de previsualización, el sistema puede generar rápidamente un borrador de video con un coste computacional mínimo, proporcionando al usuario una respuesta inmediata y mejorando significativamente la experiencia del usuario y la viabilidad de las aplicaciones comerciales. En la etapa de

Se lanza "Dì tīng", el primer modelo de ondas sísmicas de miles de millones de parámetros del mundo, que estará totalmente abierto en 2025

En el campo del monitoreo y análisis de terremotos, un importante avance tecnológico se lanzó oficialmente el 17 de enero en el Centro Nacional de Supercomputación de Chengdu. La tercera versión de prueba del primer modelo de ondas sísmicas de miles de millones de parámetros del mundo, el modelo "Dì tīng", ya está en línea. Este modelo fue desarrollado conjuntamente por el Centro Nacional de Supercomputación de Chengdu, el Instituto de Investigación Geofísica del Servicio Sismológico de China y la Universidad Tsinghua, lo que marca un gran avance en la tecnología de investigación sísmica de China. El objetivo del desarrollo del modelo "Dì tīng" es mejorar la precisión de identificación y la capacidad de monitoreo de las señales sísmicas, especialmente en áreas...