Stability AI lanza el nuevo modelo generador Stable Diffusion 3.5: tres versiones y mayor velocidad

AIbase基地

Publicado elNoticias de IA · 5 minutos de lectura · Nov 7, 2024

858

Stability AI ha lanzado recientemente su último modelo de generación de imágenes a partir de texto mediante aprendizaje profundo: Stable Diffusion 3.5. Esta versión incluye tres modelos de código abierto mejorados, diseñados para satisfacer las necesidades de diferentes usuarios, incluidos investigadores, clientes empresariales y aficionados.

Entre ellos, Stable Diffusion 3.5 Large es el modelo más potente de toda la serie, con la asombrosa cantidad de 8100 millones de parámetros. Este modelo, con su excepcional calidad de imagen y su alta capacidad de respuesta a las indicaciones, se convierte en la opción ideal para usuarios profesionales, capaz de generar imágenes de alta calidad con una resolución de hasta 1 megapíxel.

Además, Stable Diffusion 3.5 Large Turbo es una versión simplificada de Stable Diffusion 3.5 Large. Genera imágenes de alta calidad, pero con una velocidad considerablemente mayor; solo necesita 4 pasos para completar la generación de imágenes, lo que lo hace mucho más eficiente que la versión anterior y perfecto para usuarios que necesitan una creación rápida.

Otro modelo nuevo es Stable Diffusion 3.5 Medium, con 2500 millones de parámetros. Este modelo utiliza la arquitectura y los métodos de entrenamiento mejorados de MMDiT-X, diseñado para ser "listo para usar" y funcionar sin problemas incluso en hardware de consumo. Ofrece un buen equilibrio entre la calidad de generación de imágenes y la facilidad de personalización, pudiendo generar imágenes de 0,25 a 2 megapíxeles.

Este lanzamiento se produce después de que Stable Diffusion 3 Medium, lanzado en junio, no cumpliera con las expectativas. Stability AI decidió lanzar una solución más transformadora. La empresa afirma que espera recuperar su competitividad en el mercado con esta actualización para afrontar el desafío de plataformas como DALL-E de OpenAI y Midjourney.

Una innovación tecnológica importante de los nuevos modelos es la introducción de la técnica de normalización consulta-clave (Query-Key Normalization). Esta innovación mejora la capacidad de personalización y la respuesta a las indicaciones del modelo. Los usuarios pueden obtener resultados más coherentes con indicaciones precisas y una interpretación de imágenes más rica con indicaciones más generales.

La serie de modelos Stable Diffusion 3.5 se lanzará bajo la licencia comunitaria de Stability AI, lo que permite su uso gratuito para fines no comerciales. Las entidades con ingresos anuales inferiores a 1 millón de dólares también pueden utilizarlo gratuitamente con fines comerciales; las que superen esa cifra deberán solicitar una licencia empresarial.

Todos los modelos y los pesos necesarios para su autohospedaje estarán disponibles en Hugging Face y la API de Stability AI. Además, se espera que la función ControlNets, que ofrece opciones avanzadas de personalización de imágenes, se lance en los próximos días.

Enlace oficial:

https://stability.ai/stable-image

Enlaces de Hugging Face para las tres versiones:

https://huggingface.co/stabilityai/stable-diffusion-3.5-large

https://huggingface.co/stabilityai/stable-diffusion-3.5-large-turbo

https://huggingface.co/stabilityai/stable-diffusion-3.5-medium

Puntos clave:
🌟 El nuevo Stable Diffusion 3.5 ofrece tres versiones de modelos para adaptarse a las diferentes necesidades de los usuarios.
⚡ Stable Diffusion 3.5 Large Turbo ofrece una velocidad de generación de imágenes más rápida, ideal para creaciones rápidas.
📈 Los nuevos modelos incorporan la técnica de normalización consulta-clave, lo que mejora la capacidad de personalización y la capacidad de respuesta.

¡Capacidad de cálculo agotada! DeepSeek suspende la recarga de API y ajusta simultáneamente las estrategias de precios de sus dos modelos principales

DeepSeek ha publicado hoy un importante anuncio: debido a la escasez de recursos del servidor, a partir de hoy se suspende el servicio de recarga de API. La empresa afirma que los usuarios podrán seguir utilizando el saldo de sus cuentas existentes, pero no se aceptarán nuevas recargas. Simultáneamente, DeepSeek ha anunciado su plan de ajuste de precios. El período de oferta del modelo DeepSeek-chat finalizará el 8 de febrero de 2025 a las 24:00. Una vez finalizada la oferta, este modelo aplicará una nueva tarifa: 2 yuanes por millón de tokens de entrada, mientras que los tokens de salida tendrán un coste de...

Cursor, asistente de codificación con IA, recauda 105 millones de dólares en la Serie B

Recientemente, Anysphere, empresa dedicada al desarrollo de compiladores de código con IA, anunció que ha completado con éxito una ronda de financiación Serie B por 105 millones de dólares. Esta ronda de financiación contó con la participación de varias firmas de inversión de primer nivel, incluyendo Thrive Capital, Andreessen Horowitz (a16z) y Benchmark, lo que marca un avance significativo para el compilador Cursor en términos de innovación tecnológica y expansión del mercado. Desde su lanzamiento, el compilador Cursor se ha destacado por su...

AI2 lanza el modelo de código abierto Tülu3, con rendimiento comparable a GPT-4o mini

En el campo de la inteligencia artificial, las técnicas de post-entrenamiento se están convirtiendo en una herramienta clave para mejorar el rendimiento de los modelos. Recientemente, el Instituto de Inteligencia Artificial Allen (AI2) ha publicado la serie de modelos Tülu3, un conjunto de modelos de lenguaje avanzados completamente de código abierto, con un rendimiento comparable a modelos propietarios como GPT-4o-mini. Tülu3 incluye no solo los datos del modelo, el código y las recetas de entrenamiento, sino también un marco de evaluación, con el objetivo de impulsar el desarrollo de técnicas de post-entrenamiento para modelos de código abierto. Tradicionalmente, los modelos que solo han sido pre-entrenados a menudo no satisfacen las necesidades de las aplicaciones reales de manera efectiva, pudiendo...

ClearerVoice-Studio: Tecnología de procesamiento de voz de código abierto del laboratorio de inteligencia artificial de Alibaba para eliminar el ruido de fondo

El laboratorio de inteligencia artificial Tongyi de Alibaba Damo Academy anunció recientemente la publicación de código abierto de una tecnología de procesamiento de voz llamada ClearerVoice-Studio, diseñada para mejorar la calidad y la inteligibilidad del habla. Con la creciente aplicación de la tecnología de voz, la calidad del habla es cada vez más importante, especialmente en situaciones con ruido ambiental, reverberación y problemas de captación de sonido del dispositivo, lo que hace que la demanda de tecnología de procesamiento de voz sea cada vez más urgente.