Stability AI lance le nouveau modèle de génération d'images Stable Diffusion 3.5 : trois versions et une vitesse accrue

AIbase基地

Publié leActualités IA · 5 minutes de lecture · Nov 7, 2024

858

Stability AI vient de lancer son dernier modèle de génération d'images à partir de texte en apprentissage profond : Stable Diffusion 3.5. Cette version comprend trois modèles open source améliorés, conçus pour répondre aux besoins d'utilisateurs variés, notamment les chercheurs, les entreprises et les amateurs.

Stable Diffusion 3.5 Large est le modèle le plus puissant de la série, avec 8,1 milliards de paramètres. Grâce à sa qualité d'image exceptionnelle et à sa grande réactivité aux invites, il est idéal pour les utilisateurs professionnels et permet de générer des images haute résolution atteignant 1 mégapixel.

Stable Diffusion 3.5 Large Turbo est une version simplifiée de Stable Diffusion 3.5 Large. Il génère des images de haute qualité tout en augmentant considérablement la vitesse ; la génération d'image ne nécessite que 4 étapes, ce qui le rend beaucoup plus efficace que la version précédente et convient aux utilisateurs qui ont besoin de créer rapidement.

Le troisième modèle, Stable Diffusion 3.5 Medium, compte 2,5 milliards de paramètres. Il utilise l'architecture et la méthode d'entraînement MMDiT-X améliorées et est conçu pour être « prêt à l'emploi », fonctionnant même sur du matériel grand public. Il offre un bon équilibre entre la qualité de génération d'images et la facilité de personnalisation, permettant de générer des images de 0,25 à 2 mégapixels.

Ce lancement fait suite à la version Stable Diffusion 3 Medium de juin, qui n'a pas répondu aux attentes. Stability AI a donc décidé de proposer une solution plus révolutionnaire. L'entreprise souhaite ainsi reconquérir sa compétitivité face à des plateformes comme DALL-E d'OpenAI et Midjourney.

Une innovation technologique majeure de ces nouveaux modèles est l'introduction de la normalisation requête-clé (Query-Key Normalization). Cette innovation améliore la personnalisation et la réactivité aux invites, permettant aux utilisateurs d'obtenir des résultats plus cohérents avec des invites précises, tout en bénéficiant d'interprétations d'images plus riches avec des invites plus larges.

Les modèles de la série Stable Diffusion 3.5 seront publiés sous la licence communautaire de Stability AI, permettant une utilisation gratuite à des fins non commerciales. Les entités dont le chiffre d'affaires annuel est inférieur à 1 million de dollars peuvent également l'utiliser gratuitement à des fins commerciales, tandis que les utilisateurs dépassant ce seuil devront demander une licence d'entreprise.

Tous les modèles et les poids nécessaires à l'auto-hébergement seront disponibles sur Hugging Face et l'API de Stability AI. De plus, la fonctionnalité ControlNets, offrant des options de personnalisation d'image avancées, devrait être disponible dans les prochains jours.

Lien officiel :

https://stability.ai/stable-image

Liens Hugging Face des trois versions :

https://huggingface.co/stabilityai/stable-diffusion-3.5-large

https://huggingface.co/stabilityai/stable-diffusion-3.5-large-turbo

https://huggingface.co/stabilityai/stable-diffusion-3.5-medium

Points clés :
🌟 Stable Diffusion 3.5 propose trois versions de modèles pour répondre aux différents besoins des utilisateurs.
⚡ Stable Diffusion 3.5 Large Turbo offre une vitesse de génération d'images plus rapide, idéale pour une création rapide.
📈 Les nouveaux modèles intègrent la normalisation requête-clé, améliorant ainsi la personnalisation et la réactivité.

CogView4 : le premier modèle open source de génération d'images à partir de texte capable de générer des caractères chinois

Beijing Zhihu Zhang Technology Co., Ltd. a annoncé le lancement de CogView4, le premier modèle open source de génération d'images à partir de texte capable de générer des caractères chinois. Ce modèle a obtenu le meilleur score global au benchmark DPG-Bench, devenant ainsi le modèle SOTA (State of the Art) des modèles open source de génération d'images. Il est distribué sous licence Apache 2.0, ce qui en fait le premier modèle de génération d'images à suivre cette licence.

Shenzhou Information intègre le grand modèle open source chinois DeepSeek

Shenzhou Information a récemment annoncé l'intégration du grand modèle open source chinois DeepSeek afin de moderniser son offre complète de solutions financières. Cette initiative marque non seulement une évolution technologique, mais offre également aux clients bancaires un déploiement en environnement privé à faible coût et sécurisé. Grâce à l'intégration de DeepSeek, les neuf gammes de produits et plus de 30 solutions métier clés de Shenzhou Information ont bénéficié d'une amélioration globale de l'intelligence artificielle, couvrant de nombreux domaines tels que l'exploitation de la clientèle de détail, les canaux numériques, l'open banking, les opérations de crédit, l'intelligence des données et les plateformes d'entreprise.

Capacité de calcul insuffisante ! DeepSeek suspend les recharges d'API, ajustements simultanés des tarifs de deux grands modèles

DeepSeek a publié aujourd'hui un avis important : en raison de ressources serveur limitées, le service de recharge d'API est suspendu à compter d'aujourd'hui. La société a déclaré que le solde existant des utilisateurs peut toujours être utilisé, mais les nouvelles recharges ne sont pas acceptées pour le moment. Parallèlement, DeepSeek a également annoncé son plan d'ajustement des prix. La période promotionnelle du modèle DeepSeek-chat prendra fin le 8 février 2025 à 24h00. Après la fin de la promotion, ce modèle appliquera les nouveaux tarifs : les jetons d'entrée seront facturés à 2 yuans par million, et les jetons de sortie à…

Cursor, assistant de codage IA, lève 105 millions de dollars lors d'un tour de table de série B

Anysphere, une société spécialisée dans le développement de compilateurs de code IA, a récemment annoncé avoir bouclé un tour de table de série B de 105 millions de dollars. Ce financement a été mené par plusieurs sociétés d'investissement de premier plan, notamment Thrive Capital, Andreessen Horowitz (a16z) et Benchmark, marquant une avancée significative pour le compilateur Cursor en termes d'innovation technologique et d'expansion du marché. Depuis son lancement, le compilateur Cursor s'est distingué par sa fonctionnalité unique...