Des modèles emboîtés ? Apple open-source un nouveau modèle de génération d'images ml-mdm

Récemment, le géant technologique Apple a une fois de plus démontré sa capacité d'innovation technologique en lançant une nouvelle méthode de génération d'images et de vidéos appelée Matryoshka Diffusion Models (MDM), une technologie révolutionnaire surnommée « modèle de diffusion Matriochka ».

Le nom MDM est inspiré des poupées russes Matriochkas. Cette appellation ingénieuse est non seulement amusante, mais elle reflète également le principe technologique central : l'imbrication de petites structures dans de plus grandes. Tout comme chaque poupée russe contient une poupée plus petite mais tout aussi raffinée, MDM traite simultanément les images à différentes résolutions, permettant une génération transparente, d'un croquis basse résolution à des détails haute résolution.

QQ截图20240809114448.jpg

Le charme de cette méthode innovante réside dans sa capacité à gérer simultanément le traitement d'images à plusieurs résolutions. Imaginez une équipe de peintres talentueux, chacun se concentrant sur une zone différente de la toile, mais travaillant en harmonie pour créer une œuvre d'art magnifique. MDM, grâce à une technique de débruitage conjoint sur plusieurs résolutions, produit des images aux détails plus riches et plus réalistes, améliorant considérablement la qualité globale de l'image.

L'architecture principale de MDM est appelée NestedUNet, un concept qui renforce encore l'idée de « poupée russe ». Dans cette architecture, chaque niveau contient une sous-structure plus petite mais fonctionnelle, comme chaque poupée dans une Matriochka est indépendante et complète. Cette conception unique permet à MDM, lors du traitement de petites entrées, d'exploiter pleinement les caractéristiques et les paramètres de niveaux supérieurs, permettant ainsi un processus d'apprentissage et de génération plus efficace.

QQ截图20240809110221.jpg

Actuellement, les modèles de génération d'images et de vidéos de haute qualité sont confrontés à d'énormes défis de calcul et d'optimisation. Les méthodes traditionnelles génèrent soit progressivement les images au niveau des pixels, soit entraînent d'abord un modèle d'image compressée, puis le traitent sur une image basse résolution. L'entraînement de MDM, quant à lui, ressemble davantage à un apprentissage progressif de la marche pour un enfant, passant de la démarche hésitante à la foulée assurée. Il utilise une méthode d'entraînement progressive, commençant par une basse résolution et passant progressivement à une haute résolution. Cette méthode rend le modèle plus stable et plus efficace face à de nouvelles images haute résolution.

L'équipe de recherche d'Apple a démontré la puissance de MDM grâce à une série de tests de référence. Que ce soit pour la génération d'images conditionnelles, la conversion texte-image ou texte-vidéo, MDM a démontré des performances exceptionnelles. Il est particulièrement remarquable que, même entraîné sur le jeu de données CC12M de seulement 12 millions de pixels, MDM a montré une étonnante capacité de généralisation zéro-shot, ce qui signifie qu'il peut exceller dans des scénarios inconnus.

Les résultats montrent que MDM peut générer des images jusqu'à une résolution de 1024x1024 pixels et qu'il peut accomplir des tâches exceptionnelles, même dans des conditions de données relativement limitées, en générant des images de haute qualité répondant aux exigences. Cette caractéristique étend considérablement le champ d'application des technologies de génération d'images par IA, ouvrant de nouvelles possibilités pour les industries créatives et le secteur de la conception.

Bien que MDM ait déjà accompli des progrès remarquables dans le domaine de la génération d'images et de vidéos, cela n'est peut-être que la partie émergée de l'iceberg. À l'avenir, MDM devrait devenir plus intelligent, capable de comprendre des informations contextuelles plus complexes et de générer un contenu plus réaliste et diversifié. Nous pouvons nous attendre à ce que cette technologie joue un rôle important dans la réalité virtuelle, la réalité augmentée, la production cinématographique, le développement de jeux et bien d'autres domaines.

La technologie « modèle de diffusion Matriochka » lancée par Apple apporte sans aucun doute une bouffée d'air frais au domaine de la génération d'images par IA. Elle améliore non seulement l'efficacité et la qualité de la génération d'images, mais elle indique également de nouvelles orientations pour le développement de l'ensemble du secteur. Avec l'amélioration constante de la technologie et l'approfondissement de son application, nous avons toutes les raisons de croire que MDM jouera un rôle de plus en plus important dans le futur monde numérique créatif, nous offrant des expériences visuelles toujours plus étonnantes.

Page du projet : https://top.aibase.com/tool/ml-mdm

Article : https://arxiv.org/pdf/2310.15111

Actualités IA

Des modèles emboîtés ? Apple open-source un nouveau modèle de génération d'images ml-mdm

AIbase基地