L'équipe de recherche de Google a récemment lancé une technologie révolutionnaire : Alchemist. Cette technologie permet aux utilisateurs de modifier précisément les propriétés matérielles des objets dans une image, telles que la couleur, la brillance et la transparence, sans avoir besoin de logiciels ni de compétences d'édition d'image professionnels.

Au cœur de la technologie Alchemist se trouve un modèle de génération « texte vers image » (Text-to-Image, T2I) finement ajusté. L'équipe de recherche a réalisé un contrôle précis des paramètres de matériau en créant un ensemble de données synthétiques et en modifiant l'architecture du modèle Stable Diffusion 1.5.

QQ截图20240729101021.jpg

Plus précisément, les chercheurs ont d'abord utilisé l'infographie et des techniques de rendu physique pour générer un grand nombre d'images synthétiques. Ces images contiennent divers modèles 3D, avec des matériaux, des angles de caméra et des conditions d'éclairage choisis aléatoirement. Ensuite, ils ont modifié une seule propriété de ces images, générant plusieurs versions avec différentes intensités d'édition.

Grâce au réglage fin de ces données synthétiques, le modèle a appris à modifier uniquement les propriétés matérielles spécifiées, étant donné une image contextuelle, des instructions et des valeurs d'intensité d'édition, tout en conservant la forme de l'objet et l'éclairage de l'image.

Les résultats expérimentaux montrent que cette technologie permet de modifier efficacement l'apparence des objets, par exemple en augmentant l'aspect métallique ou en ajustant la transparence. Dans les études menées auprès des utilisateurs, cette méthode a obtenu des avantages significatifs en termes de réalisme photographique et de préférence des utilisateurs, par rapport aux méthodes de référence.

QQ截图20240729101033.jpg

Les perspectives d'application de cette technologie sont vastes. Elle peut aider les architectes d'intérieur à prévisualiser l'effet d'une nouvelle peinture dans une pièce, ou aider les architectes, les artistes et les designers à créer rapidement des esquisses de nouveaux produits. De plus, étant donné que les effets d'édition restent visuellement cohérents, cette technologie peut également être utilisée pour des tâches 3D en aval, telles que la reconstruction NeRF (Neural Radiance Field).

Bien que la technologie Alchemist ait réalisé des progrès significatifs dans l'édition de matériaux, l'équipe de recherche a également souligné certaines limites. Par exemple, le modèle a encore une marge de progression dans le traitement des détails cachés dans les images.

Cependant, les chercheurs sont confiants quant au potentiel de cette technologie en matière d'édition de matériaux contrôlable. Grâce à des recherches et des optimisations supplémentaires, Alchemist devrait révolutionner le domaine de l'édition d'images, en simplifiant et en rendant plus intuitives les tâches complexes d'édition de matériaux.

La technologie Alchemist de Google représente une nouvelle avancée majeure de l'intelligence artificielle dans le domaine du traitement d'images. Elle simplifie non seulement le processus complexe d'édition d'images, mais offre également de nouvelles possibilités aux industries créatives, et devrait avoir un impact profond sur plusieurs domaines, tels que la conception, l'art et la réalité virtuelle.

Adresse du projet : https://prafullsharma.net/alchemist/