Disney dévoile une nouvelle méthode de compression d'image IA : préserve les détails, mais présente des risques d'« hallucinations »

Les chercheurs de Disney ont récemment présenté une nouvelle méthode de compression d'images révolutionnaire. Utilisant le modèle open source Stable Diffusion V1.2, cette méthode permet de générer des images plus réalistes à des débits binaires inférieurs à ceux de ses concurrents. Cette nouvelle approche, appelée « codec », est certes plus complexe que les codecs JPEG et AV1 traditionnels, mais ses performances sont étonnantes.

L'étude montre que cette nouvelle méthode excelle dans la restauration des détails de l'image, tout en réduisant considérablement les coûts de formation. Les chercheurs ont constaté que l'erreur de quantification (processus central de la compression d'images) est très similaire au bruit (processus central des modèles de diffusion). Ils ont donc pu considérer une image quantifiée traditionnelle comme une version bruitée de l'image originale. Le processus de débruitage des modèles de diffusion est ensuite utilisé pour reconstruire l'image au débit binaire cible.

Lors d'une série de tests, la nouvelle méthode de Disney a surpassé les techniques de compression d'images précédentes en termes de précision et de restauration des détails. Les chercheurs affirment que leur méthode ne nécessite aucun ajustement supplémentaire du modèle de diffusion et qu'elle utilise efficacement les modèles de base existants. La supériorité de ce nouveau codec réside dans sa capacité à reconstruire des images avec un réalisme exceptionnel, même si, dans certains cas, des « hallucinations » peuvent apparaître, c'est-à-dire que des détails inexistants dans l'image originale peuvent être générés.

Bien que cette méthode de compression ait un certain impact sur la représentation des œuvres d'art et des photos ordinaires, le risque potentiel d'« hallucinations » est plus important dans certaines applications sensibles aux détails, telles que les preuves judiciaires, les données de reconnaissance faciale et les numérisations de reconnaissance optique de caractères (OCR). Actuellement, bien que cette technologie en soit encore à ses débuts, les défis de ce domaine se manifesteront progressivement avec le développement des techniques de compression d'images améliorées par l'IA.

Pour rendre le stockage d'images plus efficace, l'équipe Disney a mené de longues recherches et a finalement mis au point cette nouvelle technologie. Elle a été entraînée sur l'ensemble de données Vimeo-90k et testée sur plusieurs ensembles de données, les résultats montrant que cette méthode surpasse les méthodes précédentes sur plusieurs indicateurs de qualité d'image. Enfin, les chercheurs ont également confirmé la supériorité de leur méthode dans des applications réelles grâce à une étude utilisateur.

Article : https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Supplementary-1.pdf

Points clés :
1. 🖼️ La nouvelle technologie de compression d'images IA de Disney permet de générer des images plus réalistes à des débits binaires inférieurs.
2. ⚙️ Cette méthode excelle en termes de restauration des détails et de réduction des coûts de formation, sans nécessiter d'ajustements supplémentaires.
3. ⚠️ Malgré ses résultats remarquables, elle peut générer des détails qui ne correspondent pas à l'image originale, présentant un risque d'« hallucinations ».

Actualités IA

Disney dévoile une nouvelle méthode de compression d'image IA : préserve les détails, mais présente des risques d'« hallucinations »

AIbase基地