ディズニーの研究チームが、オープンソースのStable Diffusion V1.2モデルを利用した画期的な画像圧縮手法を発表しました。競合他社よりも低いビットレートで、よりリアルな画像生成を実現するこの手法は、「コーデック」と呼ばれています。従来のJPEGやAV1コーデックよりもはるかに複雑ですが、その性能は驚くべきものです。
研究によると、この新手法は画像ディテールの復元において優れた性能を示し、同時にトレーニングコストも大幅に削減されています。研究者たちは、量子化誤差(画像圧縮の中核プロセス)とノイズ(拡散モデルの中核プロセス)が非常に似ていることを発見しました。そのため、従来の量子化された画像を元の画像のノイズバージョンと見なすことができます。このプロセスでは、拡散モデルのノイズ除去プロセスを利用して、目標ビットレートでの画像を再構築します。
一連のテストで、ディズニーの新手法は、正確性とディテール復元の両方において、従来の画像圧縮技術を凌駕することが示されました。研究者たちは、この手法は拡散モデルに追加の微調整を必要とせず、既存の基本モデルを効果的に利用できると述べています。この新型コーデックの優位性は、リアルな再構築において優れた性能を発揮することにあります。ただし、場合によっては、元の画像には存在しないディテールが生成される「幻覚」現象が発生する可能性があります。
この圧縮手法は、芸術作品や一般的な写真では一定の影響がありますが、法廷証拠、顔認識データ、光学文字認識(OCR)スキャンなど、ディテールが重要な用途では、「幻覚」現象のリスクがより深刻になります。現在、この技術はまだ初期段階ですが、AIによる画像圧縮技術の発展に伴い、この分野の課題が徐々に明らかになってくるでしょう。
より効率的な画像保存を目指し、ディズニーチームは長年の研究を経てこの新技術を発表しました。彼らはVimeo-90kデータセットでトレーニングを行い、複数のデータセットでテストを実施しました。その結果、この手法は複数の画像品質指標において従来の手法を上回ることが示されました。最終的に、ユーザー調査でも、この手法の実用的な優位性が確認されました。
論文:https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Supplementary-1.pdf
要点:
1. 🖼️ ディズニーの新AI画像圧縮技術は、より低いビットレートでよりリアルな画像を生成できます。
2. ⚙️ この手法は、ディテール復元とトレーニングコストにおいて優れた性能を示し、追加の微調整は不要です。
3. ⚠️ 効果は顕著ですが、元の画像と異なるディテールが生成される「幻覚」リスクがあります。