Disneys Forschungsteam hat kürzlich eine neuartige Methode zur Bildkompression vorgestellt, die das quelloffene Stable Diffusion V1.2-Modell nutzt. Diese Methode erzeugt bei niedrigeren Bitraten realistischere Bilder als Konkurrenzverfahren. Die neue Methode, ein sogenannter „Codec“, ist zwar deutlich komplexer als herkömmliche JPEG- und AV1-Codecs, liefert aber erstaunliche Ergebnisse.

image.png

Die Studie zeigt, dass die neue Methode die Bilddetails besser wiederherstellt und gleichzeitig die Trainingskosten deutlich reduziert. Die Forscher stellten fest, dass der Quantisierungsfehler (ein Kernprozess der Bildkompression) dem Rauschen (ein Kernprozess von Diffusionsmodellen) sehr ähnlich ist. Daher kann ein quantisiertes Bild als verrauschte Version des Originalbildes betrachtet werden. Der Entrauschungsprozess des Diffusionsmodells wird dann verwendet, um das Bild bei der Ziel-Bitrate zu rekonstruieren.

image.png

In einer Reihe von Tests übertraf Disneys neue Methode bestehende Bildkompressionstechniken in Bezug auf Genauigkeit und Detailwiederherstellung. Die Forscher geben an, dass ihre Methode keine zusätzliche Feinabstimmung des Diffusionsmodells erfordert und bestehende Basismodelle effektiv nutzt. Die Überlegenheit des neuen Codecs liegt in der hervorragenden Rekonstruktion der Realitätsnähe, obwohl in einigen Fällen Halluzinationen auftreten können – das heißt, im generierten Bild können Details erscheinen, die im Originalbild nicht vorhanden sind.

Während diese Kompressionsmethode bei Kunstwerken und normalen Fotos einen gewissen Einfluss hat, ist das potenzielle Risiko von Halluzinationen in detailorientierten Anwendungen wie Gerichtsbeweisen, Gesichtserkennungsdaten und OCR-Scans (optische Zeichenerkennung) wichtiger. Obwohl sich die Technologie noch in einem frühen Stadium befindet, werden sich mit der Weiterentwicklung der KI-gestützten Bildkompressionstechnologie die Herausforderungen in diesem Bereich zunehmend zeigen.

Um die Speicherung von Bildern effizienter zu gestalten, hat das Disney-Team nach langer Forschungsarbeit diese neue Technologie entwickelt. Sie trainierten das Modell mit dem Vimeo-90k-Datensatz und testeten es auf mehreren Datensätzen. Die Ergebnisse zeigen, dass die Methode mehrere Bildqualitätsindikatoren im Vergleich zu bisherigen Methoden übertrifft. Schließlich bestätigten die Forscher die Überlegenheit ihrer Methode in der Praxis auch durch Nutzerstudien.

Artikel:https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Supplementary-1.pdf

Wichtigste Punkte:

1. 🖼️ Disneys neue KI-Bildkompressionstechnologie erzeugt bei niedrigeren Bitraten realistischere Bilder.

2. ⚙️ Die Methode zeichnet sich durch hervorragende Detailwiederherstellung und geringe Trainingskosten aus und benötigt keine zusätzliche Feinabstimmung.

3. ⚠️ Trotz der beeindruckenden Ergebnisse können Details generiert werden, die nicht im Originalbild vorhanden sind („Halluzinationen“).