El equipo de investigación de Disney ha presentado recientemente un nuevo método de compresión de imágenes que utiliza el modelo de código abierto Stable Diffusion V1.2. Este método permite generar imágenes más realistas a tasas de bits más bajas que sus competidores. Este nuevo método se denomina "códec", y aunque es mucho más complejo que los códecs JPEG y AV1 tradicionales, su rendimiento es asombroso.
El estudio muestra que el nuevo método destaca en la recuperación de detalles de la imagen, al mismo tiempo que reduce considerablemente los costes de entrenamiento. Los investigadores descubrieron que el error de cuantificación (un proceso central en la compresión de imágenes) es muy similar al ruido (un proceso central en los modelos de difusión), por lo que una imagen cuantificada tradicional puede verse como una versión con ruido de la imagen original. En este proceso, se utiliza el proceso de eliminación de ruido del modelo de difusión para reconstruir la imagen a la tasa de bits objetivo.
En una serie de pruebas, el nuevo método de Disney superó a las técnicas de compresión de imágenes anteriores en precisión y recuperación de detalles. Los investigadores afirman que su método no requiere un ajuste fino adicional del modelo de difusión y puede utilizar eficazmente los modelos base existentes. La superioridad de este nuevo códec radica en su excelente rendimiento en la reconstrucción realista, aunque en algunos casos puede producir alucinaciones, es decir, detalles generados que no existen en la imagen original.
Si bien este método de compresión tiene cierta influencia en la representación de obras de arte y fotografías comunes, el riesgo potencial de alucinaciones es más importante en aplicaciones que dependen de los detalles, como pruebas forenses, datos de reconocimiento facial y escaneos de reconocimiento óptico de caracteres (OCR). Actualmente, aunque esta tecnología está en una fase inicial, los desafíos en este campo se harán más evidentes a medida que avance la tecnología de compresión de imágenes mejorada con IA.
Para lograr un almacenamiento de imágenes más eficiente, el equipo de Disney, tras una larga investigación, ha lanzado esta nueva tecnología. Entrenaron el modelo en el conjunto de datos Vimeo-90k y lo probaron en varios conjuntos de datos, mostrando que el método supera a los métodos anteriores en varios indicadores de calidad de imagen. Finalmente, los investigadores también confirmaron la superioridad de su método en aplicaciones prácticas mediante estudios con usuarios.
Artículo:https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Supplementary-1.pdf
Puntos clave:
1. 🖼️ La nueva tecnología de compresión de imágenes con IA de Disney permite generar imágenes más realistas a tasas de bits más bajas.
2. ⚙️ Este método destaca en la recuperación de detalles y en la reducción de los costes de entrenamiento, sin necesidad de ajuste fino adicional.
3. ⚠️ Aunque los resultados son notables, puede generar detalles que no coinciden con la imagen original, presentando un riesgo de "alucinaciones".