Uma equipe de pesquisa da Disney lançou recentemente um novo método de compressão de imagem que utiliza o modelo de código aberto Stable Diffusion V1.2. Este método consegue gerar imagens mais realistas a taxas de bits mais baixas do que seus concorrentes. Este novo método é chamado de "codec" e, embora seja muito mais complexo do que os codecs JPEG e AV1 tradicionais, seu desempenho é impressionante.
O estudo mostra que o novo método se destaca na recuperação de detalhes da imagem, ao mesmo tempo em que reduz significativamente os custos de treinamento. Os pesquisadores descobriram que o erro de quantização (um processo central na compressão de imagem) é muito semelhante ao ruído (um processo central nos modelos de difusão). Portanto, uma imagem quantizada tradicional pode ser vista como uma versão com ruído da imagem original. Neste processo, o processo de remoção de ruído do modelo de difusão é usado para reconstruir a imagem na taxa de bits desejada.
Em uma série de testes, o novo método da Disney superou as técnicas anteriores de compressão de imagem em termos de precisão e recuperação de detalhes. Os pesquisadores afirmam que seu método não requer ajuste fino adicional do modelo de difusão e pode usar modelos básicos existentes de forma eficiente. A superioridade deste novo codec reside em sua excelente capacidade de reconstrução realista, embora em alguns casos possa ocorrer o fenômeno de "alucinação", ou seja, a geração de detalhes na imagem que não existem na imagem original.
Embora este método de compressão tenha um certo impacto na apresentação de obras de arte e fotografias comuns, o risco potencial de "alucinação" é mais significativo em aplicações que dependem de detalhes, como evidências forenses, dados de reconhecimento facial e digitalização de reconhecimento óptico de caracteres (OCR).
Embora a tecnologia ainda esteja em estágio inicial, os desafios neste campo se tornarão mais evidentes com o desenvolvimento de tecnologias de compressão de imagem aprimoradas por IA.
Para tornar o armazenamento de imagens mais eficiente, a equipe da Disney, após uma longa exploração, lançou esta nova tecnologia. Eles treinaram o modelo no conjunto de dados Vimeo-90k e o testaram em vários conjuntos de dados, mostrando que o método supera os métodos anteriores em vários indicadores de qualidade de imagem. Finalmente, os pesquisadores também confirmaram a superioridade de seu método em aplicações práticas por meio de estudos com usuários.
Artigo:https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Supplementary-1.pdf
Destaques:
1. 🖼️ A nova tecnologia de compressão de imagem de IA da Disney gera imagens mais realistas a taxas de bits mais baixas.
2. ⚙️ O método apresenta desempenho superior na recuperação de detalhes e no custo de treinamento, sem necessidade de ajuste fino adicional.
3. ⚠️ Apesar dos resultados significativos, pode gerar detalhes que não correspondem à imagem original, apresentando o risco de "alucinação".