Recentemente, a gigante tecnológica Apple demonstrou mais uma vez sua poderosa capacidade de inovação tecnológica, lançando um novo método de geração de imagens e vídeos chamado Matryoshka Diffusion Models (MDM), uma tecnologia inovadora apelidada de "modelo de difusão de bonecas russas".

O nome MDM vem das bonecas russas Matryoshka. Essa nomenclatura inteligente não apenas é divertida, mas também reflete a ideia central da tecnologia: estruturas menores aninhadas em estruturas maiores. Assim como cada boneca contém uma menor, mas igualmente elaborada, a MDM processa imagens simultaneamente em diferentes resoluções, permitindo uma geração perfeita, de um esboço de baixa resolução a detalhes de alta resolução.

QQ截图20240809114448.jpg

O charme deste método inovador reside na sua capacidade de lidar simultaneamente com o processamento de imagens em várias resoluções. Imagine um grupo de pintores habilidosos, cada um concentrando-se em uma área diferente da tela, mas trabalhando em harmonia para criar uma obra-prima. A MDM, através da técnica de desruído conjunto em múltiplas resoluções, gera imagens com detalhes mais ricos e realismo, melhorando significativamente a qualidade geral da imagem.

A arquitetura central da MDM é chamada NestedUNet, um conceito que reforça ainda mais a ideia das "bonecas russas". Nesta arquitetura, cada nível contém uma subestrutura menor, mas funcionalmente completa, como cada boneca dentro da outra. Esse design único permite que a MDM, ao lidar com entradas de pequena escala, utilize plenamente as características e parâmetros de níveis superiores, resultando em um processo de aprendizado e geração mais eficiente.

QQ截图20240809110221.jpg

Atualmente, os modelos de geração de imagens e vídeos de alta qualidade enfrentam grandes desafios computacionais e de otimização. Os métodos tradicionais ou geram imagens pixel a pixel, ou treinam primeiro um modelo de imagem comprimida e depois processam imagens de baixa resolução. O processo de treinamento da MDM é mais como ensinar uma criança a andar gradualmente, de passos hesitantes a passos firmes. Ela utiliza um método de treinamento progressivo, começando com baixa resolução e passando gradualmente para alta resolução. Este método torna o modelo mais estável e eficiente ao lidar com novas imagens de alta resolução.

image.png

A equipe de pesquisa da Apple, através de uma série de testes de referência, demonstrou a força da MDM. Seja na geração de imagens condicionais, na conversão de texto para imagem ou de texto para vídeo, a MDM apresentou desempenho excepcional. Vale destacar que, mesmo treinada em um conjunto de dados CC12M com apenas 12 milhões de pixels, a MDM exibiu uma surpreendente capacidade de generalização de zero-shot, o que significa que ela consegue se sair bem em cenários desconhecidos.

Os resultados da pesquisa mostram que a MDM pode gerar imagens com resolução de até 1024x1024 pixels e, mesmo com dados relativamente limitados, consegue concluir tarefas com sucesso, gerando imagens de alta qualidade que atendem aos requisitos. Essa característica expande enormemente o alcance da tecnologia de geração de imagens de IA, abrindo novas possibilidades para indústrias criativas e de design.

Embora a MDM já tenha alcançado resultados notáveis na geração de imagens e vídeos, isso pode ser apenas a ponta do iceberg. No futuro, a MDM poderá se tornar ainda mais inteligente, capaz de entender informações contextuais mais complexas e gerar conteúdo mais realista e diversificado. Podemos esperar que essa tecnologia desempenhe um papel importante em realidade virtual, realidade aumentada, produção cinematográfica, desenvolvimento de jogos e outros campos.

A tecnologia "modelo de difusão de bonecas russas" lançada pela Apple, sem dúvida, trouxe uma onda de inovação tecnológica para o campo da geração de imagens de IA. Ela não apenas melhorou a eficiência e a qualidade da geração de imagens, mas também apontou novas direções para o desenvolvimento do setor. Com o aprimoramento contínuo da tecnologia e a aprofundamento de suas aplicações, podemos acreditar que a MDM desempenhará um papel cada vez mais importante no futuro mundo digital criativo, proporcionando-nos experiências visuais ainda mais surpreendentes.

Página do projeto:https://top.aibase.com/tool/ml-mdm

Artigo científico:https://arxiv.org/pdf/2310.15111