A equipe de pesquisa do Google lançou recentemente uma tecnologia inovadora chamada Alchemist. Essa tecnologia permite que os usuários editem com precisão as propriedades de material dos objetos em imagens, como cor, brilho e transparência, sem precisar de softwares ou habilidades de edição de imagem profissionais.

O núcleo da tecnologia Alchemist é um modelo de geração de "texto para imagem" (Text-to-Image, T2I) ajustado com precisão. A equipe de pesquisa, por meio da criação de conjuntos de dados sintéticos e da modificação da arquitetura do modelo Stable Diffusion 1.5, conseguiu um controle refinado dos parâmetros de material.

QQ截图20240729101021.jpg

Especificamente, os pesquisadores primeiro usaram técnicas de computação gráfica e renderização baseada em física para gerar uma grande quantidade de imagens sintéticas. Essas imagens contêm vários modelos 3D, com materiais, ângulos de câmera e condições de iluminação selecionados aleatoriamente. Em seguida, eles alteraram uma única propriedade dessas imagens, gerando várias versões com diferentes intensidades de edição.

Ao ajustar esses dados sintéticos, o modelo aprendeu como alterar apenas as propriedades de material especificadas, mantendo a forma do objeto e a iluminação da imagem inalteradas, dado uma imagem de contexto, instruções e valores de intensidade de edição.

Os resultados experimentais mostram que a tecnologia consegue alterar eficazmente a aparência dos objetos, como aumentar o brilho metálico ou ajustar a transparência. Em estudos com usuários, esse método obteve vantagens significativas em relação aos métodos de referência, tanto em realismo fotográfico quanto em preferência do usuário.

QQ截图20240729101033.jpg

As perspectivas de aplicação dessa tecnologia são amplas. Ela pode ajudar designers de interiores a visualizar o efeito de repintar uma sala, ou auxiliar arquitetos, artistas e designers a criar rapidamente esboços de novos produtos. Além disso, como os efeitos de edição são visualmente consistentes, a tecnologia também pode ser usada em tarefas 3D posteriores, como reconstrução NeRF (Neural Radiance Field).

Embora a tecnologia Alchemist tenha feito progressos significativos na edição de materiais, a equipe de pesquisa também apontou algumas limitações. Por exemplo, o modelo ainda tem espaço para melhorias no tratamento de detalhes ocultos nas imagens.

No entanto, os pesquisadores estão confiantes no potencial dessa tecnologia na edição controlável de materiais. Com pesquisas e otimizações adicionais, o Alchemist poderá revolucionar o campo da edição de imagens, tornando as tarefas complexas de edição de materiais mais simples e intuitivas.

A tecnologia Alchemist do Google representa mais um grande avanço da inteligência artificial no processamento de imagens. Ela não apenas simplifica o processo complexo de edição de imagens, mas também oferece novas possibilidades para a indústria criativa, com potencial para causar um impacto profundo em várias áreas, como design, arte e realidade virtual.

Endereço do projeto: https://prafullsharma.net/alchemist/