El equipo de investigación de Google ha presentado recientemente una tecnología innovadora: Alchemist. Esta tecnología permite a los usuarios editar con precisión las propiedades de los materiales de los objetos en una imagen, como el color, el brillo y la transparencia, sin necesidad de software ni habilidades de edición de imágenes profesionales.
El núcleo de la tecnología Alchemist es un modelo de generación de "texto a imagen" (Text-to-Image, T2I) finamente ajustado. El equipo de investigación logró un control preciso de los parámetros del material mediante la creación de conjuntos de datos sintéticos y la modificación de la arquitectura del modelo Stable Diffusion 1.5.
En concreto, los investigadores utilizaron primero técnicas de gráficos por ordenador y renderizado físico para generar una gran cantidad de imágenes sintéticas. Estas imágenes contenían varios modelos 3D, con materiales, ángulos de cámara y condiciones de iluminación seleccionados aleatoriamente. A continuación, modificaron un único atributo de estas imágenes, generando múltiples versiones con diferentes intensidades de edición.
Mediante el ajuste fino de estos datos sintéticos, el modelo aprendió a modificar únicamente los atributos de material especificados, dados una imagen de contexto, una instrucción y un valor de intensidad de edición, manteniendo al mismo tiempo la forma del objeto y la iluminación de la imagen.
Los resultados experimentales muestran que la tecnología puede cambiar eficazmente la apariencia de los objetos, como aumentar el aspecto metálico o ajustar la transparencia. En los estudios con usuarios, este método obtuvo ventajas significativas en cuanto a realismo fotográfico y preferencias del usuario en comparación con los métodos de referencia.
Las perspectivas de aplicación de esta tecnología son amplias. Puede ayudar a los diseñadores de interiores a previsualizar el efecto de repintar una habitación, o ayudar a arquitectos, artistas y diseñadores a crear rápidamente bocetos de nuevos productos. Además, dado que los efectos de edición se mantienen visualmente coherentes, la tecnología también se puede utilizar en tareas 3D posteriores, como la reconstrucción de NeRF (campos de radiación neuronal).
Aunque la tecnología Alchemist ha logrado un progreso significativo en la edición de materiales, el equipo de investigación también señala algunas limitaciones. Por ejemplo, el modelo aún tiene margen de mejora en el tratamiento de los detalles ocultos en las imágenes.
Sin embargo, los investigadores confían en el potencial de esta tecnología para la edición de materiales controlable. Con futuras investigaciones y optimizaciones, Alchemist podría revolucionar el campo de la edición de imágenes, haciendo que las complejas tareas de edición de materiales sean más sencillas e intuitivas.
La tecnología Alchemist de Google representa otro gran avance de la inteligencia artificial en el procesamiento de imágenes. No solo simplifica el complejo proceso de edición de imágenes, sino que también ofrece nuevas posibilidades para las industrias creativas, y se espera que tenga un profundo impacto en diversos campos como el diseño, el arte y la realidad virtual.
Dirección del proyecto: https://prafullsharma.net/alchemist/