Un equipo de investigación de la Universidad de Surrey y la Universidad de Stanford ha desarrollado un nuevo método para enseñar a la inteligencia artificial (IA) a comprender bocetos a mano alzada humanos, incluso aquellos realizados por personas que no son artistas. El modelo ha logrado un rendimiento casi humano en el reconocimiento de bocetos de escenas.

image.png

La Dra. Yulia Gryaditskaya, profesora del Centro de Visión, Voz y Procesamiento de Señales (CVSSP) de la Universidad de Surrey y del Instituto de Inteligencia Artificial del People Center (PAI), afirma: "El boceto es un poderoso lenguaje de comunicación visual. A veces, incluso es más expresivo y flexible que el lenguaje hablado. Desarrollar herramientas que comprendan bocetos es un paso hacia una interacción humano-máquina más potente y flujos de trabajo de diseño más eficientes. Por ejemplo, se podría buscar o crear imágenes a través de bocetos". Independientemente de la edad o el trasfondo, las personas utilizan el dibujo para explorar nuevas ideas y comunicarse. Sin embargo, los sistemas de IA han tenido problemas para comprender los bocetos. La IA debe aprender a comprender las imágenes. Normalmente, esto requiere un proceso lento y laborioso de recopilar etiquetas para cada píxel de la imagen. Luego, la IA aprende de estas etiquetas.

Sin embargo, el equipo de investigación enseñó a la IA mediante una combinación de bocetos y descripciones textuales. Aprendió a agrupar píxeles y a emparejarlos con las categorías de la descripción. Como resultado, la IA mostró una comprensión más rica y cercana a la humana que antes. Fue capaz de identificar y etiquetar correctamente cometas, árboles, jirafas y otros objetos con una precisión del 85%, superando a otros modelos que dependen de píxeles etiquetados. Además de identificar objetos en escenas complejas, también pudo determinar a qué objeto pertenecía cada trazo. Este nuevo método no solo funciona con bocetos informales realizados por personas que no son artistas, sino también con bocetos de objetos para los que no se ha realizado un entrenamiento específico.

La profesora asistente de Psicología de la Universidad de Stanford, Judith Fan, comenta: "El dibujo y la escritura son algunas de las actividades humanas más típicas y se han utilizado durante mucho tiempo para capturar las observaciones e ideas de las personas. Este trabajo ha logrado un progreso emocionante en la capacidad de los sistemas de IA para comprender la esencia de lo que las personas intentan comunicar, ya sea mediante imágenes o texto". Esta investigación forma parte del Instituto de Inteligencia Artificial del People Center de la Universidad de Surrey, en particular, su programa SketchX. SketchX utiliza la IA para intentar comprender cómo vemos el mundo a través de la forma en que dibujamos.

El profesor Song Yizhe, codirector del Instituto de Inteligencia Artificial del People Center y líder de SketchX, afirma: "Esta investigación es un ejemplo típico de cómo la IA puede mejorar actividades humanas básicas como el boceto. Al comprender bocetos toscos con una precisión casi humana, esta tecnología tiene un enorme potencial para mejorar la creatividad natural de las personas, independientemente de su talento artístico."

Enlace al artículo: https://arxiv.org/abs/2312.12463