Une équipe de chercheurs de l'Université de Surrey et de l'Université de Stanford a développé une nouvelle méthode pour apprendre à l'intelligence artificielle (IA) à comprendre les croquis au trait réalisés par des humains, même ceux dessinés par des non-artistes. Le modèle atteint des performances presque équivalentes à celles des humains pour identifier les scènes représentées dans les croquis.
Le Dr Yulia Gryaditskaya, chargée de cours au Centre de vision, parole et traitement du signal (CVSSP) de l'Université de Surrey et à l'Institut de recherche sur l'intelligence artificielle du Surrey People Centre (PAI), explique : « Le croquis est un puissant langage de communication visuelle. Il est parfois même plus expressif et flexible que le langage oral. Développer des outils capables de comprendre les croquis est une étape vers une interaction homme-machine plus puissante et des processus de conception plus efficaces. Par exemple, il est possible de rechercher ou de créer des images à partir de croquis. » Peu importe l'âge ou le contexte, les gens utilisent le dessin pour explorer de nouvelles idées et communiquer. Cependant, les systèmes d'intelligence artificielle ont toujours eu des difficultés à comprendre les croquis. L'IA doit apprendre à comprendre les images. Habituellement, cela nécessite un processus long et fastidieux consistant à collecter les étiquettes de chaque pixel d'une image. L'IA apprend ensuite à partir de ces étiquettes.
Cependant, l'équipe de recherche a appris à l'IA en combinant des croquis et des descriptions textuelles. Elle a appris à regrouper les pixels et à les faire correspondre aux catégories de la description. En conséquence, l'IA a démontré une compréhension plus riche et plus proche de celle des humains. Elle est capable d'identifier et de marquer correctement des cerfs-volants, des arbres, des girafes et d'autres objets avec une précision de 85 %, surpassant ainsi les autres modèles qui reposent sur l'étiquetage des pixels. En plus d'identifier les objets dans des scènes complexes, elle peut également déterminer à quel objet chaque trait appartient. Cette nouvelle méthode est applicable non seulement aux croquis informels réalisés par des non-artistes, mais aussi aux croquis d'objets pour lesquels aucun entraînement spécifique n'a été effectué.
Judith Fan, professeure adjointe de psychologie à l'Université de Stanford, déclare : « Le dessin et l'écriture sont parmi les activités humaines les plus typiques et ont longtemps servi à capturer les observations et les idées des gens. Ce travail représente un progrès encourageant dans la capacité des systèmes d'IA à comprendre l'essence des idées que les gens tentent de transmettre, qu'ils utilisent des images ou du texte. » Cette recherche fait partie du People Centre AI Institute de l'Université de Surrey, et plus précisément de son programme SketchX. SketchX utilise l'IA pour tenter de comprendre comment nous voyons le monde à travers la façon dont nous dessinons.
Le professeur Yi Song, co-directeur de l'Institut de recherche sur l'intelligence artificielle du People Centre et responsable de SketchX, déclare : « Cette recherche est un exemple typique de la façon dont l'IA peut améliorer des activités humaines fondamentales comme le croquis. En comprenant les croquis approximatifs avec une précision proche de celle des humains, cette technologie a un potentiel énorme pour améliorer la créativité naturelle des gens, quel que soit leur talent artistique. »
Adresse de l'article : https://arxiv.org/abs/2312.12463