Révolution de la vision par IA ! Une nouvelle technologie inspirée du cerveau humain permet aux machines de « voir » avec plus de précision et d'efficacité

Oubliez les « filtres » carrés rigides traditionnels ! Une nouvelle technologie d’IA appelée Lp-Convolution fait son apparition ! Elle imite le fonctionnement du cortex visuel humain, permettant aux systèmes de vision artificielle de se concentrer sur les informations clés avec la même flexibilité que l’œil humain. Cela améliore non seulement la précision et l’efficacité de la reconnaissance d’images, mais réduit également considérablement la charge de calcul.

Le « goulot d’étranglement » de la vision artificielle et l’« intelligence » du cerveau humain

Dans une rue animée, le cerveau humain peut rapidement saisir des détails importants, comme un enfant qui surgit soudainement ou une voiture qui fonce. Mais l’IA traditionnelle, en particulier les réseaux neuronaux convolutifs (CNN) largement utilisés, est un peu « maladroite ». Elles utilisent généralement des « filtres » carrés de taille fixe pour scanner les images. Cette méthode est efficace, mais elle se révèle inefficace pour traiter les informations fragmentées et capturer des schémas plus vastes.

image.png

Ces dernières années, des modèles plus puissants comme Vision Transformer sont apparus. Ils peuvent analyser une image entière en une seule fois et offrent d’excellentes performances, mais leur énorme capacité de calcul et leur dépendance à des quantités massives de données les rendent difficiles à généraliser dans de nombreux contextes réels.

Alors, existe-t-il une méthode permettant de concilier efficacité et performances ? L’équipe de recherche de l’Institut des sciences fondamentales (IBS), de l’Université Yonsei et de l’Institut Max Planck s’est tournée vers notre cerveau. Le cortex visuel humain utilise des connexions circulaires et clairsemées pour traiter sélectivement les informations. Les chercheurs se sont demandés : pourrions-nous nous inspirer de cette approche « bio-inspirée » pour rendre les CNN plus intelligents et plus puissants ?

Lp-Convolution : donner aux IA une « vue perçante »

Partant de cette idée, l’équipe de recherche a développé la technologie Lp-Convolution. Son principe repose sur l’utilisation de la distribution p-normale généralisée multivariée (MPND) pour remodeler dynamiquement les « filtres » des CNN. Contrairement aux filtres carrés fixes des CNN traditionnels, Lp-Convolution permet aux modèles d’IA d’ajuster la forme des filtres en fonction des besoins de la tâche – par exemple, en les étirant horizontalement ou en les comprimant verticalement, comme le cerveau humain peut se concentrer sélectivement sur les détails pertinents.

image.png

Cette avancée résout un problème de longue date de la recherche en IA : le « problème des grands noyaux » (large kernel problem). Auparavant, augmenter simplement la taille des filtres CNN (par exemple, en utilisant des noyaux de convolution 7x7 ou plus grands) n’améliorait généralement pas les performances, et pouvait même les dégrader en raison du nombre excessif de paramètres. Lp-Convolution surmonte cette limitation en introduisant ce mode de connexion flexible et bio-inspiré.

Des études montrent que la conception de Lp-Convolution imite la structure de traitement de l’information du cortex visuel du cerveau. Les connexions des neurones cérébraux sont vastes et lisses, l’intensité de la connexion variant progressivement avec la distance (suivant une distribution gaussienne), permettant d’intégrer les informations visuelles centrales et périphériques. La méthode de traitement par zone rectangulaire fixe des CNN traditionnels limite sa capacité à capturer les relations entre les éléments visuels distants. Lp-Convolution, en simulant le mode de connexion du cerveau, permet à la portée et à la sensibilité des entrées neuronales de suivre une distribution de type gaussienne, pouvant s’ajuster de manière adaptative pendant l’entraînement, en mettant davantage l’accent sur les informations importantes et en ignorant les détails secondaires, permettant un traitement d’image plus flexible et plus conforme à la biologie.

Performances réelles : plus puissant, plus intelligent, plus robuste

Des tests effectués sur des ensembles de données de classification d’images standard (tels que CIFAR-100, TinyImageNet) montrent que Lp-Convolution améliore considérablement la précision des modèles classiques (tels qu’AlexNet) et des architectures modernes (telles que RepLKNet).

Plus important encore, cette méthode présente une très grande robustesse (résistance aux interférences) lors du traitement de données corrompues, ce qui est crucial pour les applications d’IA du monde réel. Les chercheurs ont également constaté que lorsque le Lp-mask (un mode de distribution des poids) utilisé dans Lp-Convolution se rapproche d’une distribution gaussienne, le mode de traitement interne de l’IA correspond fortement à l’activité neuronale biologique (confirmé par comparaison avec des données cérébrales de souris).

Le Dr C. Justin Lee, directeur du Centre de cognition et de socialité de l’Institut des sciences fondamentales, a déclaré : « Les humains peuvent rapidement identifier les points clés dans une scène bondée. Notre Lp-Convolution imite cette capacité, permettant à l’IA de se concentrer de manière flexible sur les parties les plus pertinentes d’une image, comme le fait le cerveau. »

Impact et applications futures : ouvrir un nouveau chapitre de la vision intelligente

Contrairement aux modèles précédents qui reposaient sur de petits filtres rigides ou nécessitaient des ressources importantes, comme les modèles Transformer, Lp-Convolution offre une solution de rechange pratique et efficace. Cette innovation devrait révolutionner plusieurs domaines :

Conduite autonome : aider l’IA à détecter les obstacles en temps réel et rapidement.

Imagerie médicale : améliorer la précision du diagnostic assisté par IA en mettant en évidence les détails subtils.

Robotique : permettre aux robots d’avoir une capacité visuelle plus intelligente et plus adaptative dans des environnements changeants.

« Ce travail représente une contribution importante à l’intelligence artificielle et aux neurosciences », a ajouté le directeur Lee. « En rapprochant l’IA du fonctionnement du cerveau, nous avons libéré le nouveau potentiel des CNN, les rendant plus intelligents, plus adaptables et plus conformes aux principes biologiques. »

À l’avenir, l’équipe prévoit d’améliorer cette technologie et d’explorer ses applications dans des tâches d’inférence plus complexes (comme la résolution de Sudoku) et le traitement d’images en temps réel.

Les résultats de cette recherche seront présentés à la Conférence internationale sur les représentations d’apprentissage (ICLR 2025), et le code et les modèles associés sont disponibles sur GitHub et OpenReview.net.