Dans le contexte de l'évolution rapide des interfaces cerveau-ordinateur (ICO), le modèle Brain2Qwerty récemment lancé par Meta AI offre une nouvelle perspective prometteuse dans ce domaine. Les ICO visent à fournir des moyens de communication aux personnes souffrant de troubles du langage ou du mouvement, mais les méthodes traditionnelles nécessitent souvent des interventions chirurgicales invasives, telles que l'implantation d'électrodes, ce qui présente des risques médicaux et nécessite une maintenance à long terme. Par conséquent, les chercheurs explorent des solutions non invasives, notamment des méthodes basées sur l'électroencéphalographie (EEG). Cependant, la technologie EEG est limitée par une faible résolution du signal, affectant ainsi sa précision.
Source de l'image : Image générée par IA, fournie par Midjourney
Brain2Qwerty a été développé pour résoudre ce problème. Ce modèle d'apprentissage profond peut décoder les phrases saisies par les participants à partir de l'activité cérébrale captée par EEG ou magnétoencéphalographie (MEG). Dans l'étude, les participants ont tapé des phrases mémorisées brièvement sur un clavier QWERTY, tandis que leur activité cérébrale était enregistrée en temps réel. Contrairement aux méthodes précédentes qui nécessitaient une concentration sur des stimuli externes ou l'imagination du mouvement, Brain2Qwerty utilise le mouvement naturel de la frappe, offrant une méthode plus intuitive d'interprétation des ondes cérébrales.
L'architecture de Brain2Qwerty se compose de trois modules principaux. Le premier est un module convolutionnel, chargé d'extraire les caractéristiques temporelles et spatiales des signaux EEG ou MEG. Ensuite, un module transformateur traite les séquences d'entrée, optimisant la compréhension et l'expression. Enfin, un module de modèle linguistique, un modèle linguistique pré-entraîné au niveau des caractères, corrige et améliore la précision des résultats du décodage.
Pour évaluer les performances de Brain2Qwerty, les chercheurs ont utilisé le taux d'erreur de caractères (TEC) comme mesure. Les résultats montrent un TEC de 67 % pour le décodage basé sur l'EEG, relativement élevé ; tandis que le décodage utilisant la MEG montre une amélioration significative, avec un TEC réduit à 32 %. Dans l'expérience, le meilleur participant a atteint un TEC de 19 %, démontrant le potentiel du modèle dans des conditions idéales.
Bien que Brain2Qwerty présente des perspectives prometteuses dans le domaine des ICO non invasives, plusieurs défis persistent. Premièrement, le modèle actuel nécessite le traitement de phrases complètes, et non un décodage en temps réel touche par touche. Deuxièmement, bien que la MEG surpasse l'EEG en termes de performances, l'équipement reste encombrant et peu accessible. Enfin, cette étude a principalement été menée sur des participants sains, et des recherches futures devront explorer son applicabilité aux personnes souffrant de troubles moteurs ou du langage.
Article : https://ai.meta.com/research/publications/brain-to-text-decoding-a-non-invasive-approach-via-typing/
Points clés :
🧠 Le modèle Brain2Qwerty de Meta AI permet de décoder la frappe via EEG et MEG, offrant de nouveaux espoirs pour la technologie ICO.
📊 Les résultats montrent que le taux d'erreur de caractères du décodage MEG est significativement inférieur à celui de l'EEG, le meilleur participant atteignant un TEC de 19 %.
🔍 Les défis futurs incluent le décodage en temps réel, l'accessibilité des équipements MEG et l'efficacité de l'application chez les personnes handicapées.