Dans le monde numérique actuel, l'utilisation de courts textes est devenue essentielle pour la communication en ligne. Cependant, ces textes, souvent dépourvus de vocabulaire ou de contexte commun, posent de nombreux défis à l'analyse par l'intelligence artificielle (IA). Pour y remédier, Justin Miller, étudiant en littérature anglaise et data scientist à l'Université de Sydney, a développé une nouvelle méthode utilisant les grands modèles de langage (LLM) pour une compréhension et une analyse approfondies de ces courts textes.

Les recherches de Miller se concentrent sur la classification efficace de grands volumes de courts textes, tels que les profils sur les médias sociaux, les retours clients ou les commentaires en ligne liés à des événements catastrophiques. L'outil IA qu'il a développé peut regrouper des dizaines de milliers de profils Twitter en dix catégories facilement compréhensibles. Ce processus a permis d'analyser près de 40 000 profils Twitter concernant le président américain Trump en seulement deux jours en septembre 2020. Cette classification permet d'identifier les tendances professionnelles des utilisateurs, leurs positions politiques, et même les émojis qu'ils utilisent.

Twitter (3)

« Le point fort de cette recherche réside dans son approche centrée sur l'humain. » explique Miller. Les classifications générées par les grands modèles de langage sont non seulement efficaces en termes de calcul, mais aussi cohérentes avec l'intuition humaine. Ses recherches montrent également que les IA génératives, comme ChatGPT, fournissent dans certains cas des noms de catégories plus clairs et plus cohérents que les examinateurs humains, notamment pour discerner les schémas significatifs du bruit de fond.

L'outil de Miller présente un fort potentiel applicatif. Ses recherches montrent que de vastes ensembles de données peuvent être réduits à des groupes significatifs et faciles à gérer. Par exemple, dans un projet sur la guerre en Ukraine, il a regroupé plus d'un million de publications sur les médias sociaux, identifiant dix thèmes différents, notamment les campagnes de désinformation russes et l'utilisation symbolique des animaux dans les opérations humanitaires. Ces regroupements permettent aux organisations, aux gouvernements et aux entreprises d'obtenir des informations concrètes pour une prise de décision plus éclairée.

Miller conclut : « Cette application à double usage de l'IA réduit non seulement la dépendance à des examens humains coûteux et subjectifs, mais offre également un moyen évolutif de comprendre de grandes quantités de données textuelles. De l'analyse des tendances sur les médias sociaux à la surveillance des crises et à l'analyse de la clientèle, cette méthode combine efficacement l'efficacité de la machine et la compréhension humaine, ouvrant de nouvelles perspectives pour l'organisation et l'interprétation des données. »