No mundo digital de hoje, o uso de textos curtos se tornou fundamental na comunicação online. No entanto, como esses textos frequentemente carecem de vocabulário ou contexto comum, a inteligência artificial (IA) enfrenta muitos desafios na análise. Para isso, Justin Miller, um pós-graduando em literatura inglesa e cientista de dados da Universidade de Sydney, propôs um novo método que utiliza modelos de linguagem grandes (LLMs) para uma compreensão e análise mais profunda de textos curtos.
O foco da pesquisa de Miller é como classificar efetivamente grandes quantidades de textos curtos, como perfis de mídia social, feedback de clientes ou comentários online relacionados a eventos catastróficos. A ferramenta de IA que ele desenvolveu pode agrupar dezenas de milhares de perfis de usuários do Twitter em dez categorias fáceis de entender. Esse processo analisou com sucesso quase 40.000 perfis de usuários do Twitter sobre o presidente americano Trump em dois dias em setembro de 2020. Essa classificação pode ajudar a identificar as tendências profissionais dos usuários, posições políticas e até mesmo os emojis que eles usam.
“O destaque desta pesquisa é sua filosofia de design centrada no ser humano”, disse Miller. As classificações geradas usando modelos de linguagem grandes são não apenas computacionalmente eficientes, mas também se alinham com a compreensão intuitiva humana. Sua pesquisa também mostra que a IA generativa, como o ChatGPT, em alguns casos fornece nomes de categorias mais claros e consistentes do que os revisores humanos, especialmente ao discernir padrões significativos do ruído de fundo.
A ferramenta de Miller tem um grande potencial de aplicação. Sua pesquisa mostra que grandes conjuntos de dados podem ser reduzidos a grupos significativos e fáceis de gerenciar. Por exemplo, em um projeto sobre a guerra na Ucrânia, ele agrupou mais de 1 milhão de postagens de mídia social, identificando dez tópicos diferentes, incluindo campanhas de desinformação russa e o uso de animais como símbolos em esforços de ajuda humanitária. Além disso, por meio dessas classificações, organizações, governos e empresas podem obter insights práticos para tomar decisões mais inteligentes.
Miller conclui: “Este aplicativo de IA de dupla finalidade não apenas reduz a dependência de revisões humanas caras e subjetivas, mas também nos fornece uma maneira escalonável de entender grandes quantidades de dados de texto. Da análise de tendências de mídia social ao monitoramento de crises e insights do cliente, este método combina efetivamente a eficiência da máquina com a compreensão humana, oferecendo novas perspectivas para a organização e interpretação de dados.”