O Meta recentemente anunciou uma parceria com a UNESCO (Organização das Nações Unidas para a Educação, a Ciência e a Cultura) para lançar um novo programa de parceria em tecnologia de linguagem. O objetivo é coletar gravações de voz e transcrições em várias línguas para impulsionar o desenvolvimento futuro de inteligência artificial (IA) de acesso aberto. Este programa se concentra especialmente em línguas minoritárias negligenciadas no ambiente digital.
Segundo o Meta, o programa busca atrair parceiros que forneçam mais de 10 horas de gravações de voz com suas transcrições, extensos textos escritos e conjuntos de frases traduzidas. O Meta espera integrar essas línguas em seus modelos de reconhecimento de voz e tradução de IA por meio de esforços conjuntos com os parceiros. Os resultados finais serão publicados como código aberto.
Observação da fonte: Imagem gerada por IA, fornecida pela Midjourney.
Até o momento, um parceiro confirmado é o governo do Nunavut, no norte do Canadá, onde uma parte da população fala Inuktitut. O Meta declarou em seu blog: "Nossos esforços se concentram especialmente em línguas subatendidas, apoiando o trabalho da UNESCO. No fim das contas, nosso objetivo é criar sistemas inteligentes capazes de entender e responder às complexas necessidades humanas, independentemente do idioma ou da cultura."
Para complementar este programa, o Meta também lançará um benchmark de tradução automática de código aberto, projetado para avaliar o desempenho dos modelos de tradução de idiomas. Este benchmark, criado por linguistas, suporta sete idiomas e pode ser acessado e contribuído por meio da plataforma de desenvolvimento de IA Hugging Face.
O Meta considera essas duas iniciativas como ações filantrópicas, mas a empresa também se beneficiará com a melhoria de seus modelos de reconhecimento de voz e tradução. O Meta continua expandindo o número de idiomas suportados por seu assistente de IA, Meta AI, e testando recursos como a tradução de voz em Reels do Instagram, permitindo que criadores façam dublagem e sincronização automática de suas vozes.
Apesar dos esforços notáveis do Meta no processamento de linguagem, a empresa recebeu críticas por seu tratamento de conteúdo não inglês. Relatórios indicam que o Facebook deixou de marcar quase 70% das informações falsas sobre COVID-19 em italiano e espanhol, enquanto a porcentagem de conteúdo não marcado em inglês foi de apenas 29%. Além disso, documentos vazados mostram que conteúdo em árabe era frequentemente erroneamente marcado como discurso de ódio. O Meta afirma estar tomando medidas para melhorar suas tecnologias de tradução e moderação de conteúdo para enfrentar esses desafios.