Recentemente, o Google anunciou o lançamento de um novo modelo de IA de código aberto, o DataGemma, projetado para resolver o problema de "alucinações" frequentemente encontradas em modelos de linguagem grandes (LLMs) ao lidar com dados estatísticos.

Essa alucinação faz com que os modelos forneçam respostas imprecisas quando questionados sobre números e estatísticas. O lançamento do modelo DataGemma marca um avanço significativo do Google na área de IA.

Pesquisa de questionário, relatório de dados

Observação da fonte: Imagem gerada por IA, provedor de serviços de licenciamento de imagens Midjourney

Reduzindo alucinações em consultas estatísticas

O DataGemma é composto por dois métodos diferentes, projetados para melhorar a precisão das respostas às perguntas dos usuários. Esses modelos são baseados em uma grande quantidade de dados do mundo real da plataforma de compartilhamento de dados do Google, o Data Commons, que possui mais de 240 bilhões de pontos de dados, cobrindo informações de economia, ciência, saúde e outros campos. Isso fornece uma base sólida de fatos para os modelos.

Os dois novos modelos estão disponíveis no Hugging Face para uso acadêmico e de pesquisa. Ambos são construídos sobre os modelos abertos existentes da série Gemma e utilizam uma grande quantidade de dados reais da plataforma Data Commons criada pelo Google para fundamentar suas respostas. Essa plataforma pública fornece um grafo de conhecimento aberto contendo mais de 240 bilhões de pontos de dados de organizações confiáveis ​​em economia, ciência, saúde e outros campos.

Acesso ao modelo: https://huggingface.co/collections/google/datagemma-release-66df7636084d2b150a4e6643

Pesquisadores do Google afirmam que exploraram vários aspectos do fenômeno da alucinação do modelo, tentando descobrir as causas do problema. Os modelos tradicionais, às vezes, têm um desempenho ruim no processamento de problemas lógicos e aritméticos, e os dados estatísticos públicos costumam ter formatos diversos e informações de contexto complexas, tornando-os difíceis de entender.

Para resolver esses problemas, os pesquisadores do Google combinaram dois novos métodos. O primeiro é chamado de "Geração Cruzada de Recuperação" (RIG), que melhora a precisão comparando as respostas geradas pelo modelo com as informações estatísticas relevantes no Data Commons. Para isso, o LLM ajustado gera consultas em linguagem natural que descrevem o valor gerado pelo LLM original. Depois que a consulta está pronta, um pipeline de pós-processamento multimodelo a converte em uma consulta de dados estruturados e a executa para recuperar respostas estatísticas relevantes do Data Commons, retornando ou corrigindo a geração do LLM com as citações relevantes.

O segundo é chamado de "Geração Aprimorada por Recuperação" (RAG), que permite que o modelo extraia variáveis relevantes com base na pergunta estatística original e construa consultas em linguagem natural para obter dados relevantes do Data Commons. Nesse caso, o modelo Gemma ajustado usa a pergunta estatística original para extrair variáveis relevantes e gerar consultas em linguagem natural para o Data Commons. Em seguida, uma consulta é executada no banco de dados para obter informações/tabelas estatísticas relevantes. Depois de extraídos, os valores são usados junto com a consulta do usuário original para solicitar um LLM de contexto longo (neste caso, Gemini1.5Pro) para gerar a resposta final com alta precisão.

Aumento significativo na precisão

Em testes iniciais, o modelo DataGemma usando o método RIG conseguiu aumentar a precisão factual do modelo de base de 5-17% para cerca de 58%. Embora o método RAG tenha apresentado um desempenho ligeiramente inferior, ainda superou o modelo de base.

Os dados mostram que o DataGemma pode responder corretamente a 24-29% das perguntas estatísticas, com uma precisão numérica de até 99%, mas ainda apresenta uma taxa de erro de 6 a 20% na dedução de conclusões corretas.

O Google espera que o lançamento do DataGemma promova pesquisas adicionais e estabeleça uma base mais sólida para os modelos Gemma e Gemini futuros. A pesquisa do Google continuará e espera-se que, após testes rigorosos, esses recursos aprimorados sejam integrados a mais modelos.

Destaques:

🌟 O Google lança o modelo DataGemma para reduzir erros de IA em consultas estatísticas.

📊 O DataGemma utiliza a plataforma de compartilhamento de dados do Google para aumentar a precisão das respostas do modelo.

🔍 Testes iniciais mostram uma melhoria significativa na precisão de consultas estatísticas do DataGemma.