Recentemente, a equipe de aprendizado de máquina da Vectara realizou testes aprofundados de alucinação em dois modelos da série DeepSeek. Os resultados mostraram que a taxa de alucinação do DeepSeek-R1 atingiu 14,3%, significativamente maior do que os 3,9% de seu antecessor, o DeepSeek-V3. Isso indica que, durante o aprimoramento do raciocínio, o DeepSeek-R1 gerou mais conteúdo impreciso ou inconsistente com as informações originais. Esse resultado gerou uma ampla discussão sobre a taxa de alucinação em modelos de linguagem grandes (LLMs) com raciocínio aprimorado.
Nota da imagem: Imagem gerada por IA, fornecida pela Midjourney.
A equipe de pesquisa apontou que os modelos com raciocínio aprimorado podem ser mais propensos a alucinações do que os LLMs comuns. Esse fenômeno foi particularmente evidente na comparação da série DeepSeek com outros modelos com raciocínio aprimorado. Tomando a série GPT como exemplo, a diferença na taxa de alucinação entre o GPT-o1 com raciocínio aprimorado e o GPT-4o padrão também corrobora essa hipótese.
Para avaliar o desempenho dos dois modelos, os pesquisadores utilizaram o modelo HHEM da Vectara e o método FACTS do Google. O HHEM, como ferramenta específica de detecção de alucinação, mostrou alta sensibilidade na detecção do aumento da taxa de alucinação do DeepSeek-R1, enquanto o modelo FACTS teve um desempenho relativamente inferior. Isso sugere que o HHEM pode ser mais eficaz como padrão do que os LLMs.
É importante notar que, embora o DeepSeek-R1 tenha demonstrado excelente desempenho na capacidade de raciocínio, ele também apresentou uma taxa de alucinação mais alta. Isso pode estar relacionado à complexa lógica que os modelos com raciocínio aprimorado precisam processar. À medida que a complexidade do raciocínio do modelo aumenta, a precisão do conteúdo gerado pode ser afetada. A equipe de pesquisa também enfatizou que, se o DeepSeek pudesse se concentrar mais na redução de problemas de alucinação durante a fase de treinamento, talvez fosse possível alcançar um bom equilíbrio entre capacidade de raciocínio e precisão.
Embora os modelos com raciocínio aprimorado geralmente apresentem taxas de alucinação mais altas, isso não significa que eles não apresentem vantagens em outros aspectos. No caso da série DeepSeek, ainda é necessário resolver o problema de alucinação em pesquisas e otimizações futuras para melhorar o desempenho geral do modelo.
Referências: https://www.vectara.com/blog/deepseek-r1-hallucinates-more-than-deepseek-v3