Recentemente, a equipe de aprendizado de máquina da Vectara realizou testes aprofundados de alucinação em dois modelos da série DeepSeek. Os resultados mostraram que a taxa de alucinação do DeepSeek-R1 atingiu 14,3%, significativamente maior do que os 3,9% de seu antecessor, o DeepSeek-V3. Isso indica que, durante o aprimoramento do raciocínio, o DeepSeek-R1 gerou mais conteúdo impreciso ou inconsistente com as informações originais. Esse resultado gerou uma ampla discussão sobre a taxa de alucinação em modelos de linguagem grandes (LLMs) com raciocínio aprimorado.

DeepSeek

Nota da imagem: Imagem gerada por IA, fornecida pela Midjourney.

A equipe de pesquisa apontou que os modelos com raciocínio aprimorado podem ser mais propensos a alucinações do que os LLMs comuns. Esse fenômeno foi particularmente evidente na comparação da série DeepSeek com outros modelos com raciocínio aprimorado. Tomando a série GPT como exemplo, a diferença na taxa de alucinação entre o GPT-o1 com raciocínio aprimorado e o GPT-4o padrão também corrobora essa hipótese.

image.png

Para avaliar o desempenho dos dois modelos, os pesquisadores utilizaram o modelo HHEM da Vectara e o método FACTS do Google. O HHEM, como ferramenta específica de detecção de alucinação, mostrou alta sensibilidade na detecção do aumento da taxa de alucinação do DeepSeek-R1, enquanto o modelo FACTS teve um desempenho relativamente inferior. Isso sugere que o HHEM pode ser mais eficaz como padrão do que os LLMs.

image.png

image.png

É importante notar que, embora o DeepSeek-R1 tenha demonstrado excelente desempenho na capacidade de raciocínio, ele também apresentou uma taxa de alucinação mais alta. Isso pode estar relacionado à complexa lógica que os modelos com raciocínio aprimorado precisam processar. À medida que a complexidade do raciocínio do modelo aumenta, a precisão do conteúdo gerado pode ser afetada. A equipe de pesquisa também enfatizou que, se o DeepSeek pudesse se concentrar mais na redução de problemas de alucinação durante a fase de treinamento, talvez fosse possível alcançar um bom equilíbrio entre capacidade de raciocínio e precisão.

image.png

Embora os modelos com raciocínio aprimorado geralmente apresentem taxas de alucinação mais altas, isso não significa que eles não apresentem vantagens em outros aspectos. No caso da série DeepSeek, ainda é necessário resolver o problema de alucinação em pesquisas e otimizações futuras para melhorar o desempenho geral do modelo.

Referências: https://www.vectara.com/blog/deepseek-r1-hallucinates-more-than-deepseek-v3