Recentemente, a OpenAI lançou seus mais novos modelos de IA o3 e o4-mini, que alcançaram níveis de ponta em diversos aspectos. No entanto, os novos modelos não apresentaram melhorias no problema de "alucinação", e, na verdade, o fenômeno de alucinação é mais grave do que em vários modelos anteriores da OpenAI.
A chamada "alucinação" refere-se à geração incorreta de informações falsas por modelos de IA, sendo um dos problemas mais complexos da IA atualmente. A cada nova geração de modelos, havia uma melhoria na redução de alucinações, mas o o3 e o o4-mini quebraram essa tendência. De acordo com testes internos da OpenAI, esses modelos de IA, chamados de modelos de raciocínio, superaram em frequência de alucinações as gerações anteriores de modelos de raciocínio da empresa e modelos tradicionais não-raciocínio, como o GPT-4o.
Nota da imagem: Imagem gerada por IA, provedor de serviços de licenciamento de imagens Midjourney
A OpenAI apontou em seu relatório técnico que o modelo o3 apresenta uma taxa de alucinação de 33% no teste de referência PersonQA, o dobro da taxa de alucinação dos modelos o1 e o3-mini anteriores, que foram de 16% e 14,8%, respectivamente. Já o o4-mini apresentou uma taxa de alucinação ainda maior no PersonQA, atingindo 48%, mostrando um problema ainda mais grave.
A Transluce, uma instituição de testes independente, também descobriu que o modelo o3 frequentemente inventa ações que alega ter tomado ao responder perguntas. Por exemplo, o o3 afirmou ter executado um código em um MacBook Pro de 2021 e copiado os resultados para a resposta, embora não seja capaz de fazer isso.
Os pesquisadores da Transluce afirmam que o método de aprendizado por reforço usado nos modelos da série o pode amplificar alguns problemas que poderiam ser atenuados por meio de processos de treinamento posteriores convencionais. Esse fenômeno compromete significativamente a utilidade do o3. Um professor adjunto da Universidade de Stanford, ao testar o fluxo de trabalho de programação do o3, descobriu que o o3 gera links de sites inválidos, afetando a experiência do usuário.
Embora o fenômeno da alucinação possa, em certa medida, promover o pensamento criativo do modelo, em setores que exigem alta precisão, como o setor jurídico, os erros frequentes de fato do modelo causarão grandes problemas.
Uma forma eficaz de melhorar a precisão do modelo é fornecer a ele a capacidade de pesquisa na web. O GPT-4o da OpenAI, por meio da pesquisa na web, atingiu uma precisão de 90% no teste de referência SimpleQA, portanto, a função de pesquisa pode melhorar o fenômeno de alucinação dos modelos de raciocínio.
No entanto, se o problema de alucinação dos modelos de raciocínio piorar com o aumento de escala, a urgência em encontrar soluções aumentará. A OpenAI afirma estar conduzindo pesquisas contínuas para melhorar a precisão e confiabilidade de todos os seus modelos.
No último ano, o setor de IA passou a se concentrar em modelos de raciocínio, pois as técnicas de melhoria dos modelos de IA tradicionais apresentaram retornos decrescentes. No entanto, a ascensão dos modelos de raciocínio parece ter trazido mais alucinações, apresentando novos desafios para o desenvolvimento futuro.
Destaques:
🌟 Os novos modelos de raciocínio o3 e o4-mini da OpenAI apresentam uma frequência de alucinação maior do que antes.
🤖 O o3 apresenta uma taxa de alucinação de 33% no teste de referência PersonQA, enquanto o o4-mini chega a 48%.
🔍 Uma possível solução para melhorar a precisão do modelo e reduzir as alucinações é a introdução da função de pesquisa na web.