Novo modelo o1 da OpenAI afirma corrigir 'perfeitamente' vieses, mas os dados não corroboram totalmente

Recentemente, Anna Makanju, vice-presidente de assuntos globais da OpenAI, fez comentários sobre o viés na inteligência artificial durante a Cúpula do Futuro das Nações Unidas.

Ela mencionou que modelos de "raciocínio", como o o1 da OpenAI, podem reduzir significativamente o viés nos sistemas de IA. Mas como o o1 faz isso? Makanju explicou que esses modelos podem identificar o viés em suas próprias respostas e seguir melhor as regras para evitar respostas "prejudiciais".

OpenAI, inteligência artificial, IA

Ela disse que o modelo o1 gasta mais tempo avaliando suas respostas ao lidar com perguntas, realizando uma auto-verificação: "Ele consegue dizer: 'Esta é a minha maneira de resolver este problema', e então rever sua resposta e ver 'oh, pode haver uma falha no raciocínio aqui'". Ela até enfatizou que o o1 é "quase perfeito" em analisar seus próprios vieses e que seu desempenho melhorará com o avanço da tecnologia.

No entanto, essa afirmação de "quase perfeito" parece um pouco exagerada. Testes internos da OpenAI descobriram que, em comparação com modelos "não racionais", incluindo seu próprio GPT-4o, o o1 não se saiu tão bem em alguns testes de viés. Em questões relacionadas a raça, gênero e idade, o o1, em algumas situações, se saiu pior do que o GPT-4o. Embora o o1 tenha se saído melhor em termos de discriminação implícita, ele apresentou discriminação explícita mais pronunciada em questões de idade e raça.

O que é ainda mais interessante é que o o1-mini, uma versão mais econômica do o1, apresentou um desempenho pior. Os testes mostraram que o o1-mini tinha maior probabilidade de discriminação explícita com base em gênero, raça e idade do que o GPT-4o, e também apresentou discriminação implícita mais significativa em questões de idade.

Além disso, os modelos de raciocínio atuais ainda têm muitas limitações. A OpenAI também admite que os benefícios do o1 em algumas tarefas são mínimos. Sua velocidade de resposta é mais lenta, com algumas perguntas levando mais de 10 segundos para serem respondidas. Além disso, o custo do o1 não é insignificante, sendo de 3 a 4 vezes maior que o do GPT-4o.

Se os modelos de raciocínio que Makanju mencionou são realmente o melhor caminho para uma IA justa, eles precisam de melhorias em outras áreas além do viés para se tornarem uma alternativa viável. Caso contrário, apenas clientes com recursos financeiros substanciais e dispostos a lidar com atrasos e problemas de desempenho poderão se beneficiar realmente.

Pontos importantes:
🌟 O modelo o1 da OpenAI é considerado capaz de reduzir significativamente o viés da IA, mas os resultados dos testes mostraram que seu desempenho não foi tão bom quanto o esperado.
💡 O o1 apresentou desempenho superior ao GPT-4o em termos de discriminação implícita, mas pior em termos de discriminação explícita.
💰 O modelo de raciocínio o1 é caro, lento e precisa de melhorias em vários aspectos no futuro.

Notícias e Informações de IA

Novo modelo o1 da OpenAI afirma corrigir 'perfeitamente' vieses, mas os dados não corroboram totalmente

AIbase基地

Notícias de IA Relacionadas Recomendadas

Sem treinamento! Q-Filters permite compressão eficiente de cache KV e melhora o desempenho de inferência

iFlytek anuncia atualização completa do modelo de raciocínio profundo StarFire X1

A ferramenta de programação AI Cursor agora integra o modelo de raciocínio Claude 3.7 Sonnet

Anthropic lança o modelo de raciocínio híbrido Claude 3.7 Sonnet: capacidades superiores ao DeepSeek