A OpenAI anunciou, em seu evento de lançamento de 12 dias, uma nova geração de modelos de raciocínio: o o3 e sua versão simplificada, o o3-mini. Esses modelos são considerados sucessores da série o1, projetados especificamente para pensar mais profundamente antes de responder às perguntas, aumentando assim a precisão.
O modelo o3 atingiu um nível excelente no benchmark ARC-AGI, sendo o primeiro modelo de IA a superar esse benchmark, demonstrando uma capacidade de resolução de problemas próxima à humana. O desempenho mínimo do modelo da série o3 no benchmark ARC-AGI é de 75,7%, podendo chegar a 87,5% com mais recursos computacionais.
O modelo o3-mini concentra-se em melhorar a velocidade de raciocínio e reduzir os custos, mantendo o desempenho do modelo. É particularmente adequado para tarefas de programação. A OpenAI planeja lançar o o3-mini por volta do final de janeiro, seguido pelo modelo o3 completo em breve. Embora os modelos da série o3 não sejam lançados publicamente diretamente, passando primeiro por testes de segurança, a OpenAI já começou a permitir que pesquisadores de segurança se inscrevam para acessar uma prévia do o3 e do o3-mini.
Em termos de programação e resolução de problemas matemáticos, o modelo o3 demonstrou capacidades notáveis. No benchmark SWE-bench Verified, a precisão do o3 é de aproximadamente 71,7%, mais de 20% superior ao modelo o1. No Competition Code, o o3 obteve uma pontuação de 2727 Elo, enquanto o o1 obteve apenas 1891. Além disso, o o3 atingiu uma precisão de 96,7% em matemática competitiva e 87,7% no GPQA Diamond, quase 10% a mais que o o1.
A OpenAI também apresentou um novo método de avaliação de segurança: o "alinhamento deliberativo" (deliberative alignment). Este é um novo paradigma que ensina diretamente as normas de segurança ao modelo, permitindo que ele se lembre explicitamente dessas normas e execute o raciocínio com precisão antes de responder. Este método foi usado para alinhar os modelos da série o da OpenAI e resultou em uma alta precisão no cumprimento das políticas de segurança da OpenAI.
Atualmente, a OpenAI está promovendo testes de segurança externos e abriu o acesso antecipado em seu site. Os candidatos devem preencher um formulário online e fornecer informações relevantes. Os pesquisadores selecionados receberão acesso ao o3 e ao o3-mini para explorar suas capacidades e contribuir para a avaliação de segurança.