Grande Novidade! OpenAI lança os poderosos modelos de raciocínio o3 e o3-mini

AIbase基地

Publicado emNotícias e Informações de IA · 4 minutos de leitura · Dec 21, 2024

378

A OpenAI anunciou, em seu evento de lançamento de 12 dias, uma nova geração de modelos de raciocínio: o o3 e sua versão simplificada, o o3-mini. Esses modelos são considerados sucessores da série o1, projetados especificamente para pensar mais profundamente antes de responder às perguntas, aumentando assim a precisão.

O modelo o3 atingiu um nível excelente no benchmark ARC-AGI, sendo o primeiro modelo de IA a superar esse benchmark, demonstrando uma capacidade de resolução de problemas próxima à humana. O desempenho mínimo do modelo da série o3 no benchmark ARC-AGI é de 75,7%, podendo chegar a 87,5% com mais recursos computacionais.

O modelo o3-mini concentra-se em melhorar a velocidade de raciocínio e reduzir os custos, mantendo o desempenho do modelo. É particularmente adequado para tarefas de programação. A OpenAI planeja lançar o o3-mini por volta do final de janeiro, seguido pelo modelo o3 completo em breve. Embora os modelos da série o3 não sejam lançados publicamente diretamente, passando primeiro por testes de segurança, a OpenAI já começou a permitir que pesquisadores de segurança se inscrevam para acessar uma prévia do o3 e do o3-mini.

Modelo de raciocínio mais poderoso da OpenAI, o o3, lançado: capacidade AGI aumentada, aproximando-se do nível humano

Em termos de programação e resolução de problemas matemáticos, o modelo o3 demonstrou capacidades notáveis. No benchmark SWE-bench Verified, a precisão do o3 é de aproximadamente 71,7%, mais de 20% superior ao modelo o1. No Competition Code, o o3 obteve uma pontuação de 2727 Elo, enquanto o o1 obteve apenas 1891. Além disso, o o3 atingiu uma precisão de 96,7% em matemática competitiva e 87,7% no GPQA Diamond, quase 10% a mais que o o1.

A OpenAI também apresentou um novo método de avaliação de segurança: o "alinhamento deliberativo" (deliberative alignment). Este é um novo paradigma que ensina diretamente as normas de segurança ao modelo, permitindo que ele se lembre explicitamente dessas normas e execute o raciocínio com precisão antes de responder. Este método foi usado para alinhar os modelos da série o da OpenAI e resultou em uma alta precisão no cumprimento das políticas de segurança da OpenAI.

Atualmente, a OpenAI está promovendo testes de segurança externos e abriu o acesso antecipado em seu site. Os candidatos devem preencher um formulário online e fornecer informações relevantes. Os pesquisadores selecionados receberão acesso ao o3 e ao o3-mini para explorar suas capacidades e contribuir para a avaliação de segurança.

Quora Poe lança recurso de aplicativos de IA personalizados, permitindo que os usuários criem aplicativos personalizados com facilidade

O Quora lançou recentemente um novo recurso em sua plataforma de IA Poe que permite aos usuários construir aplicativos de IA personalizados. Chamado de "Poe Apps", este recurso permite que os usuários criem interfaces visuais na plataforma Poe através de uma simples descrição. Os usuários podem escolher diferentes modelos de IA para realizar suas ideias de aplicativos. Na nova ferramenta de criação de aplicativos, os usuários precisam apenas descrever o aplicativo que desejam criar, incluindo a especificação do modelo de IA a ser usado, como o da OpenAI.

Atualização para competir com DeepSeek e Claude! O recurso "Pesquisa Profunda" do OpenAI está disponível para todos os usuários pagos do ChatGPT

O OpenAI anunciou recentemente a expansão de seu recurso de Pesquisa Profunda para todos os usuários do ChatGPT Plus, Team, Education e Enterprise. Este recurso é considerado por muitos especialistas como o assistente de IA mais transformador desde o ChatGPT. De acordo com o anúncio oficial, esses usuários receberão 10 consultas de Pesquisa Profunda por mês, enquanto os usuários Pro terão direito a 120 consultas mensais. A Pesquisa Profunda utiliza Op

O modelo o3 da OpenAI conquista medalha de ouro na Olimpíada Internacional de Informática de 2024

Recentemente, a OpenAI publicou uma pesquisa sobre seu mais recente modelo de raciocínio, o o3, mostrando como modelos de linguagem grandes (LLMs) podem evoluir de programadores de competição iniciantes para competidores de nível mundial. O o3 alcançou uma classificação de 2724 na plataforma de programação CodeForces, ficando no percentil 99,8%, um desempenho excepcional, e conquistou uma medalha de ouro na Olimpíada Internacional de Informática (IOI) de 2024. Nota da imagem: Imagem gerada por IA, fornecedora de licenças de imagens Mi

OpenAI revela processo de raciocínio do o3-mini em resposta ao desafio da DeepSeek

A OpenAI anunciou recentemente a demonstração do processo de raciocínio detalhado de seu mais recente modelo de raciocínio, o o3-mini. Essa ação é vista como uma resposta à crescente pressão competitiva do DeepSeek-R1. Essa mudança representa uma mudança significativa na estratégia de transparência de modelos da OpenAI. Anteriormente, a OpenAI mantinha a 'Cadeia de Pensamento' (Chain of Thought, CoT) como uma vantagem competitiva central, optando por mantê-la oculta. No entanto, com modelos abertos como o DeepSeek-R1 exibindo completamente seus rastros de raciocínio, isso...