Custo de Benchmark de Modelos de IA de Raciocínio Explode: Quase US$ 3.000 para Avaliar Um

AIbase基地

Publicado emNotícias e Informações de IA · 3 minutos de leitura · Apr 11, 2025

De acordo com dados da Artificial Analysis, uma agência de testes de IA independente, a avaliação do modelo de raciocínio o1 da OpenAI em sete benchmarks populares custou US$ 2.767,05, enquanto seu modelo não-raciocínio GPT-4o custou apenas US$ 108,85. Essa diferença significativa gerou debates sobre a sustentabilidade e a transparência da avaliação de IA.

Modelos de raciocínio, ou seja, sistemas de IA capazes de "pensar" passo a passo na solução de problemas, embora se destaquem em áreas específicas, têm custos de benchmark muito mais altos do que os modelos tradicionais. A Artificial Analysis avaliou cerca de uma dúzia de modelos de raciocínio, com um custo total de cerca de US$ 5.200, quase o dobro do custo de análise de mais de 80 modelos não-raciocínio (US$ 2.400).

Robô Inteligência Artificial IA

Nota da fonte: Imagem gerada por IA, fornecida pela Midjourney.

A diferença de custo é principalmente devido à grande quantidade de tokens gerados pelos modelos de raciocínio. Por exemplo, o o1 gerou mais de 44 milhões de tokens nos testes, cerca de oito vezes mais que o GPT-4o. À medida que os benchmarks se tornam mais complexos, avaliando a capacidade de realizar tarefas do mundo real, juntamente com o aumento do custo por token dos modelos top de linha (como o o1-pro da OpenAI, que cobra US$ 600 por milhão de tokens de saída), a verificação independente do desempenho desses modelos torna-se extremamente cara.

Embora alguns laboratórios de IA forneçam acesso gratuito ou subsidiado a agências de benchmark, especialistas temem que isso possa prejudicar a objetividade da avaliação. Ross Taylor, CEO da General Reasoning, questiona: "Do ponto de vista científico, se você publica um resultado que ninguém pode replicar usando o mesmo modelo, ainda pode ser considerado ciência?"

Modelos de Raciocínio GPT-4 Custo de Avaliação de IA Midjourney

Este artigo é do AIbase Daily

Bem-vindo à coluna [AI Daily]! Este é o seu guia para explorar o mundo da inteligência artificial todos os dias. Todos os dias apresentamos os destaques da área de IA, com foco nos desenvolvedores, para o ajudar a obter insights sobre as tendências tecnológicas e a compreender as aplicações inovadoras de produtos de IA.

—— Criado pelo Grupo AIbase Daily

Notícias de IA Relacionadas Recomendadas

Boletim Diário de IA: OpenAI lança três novos modelos de voz; Busca do Kuaishou integra totalmente o DeepSeek R1; Claude lança recurso de busca na web

Bem-vindo ao Boletim Diário de IA! Aqui você encontra seu guia diário para explorar o mundo da inteligência artificial. Todos os dias, apresentamos os principais destaques do campo da IA, focando em desenvolvedores e ajudando você a entender as tendências tecnológicas e os aplicativos inovadores de produtos de IA. Descubra novos produtos de IA: https://top.aibase.com/1、OpenAI lança novo modelo de transcrição de voz gpt-4o-transcribe, com precisão aprimorada na conversão de voz em texto. A OpenAI lançou recentemente três novos modelos de voz, sendo:

Mar 21, 2025

OpenAI lança novo modelo de transcrição de voz, gpt-4o-transcribe, com precisão aprimorada

Após gerar algum interesse na área de IA de voz, a OpenAI, criadora do ChatGPT, continua seus esforços neste campo e lançou três novos modelos de voz desenvolvidos internamente: gpt-4o-transcribe, gpt-4o-mini-transcribe e gpt-4o-mini-tts. O mais notável é o gpt-4o-transcribe. Atualmente, esses novos modelos estão...

Mar 21, 2025

130

Grande Novidade! OpenAI lança os poderosos modelos de raciocínio o3 e o3-mini

Durante sua maratona de lançamentos de 12 dias, a OpenAI anunciou sua nova geração de modelos de raciocínio: o o3 e sua versão reduzida, o o3-mini. Considerados sucessores da série o1, esses modelos foram projetados especificamente para pensar mais profundamente antes de responder a perguntas, melhorando assim a precisão. O modelo o3 atingiu um nível excepcional no benchmark ARC-AGI, tornando-se o primeiro modelo de IA a superar esse benchmark e demonstrando uma capacidade de resolução de problemas próxima à humana. O desempenho mínimo da série o3 no benchmark ARC-AGI atinge 75,7%.

Dec 21, 2024

3.8k

Alibaba lança QwQ-32B-Preview: Desafiando modelos de raciocínio da OpenAI, com capacidade de verificação de fatos

Recentemente, o novo modelo de IA de raciocínio QwQ-32B-Preview da Alibaba tem chamado a atenção da indústria. Desenvolvido pela equipe Qwen da Alibaba, este modelo possui 32,5 bilhões de parâmetros, consegue lidar com prompts de até 32.000 palavras e superou a série o1 da OpenAI em vários benchmarks. O QwQ-32B-Preview é inovador por ser um dos poucos modelos capazes de competir com os modelos de raciocínio da OpenAI, e o primeiro a ser capaz de

Nov 28, 2024

6.8k

OpenAI Lança o GPT-4O-Audio-Preview: Áudio que 'Entende' Emoções!

A OpenAI lidera novamente a inovação em inteligência artificial com o lançamento do novo modelo gpt-4o-audio-preview. Este modelo demonstra capacidades surpreendentes na geração e análise de áudio, abrindo novas possibilidades para a interação humano-computador. Vamos explorar os recursos deste modelo inovador e suas potenciais aplicações. As principais funcionalidades do gpt-4o-audio-preview incluem três aspectos: primeiro, ele pode gerar respostas de voz naturais e fluidas com base em texto, fornecendo suporte para aplicativos como assistentes de voz e atendimento virtual.

Oct 18, 2024

7.5k

Novo modelo OpenAI gpt-4o-2024-08-06 e gpt-4o-mini com suporte a saída estruturada

A OpenAI adicionou a funcionalidade de saída estruturada à sua API, garantindo que a saída gerada esteja totalmente em conformidade com o esquema JSON predefinido, melhorando significativamente a confiabilidade da API e a precisão dos aplicativos. Este recurso não apenas define a estrutura do JSON, mas também garante a precisão da saída. Simultaneamente, houve uma redução de preços, com o custo de entrada reduzido pela metade e o custo de saída reduzido em 1/3. A introdução da saída estruturada resolveu as limitações do esquema JSON em garantir que a saída esteja em conformidade com uma estrutura específica, melhorando significativamente o desempenho do modelo em relação à saída estruturada. Através de inovações tecnológicas, como restrições...

Aug 7, 2024

8.0k

OpenAI lança novo modelo gpt-4o-64k-output-alpha: GPT-4o API agora suporta até 64K de saída

O principal destaque do novo modelo gpt-4o-64k-output-alpha da OpenAI é a capacidade de gerar uma saída de até 64K tokens de uma só vez, ideal para produzir conteúdo rico e detalhado, atendendo às necessidades de redação, programação e análise de dados complexos. No entanto, este recurso aumenta o preço da API, custando US$ 18 por milhão de tokens de saída, em comparação com US$ 6 por milhão de tokens de entrada. Essa medida visa equilibrar os altos custos computacionais e incentivar o uso responsável desta poderosa ferramenta. O modelo é uma ferramenta valiosa para os campos da criação e da pesquisa.

Jul 31, 2024

3.5k

Tutorial de Prompts: Como Criar Fotos Realistas de iPhone com o Midjourney

A capacidade de geração de imagens do Midjourney impressiona a todos. Como líder na área de arte com IA, o Midjourney às vezes gera imagens que não são realistas o suficiente. Mesmo que a imagem gerada seja bonita, ainda pode ter um ar de 'falso'. Exemplo de teste do AIBase: iPhonephotoofwithmanyraisinsontop.Ataafancyrestaurantinnyc.--ar3:4--stylera

Jul 18, 2024

1.3k

Influenciadora do Little Red Book publica ilustrações de IA de cura, atraindo muitos fãs

Jul 17, 2024

210

Notícias de IA

IA Diário

Linha do Tempo da IA

Casos Recentes

Coleção de Imagens

Coleção de Vídeos

Coleção de Áudios

Coleção de Conteúdo

Tutoriais Recentes

Ranking de Produtos de IA

Ranking de Crescimento de Tráfego de IA

Ranking de Queda de Tráfego de IA

Ranking Semanal de IA

Estados Unidos

China

Índia

Brasil

Geração de Imagens

Assistente Pessoal

Geração de Personagens

Geração de Vídeos

Ranking de Projetos de IA

Ranking de Crescimento de Projetos de IA

Ranking de Desenvolvedores de IA

Ranking de Organizações de IA

Deepseek

TTS

LLM

ChatGPT

Visão Geral