Página de Pesquisa de Notícias e Produtos de IA

Tipo :

Informação de Notícias
Aplicações de Produtos
Casos de Monetização
Tutoriais de IA

2025-02-24 11:26:35.AIbase

Funcionário da OpenAI questiona publicamente a xAI: Resultados de benchmark do Grok 3 são enganosos

Recentemente, a controvérsia sobre benchmarks de inteligência artificial tem crescido no espaço público. Um funcionário da OpenAI acusou a xAI, empresa de IA fundada por Elon Musk, de publicar resultados enganosos de benchmark do Grok3, enquanto o cofundador da xAI, Igor Babuschkin, insiste que não há problemas. O incidente começou quando a xAI publicou um gráfico em seu blog mostrando o desempenho do Grok3 no teste AIME2025. O AIME2025 é uma série de desafios de uma competição recente de matemática...

2025-02-18 16:55:26.AIbase

OpenAI lança o benchmark SWE-Lancer: avaliando o desempenho do modelo em trabalhos de engenharia de software freelance do mundo real

No campo da engenharia de software, os métodos tradicionais de benchmark estão ficando aquém dos desafios em evolução. Os trabalhos de engenharia de software freelance são complexos e variados, indo muito além de tarefas de codificação isoladas. Os engenheiros freelance precisam lidar com bases de código inteiras, integrar vários sistemas e atender às complexas necessidades dos clientes. Os métodos de avaliação tradicionais geralmente se concentram em testes unitários e não conseguem refletir totalmente o desempenho de pilha completa e o impacto econômico real das soluções. Portanto, desenvolver métodos de avaliação mais realistas é crucial. Para isso, a OpenAI lançou o SWE-Lan

2025-01-20 10:04:01.AIbase

Organização sem fins lucrativos de benchmark de IA criticada por não divulgar financiamento da OpenAI

Recentemente, a Epoch AI, uma organização sem fins lucrativos que desenvolve benchmarks matemáticos para IA, gerou controvérsia por não divulgar oportunamente o financiamento recebido da OpenAI. Em 20 de dezembro, a organização anunciou que a OpenAI financiou o projeto FrontierMath, um benchmark projetado para testar a capacidade matemática da IA. A OpenAI também usou este benchmark para demonstrar seu próximo produto de IA principal, o o3. Um contratado da Epoch AI em um fórum LessWrong

2024-12-25 09:22:05.AIbase

Impressionante! O novo modelo o3 da OpenAI bate recorde em teste de benchmark ARC-AGI

O mais recente modelo da OpenAI, o o3, alcançou resultados surpreendentes no teste de benchmark ARC-AGI, atingindo 75,7% com cálculos padrão e impressionantes 87,5% na versão com alta capacidade de computação. Essa conquista surpreendeu a comunidade de pesquisa em IA, mas não prova que a inteligência artificial geral (AGI) tenha sido decifrada. O teste de benchmark ARC-AGI é baseado no Abstract Reasoning Corpus (ARC), projetado para avaliar a capacidade dos sistemas de IA de se adaptarem a novas tarefas.

2024-12-15 10:23:35.AIbase

Alibaba lança novo benchmark de IA, "PROCESSBENCH", para avaliar a capacidade de identificar erros em raciocínio matemático

Recentemente, pesquisadores da equipe Qwen da Alibaba lançaram um novo benchmark chamado "PROCESSBENCH", projetado para medir a capacidade dos modelos de linguagem em identificar erros de processo em raciocínio matemático. Com o progresso significativo dos modelos de linguagem em tarefas de raciocínio complexo, pesquisadores nessa área descobriram que, apesar do excelente desempenho dos modelos, eles ainda enfrentam desafios ao lidar com alguns problemas difíceis. Portanto, o desenvolvimento de um método de supervisão eficaz é crucial. Atualmente, os benchmarks de avaliação para modelos de linguagem apresentam algumas deficiências. Por um lado,

2024-12-05 14:45:53.AIbase

ByteDance lança novo benchmark de avaliação de modelos de código de código aberto: "FullStack Bench"

Em 5 de dezembro, a equipe de modelos de linguagem grandes do ByteDance Doubao lançou o mais recente benchmark de avaliação de modelos de código grandes - FullStack Bench, abrangendo mais de 11 categorias de cenários reais, suportando 16 linguagens de programação e contendo 3374 problemas. Em comparação com os padrões de avaliação anteriores, este benchmark pode avaliar com mais precisão a capacidade de desenvolvimento de código de modelos grandes em uma gama mais ampla de campos de programação, promovendo a otimização de modelos em tarefas de programação do mundo real. Os benchmarks de código principais atuais, como HumanEval e MBPP, geralmente se concentram em fundamentos e níveis avançados

2024-11-29 09:47:51.AIbase

Chorei! Epoch AI lança FrontierMath, novo benchmark de matemática, onde modelos de IA de ponta resolvem menos de 2% dos problemas

No vasto universo da inteligência artificial, a matemática foi considerada o último bastião da inteligência de máquina. Agora, um novo benchmark chamado FrontierMath surge, levando a capacidade de raciocínio matemático da IA a limites sem precedentes. A Epoch AI, em colaboração com mais de 60 mentes brilhantes do mundo da matemática, criou este desafio de IA que pode ser considerado uma 'Olimpíada de Matemática'. Isso não é apenas um teste de tecnologia, mas também o teste final da sabedoria matemática da inteligência artificial. Imagine um laboratório repleto de matemáticos de classe mundial, cuidadosamente projetando...

2024-11-25 15:09:04.AIbase

Meta lança novo benchmark Multi-IF, desafiando a capacidade de seguir instruções multilíngues e de várias rodadas

O Meta lançou recentemente um novo benchmark chamado Multi-IF, projetado para avaliar a capacidade de modelos de linguagem grandes (LLMs) de seguir instruções em diálogos de várias rodadas e em ambientes multilíngues. Este benchmark abrange oito idiomas e inclui 4501 tarefas de diálogo de três rodadas, focando no desempenho dos modelos atuais em cenários complexos de várias rodadas e multilíngues. Na maioria dos padrões de avaliação existentes, a ênfase está em diálogos de uma rodada e tarefas monolíngues, dificultando a avaliação abrangente do desempenho dos modelos em aplicações reais. O lançamento do Multi-IF visa justamente isso.

2024-11-18 14:29:39.AIbase

Modelos de difusão também podem jogar? DIAMOND atinge novo SOTA no benchmark Atari 100k

O aprendizado por reforço alcançou muitos sucessos nos últimos anos, mas sua baixa eficiência de amostra limita sua aplicação no mundo real. Modelos Mundiais, como modelos geradores de ambiente, oferecem esperança para resolver esse problema. Eles podem servir como ambientes simulados para treinar agentes de aprendizado por reforço com maior eficiência de amostra. Atualmente, a maioria dos Modelos Mundiais simula a dinâmica do ambiente por meio de sequências de variáveis latentes discretas. No entanto, esse método de compactação em representações discretas compactas pode ignorar detalhes visuais cruciais para o aprendizado por reforço. Ao mesmo tempo, os modelos de difusão tornaram-se dominantes no campo da geração de imagens...

2024-11-01 10:48:10.AIbase

Novo queridinho dos modelos de geração de imagens de IA! Recraft v3 supera benchmarks, derrotando Flux e Ideogram e ficando em primeiro lugar

Recentemente, a startup de IA de imagens Recraft lançou seu mais novo modelo de imagem gerada por texto, o Recraft v3. Este modelo se destacou em testes independentes, redefinindo o padrão de desempenho na geração de imagens. De acordo com a Recraft, o modelo v3 apresenta excelente desempenho na geração de texto em imagens, na manutenção da precisão anatômica, na compreensão de prompts e na produção de conteúdo visual de alta qualidade. Seu maior avanço está na capacidade de representar com precisão trechos longos de texto em uma única geração, enquanto muitos outros modelos costumam ter dificuldades ao lidar com mais do que algumas palavras.

2024-10-31 14:28:43.AIbase

OpenAI lança novo benchmark de IA, SimpleQA: avaliando a precisão factual de modelos de linguagem

Recentemente, a OpenAI lançou um novo benchmark chamado SimpleQA, projetado para avaliar a precisão factual das respostas geradas por modelos de linguagem. Com o rápido desenvolvimento de grandes modelos de linguagem, garantir a precisão do conteúdo gerado apresenta muitos desafios, especialmente os chamados fenômenos de "alucinação", onde o modelo gera informações que soam confiantes, mas são, na verdade, incorretas ou não verificáveis. Isso é particularmente importante num contexto onde cada vez mais pessoas dependem da IA para obter informações. O SimpleQA foi projetado com o diferencial de...

2024-10-14 14:51:30.AIbase

Equipe de pesquisa da Apple lança novo benchmark GSM-Symbolic: revelando as deficiências no raciocínio matemático de grandes modelos de linguagem!

Recentemente, pesquisadores da Apple conduziram um estudo aprofundado sobre a capacidade de raciocínio matemático de grandes modelos de linguagem (LLMs), lançando um novo benchmark chamado GSM-Symbolic. Este novo benchmark foi desenvolvido com base no GSM8K, que é usado principalmente para avaliar habilidades matemáticas básicas. Embora muitos LLMs tenham mostrado melhorias no GSM8K, a comunidade científica ainda tem dúvidas sobre a capacidade de raciocínio desses modelos, acreditando que os indicadores de avaliação existentes podem não refletir totalmente suas capacidades reais. A pesquisa revela...

2024-10-11 09:35:13.AIbase

DeepMind lança novo benchmark Michelangelo: Revelando falhas de raciocínio em LLMs de contexto longo

Recentemente, modelos de linguagem grandes (LLMs) com janelas de contexto extra longas tornaram-se um tópico de discussão popular. Esses modelos conseguem processar centenas de milhares, ou mesmo milhões, de tokens em um único prompt, abrindo novas possibilidades para os desenvolvedores. No entanto, até que ponto esses LLMs de contexto longo realmente compreendem e utilizam as grandes quantidades de informações que recebem? Para abordar essa questão, pesquisadores do Google DeepMind lançaram um novo benchmark chamado Michelangelo, projetado para avaliar a capacidade de raciocínio em contextos longos. Os resultados da pesquisa indicam que...

2024-09-03 11:32:53.AIbase

Google AI lança CardBench, um benchmark abrangente: com mais de 20 bancos de dados reais e milhares de consultas

Em bancos de dados relacionais modernos, a técnica de estimação de cardinalidade (EC) é crucial para otimizar o plano de execução de consultas, afetando diretamente a eficiência das consultas e o desempenho do banco de dados. Os métodos tradicionais de estimação de cardinalidade baseiam-se em suposições simplificadas e frequentemente apresentam desempenho insatisfatório na previsão de consultas complexas, enquanto os modelos de EC de aprendizado de máquina podem fornecer previsões mais precisas, mas enfrentam desafios como tempo de treinamento longo, necessidade de grandes quantidades de dados e falta de avaliação sistemática. Para enfrentar esse desafio, a equipe de pesquisa do Google lançou o framework de benchmark CardBench, que integra mais de 20 bancos de dados do mundo real e milhares de consultas.

2024-08-16 14:03:40.AIbase

Geekbench lança novo benchmark de IA para avaliar o desempenho de dispositivos em tarefas de IA

O Geekbench AI é uma nova ferramenta multiplataforma projetada para avaliar cargas de trabalho intensivas em IA. Ele mede a CPU, GPU e NPU do dispositivo e suporta vários frameworks de aprendizado de máquina para determinar a capacidade do dispositivo de lidar com aplicativos de IA. O Geekbench AI fornece pontuações de precisão total, meia precisão e quantização, juntamente com uma avaliação de precisão para ajudar os usuários a entender o quão bem o modelo executa tarefas. Os usuários podem executar o teste em Windows, macOS, Linux e Android.

2024-08-16 09:49:46.AIbase

Novo benchmark de IA Geekbench testa o desempenho da CPU, GPU e NPU

O Geekbench AI é uma nova ferramenta multiplataforma para avaliar o desempenho de dispositivos em cargas de trabalho intensivas, com foco em tarefas de aprendizado de máquina. Ele fornece pontuações de precisão total, meia precisão e quantizada, medindo o desempenho da CPU, GPU e NPU, e incorpora uma avaliação de precisão. Suporta vários frameworks de aprendizado de máquina, incluindo ONNX, CoreML, TensorFlow Lite e OpenVINO. Esta ferramenta é compatível com Windows, macOS, Linux, Android e iOS.

2024-08-07 16:35:17.AIbase

Universidade de Pequim/Instituto de Pesquisa de Comunicação lança LooGLE, teste de benchmark superdifícil para compreensão de textos longos; modelos de linguagem amplos falham!

A compreensão de contextos longos é um desafio crucial no campo do processamento de linguagem natural, especialmente quando modelos de linguagem amplos (LLMs) processam textos que excedem o tamanho de sua janela de contexto. Para solucionar esse problema, pesquisadores desenvolveram o teste de benchmark LooGLE, projetado para avaliar a capacidade de compreensão de contexto longo dos LLMs ao lidar com documentos extremamente longos (média de 19,3 mil palavras, totalizando 776 documentos, abrangendo diversas áreas). O LooGLE contém sete tarefas, que incluem dependências curtas e longas, avaliando a compreensão do modelo para textos de diferentes comprimentos. Os dados de teste são provenientes de publicações de 2022 em diante.

2024-07-02 10:38:02.AIbase

Anthropic lança novo programa para financiar o desenvolvimento de benchmarks de IA de próxima geração

A Anthropic lançou um programa para financiar o desenvolvimento de novos tipos de benchmarks para avaliar o desempenho e o impacto dos modelos de IA, incluindo modelos generativos como seu próprio Claude.

2024-07-02 09:07:20.AIbase

Anthropic lança iniciativa para financiar o desenvolvimento de benchmarks de avaliação de IA

A empresa Anthropic anunciou na segunda-feira uma nova iniciativa para financiar o desenvolvimento de novos benchmarks capazes de avaliar o desempenho e o impacto de modelos de inteligência artificial, incluindo modelos generativos como o seu próprio Claude.

2024-03-06 07:52:55.AIbase

Apple lança o MacBook Air mais fino e potente! Resultados de benchmark do MacBook Air M3 de 15 polegadas revelados

'MacBook Air M3 de 15 polegadas aparece no site de benchmark Geekbench 6' 'Pontuação de núcleo único M3 de 3157, pontuação de núcleo múltiplo de 12020, melhoria significativa em relação ao M2' 'M3 com CPU de 8 núcleos, GPU de 10 núcleos, frequência principal da CPU de 4,05 GHz' 'Opções de memória de 8 GB, 16 GB e 24 GB, armazenamento de até 2 TB' 'Sistema macOS Sonoma pré-instalado, disponível em várias cores'

Pesquise as tendências globais de produtos de IA

Pesquise informações globais de IA e descubra novas oportunidades de IA

Funcionário da OpenAI questiona publicamente a xAI: Resultados de benchmark do Grok 3 são enganosos

OpenAI lança o benchmark SWE-Lancer: avaliando o desempenho do modelo em trabalhos de engenharia de software freelance do mundo real

Organização sem fins lucrativos de benchmark de IA criticada por não divulgar financiamento da OpenAI

Impressionante! O novo modelo o3 da OpenAI bate recorde em teste de benchmark ARC-AGI

Alibaba lança novo benchmark de IA, "PROCESSBENCH", para avaliar a capacidade de identificar erros em raciocínio matemático

ByteDance lança novo benchmark de avaliação de modelos de código de código aberto: "FullStack Bench"

Chorei! Epoch AI lança FrontierMath, novo benchmark de matemática, onde modelos de IA de ponta resolvem menos de 2% dos problemas

Meta lança novo benchmark Multi-IF, desafiando a capacidade de seguir instruções multilíngues e de várias rodadas

Modelos de difusão também podem jogar? DIAMOND atinge novo SOTA no benchmark Atari 100k

Novo queridinho dos modelos de geração de imagens de IA! Recraft v3 supera benchmarks, derrotando Flux e Ideogram e ficando em primeiro lugar

OpenAI lança novo benchmark de IA, SimpleQA: avaliando a precisão factual de modelos de linguagem

Equipe de pesquisa da Apple lança novo benchmark GSM-Symbolic: revelando as deficiências no raciocínio matemático de grandes modelos de linguagem!

DeepMind lança novo benchmark Michelangelo: Revelando falhas de raciocínio em LLMs de contexto longo

Google AI lança CardBench, um benchmark abrangente: com mais de 20 bancos de dados reais e milhares de consultas

Geekbench lança novo benchmark de IA para avaliar o desempenho de dispositivos em tarefas de IA

Novo benchmark de IA Geekbench testa o desempenho da CPU, GPU e NPU

Universidade de Pequim/Instituto de Pesquisa de Comunicação lança LooGLE, teste de benchmark superdifícil para compreensão de textos longos; modelos de linguagem amplos falham!

Anthropic lança novo programa para financiar o desenvolvimento de benchmarks de IA de próxima geração

Anthropic lança iniciativa para financiar o desenvolvimento de benchmarks de avaliação de IA

Apple lança o MacBook Air mais fino e potente! Resultados de benchmark do MacBook Air M3 de 15 polegadas revelados