Modelo de IA nacional avança! DeepSeek V3 desafia o Claude 3.5 Sonnet

Modelo de IA nacional avança! DeepSeek V3 desafia o Claude 3.5 Sonnet - Resultados de testes completos

AIbase基地

Publicado emNotícias e Informações de IA · 4 minutos de leitura · Dec 31, 2024

830

Recentemente, o desempenho excepcional do modelo chinês DeepSeek V3 na arena de IA chamou a atenção da indústria. Como o único modelo de código aberto a entrar no top 10, ele não apenas superou o o1-mini, mas também superou o Claude3.5Sonnet em várias áreas, incluindo programação e matemática. Para verificar suas capacidades reais, vários testes comparativos foram realizados.

Nos testes de compreensão básica, os dois modelos mostraram características diferentes. Diante da charada chinesa "A mãe de Xiaoming tem três filhos", o DeepSeek V3 teve um desempenho excelente, respondendo corretamente e realizando uma autoverificação. No entanto, em um trocadilho em inglês "April Fool's Day", mostrou-se insuficiente, falhando em compreender a sutileza da linguagem, enquanto o Claude3.5Sonnet respondeu com facilidade.

Os testes de raciocínio lógico também revelaram resultados interessantes. Ao enfrentar a armadilha lógica clássica do "弱智吧" (ruòzhì ba - algo como "fórum de pessoas com deficiência intelectual"), ambos os modelos cometeram erros de julgamento. No entanto, em questões do tipo "maldição reversa", ambos demonstraram excelente capacidade de raciocínio, identificando com sucesso a relação entre Tom Cruise e sua mãe.

Na competição de problemas de matemática do exame de admissão para pós-graduação, o DeepSeek V3 demonstrou uma capacidade matemática mais forte. Ele não apenas conseguiu analisar detalhadamente a aplicação da integral de superfície e do teorema de Gauss, mas também chegou à resposta correta. Em comparação, o Claude3.5Sonnet, embora com raciocínio claro, cometeu um erro no cálculo final.

Na comparação de habilidades de programação, o DeepSeek V3 superou seu oponente no teste de criação de sites. Este resultado confirma seu excelente desempenho na classificação da arena.

Vale mencionar que, com a entrada do o1 em sua versão completa, a configuração da arena de IA mudou novamente. O o1 alcançou o primeiro lugar com vantagem absoluta, conquistando quase todas as primeiras colocações em todos os itens, exceto na escrita criativa.

Esta série de testes demonstra que os grandes modelos chineses de IA estão rapidamente se aproximando do nível internacional de ponta. O desempenho do DeepSeek V3 prova que, em áreas específicas, ele já possui a capacidade de competir com os modelos de ponta, injetando nova confiança no desenvolvimento da tecnologia de IA chinesa.

Yuanxiang lança o grande modelo de código aberto MoE XVERSE-MoE-A36B com 36 bilhões de parâmetros

A Yuanxiang Information Technology Co., Ltd., sediada em Shenzhen, anunciou recentemente o lançamento do maior modelo de código aberto Mixture of Experts (MoE) da China - XVERSE-MoE-A36B. O lançamento deste modelo representa um grande avanço na área de IA na China, elevando a tecnologia de código aberto nacional a um nível internacionalmente competitivo.

AI2 lança o novo modelo de código aberto OLMoE: eficiente, poderoso e acessível!

O Instituto de Inteligência Artificial Allen (AI2) lançou o OLMoE, um modelo de linguagem grande de código aberto, projetado para oferecer alto desempenho com baixo custo. O modelo emprega uma arquitetura de especialista híbrido esparso (MoE), com 7 bilhões de parâmetros, mas, por meio de um mecanismo inteligente de roteamento, cada token de entrada usa apenas 1 bilhão de parâmetros, resultando em computação eficiente. O OLMoE inclui versões de ajuste fino geral e de instruções, suportando uma janela de contexto de 4096 tokens. Seus dados de treinamento são amplamente derivados de Common Crawl, Dolma CC e Wikipédia.

Novo gigante na geração de imagens por IA! O modelo de código aberto FLUX.1 chega, deixando Midjourney e DALL·E 3 em alerta?

FLUX.1, uma plataforma de modelo grande de código aberto criada pelo renomado especialista em geração de imagens por IA Robin Rombach, utiliza uma arquitetura Vision Transformer de 12 bilhões de parâmetros, com métodos de treinamento de correspondência de fluxo e embeddings de posição rotacional, superando significativamente modelos proprietários como DALL·E 3, Midjourney V6 e a série SD3. Em termos de desempenho, o FLUX.1 excede os modelos fechados em aspectos como a reprodução de semântica textual, qualidade da imagem, consistência de movimento, coerência e diversidade; até mesmo na geração de texto...

SemiKong: Lançado o primeiro grande modelo de código aberto para design de chips, superando modelos de uso geral

O SemiKong, o primeiro grande modelo de código aberto para design de chips do mundo, foi lançado na conferência Semicon West 2024, desenvolvido em conjunto pela Aitomatic e FPT Software. Baseado no Llama 3 e refinado, o SemiKong supera os grandes modelos de uso geral, mostrando melhorias significativas em precisão, relevância e compreensão de processos de semicondutores. Treinado em três fases, com 8 bilhões de parâmetros, o modelo é especializado em conhecimento de semicondutores, oferecendo às empresas de chips uma plataforma base sólida para acelerar a inovação.