Modelo matemático Qwen2-Math de código aberto da Alibaba supera o GPT-4 em habilidades matemáticas

AIbase基地

Publicado emNotícias e Informações de IA · 6 minutos de leitura · Aug 9, 2024

333

Recentemente, a Alibaba Cloud lançou o modelo de linguagem grande Qwen2-Math, uma nova estrela da IA focada em matemática que imediatamente chamou a atenção da indústria.

Como o mais novo membro da série Qwen2, os modelos Qwen2-Math e Qwen2-Math-Instruct-1.5B/7B/72B demonstraram uma impressionante capacidade de resolução de problemas matemáticos. Relatos indicam que esta série de modelos não apenas superou modelos de código aberto existentes em vários testes de benchmark matemáticos, mas também superou, em alguns aspectos, modelos de código fechado conhecidos, incluindo GPT-4o, Claude-3.5-Sonnet, Gemini-1.5-Pro e Llama-3.1-405B, tornando-se um verdadeiro "cavalo escuro" no mundo da matemática da IA.

O sucesso do Qwen2-Math não é coincidência. A equipe da Alibaba Cloud dedicou muito esforço no último ano para melhorar a capacidade de raciocínio de modelos de linguagem grandes em aritmética e problemas matemáticos. Esta série de modelos é baseada em Qwen2-1.5B/7B/72B, e a equipe de desenvolvimento, a partir desta base, utilizou um corpus matemático especialmente projetado para pré-treinamento profundo. Este corpus exclusivo abrange uma grande quantidade de textos matemáticos de alta qualidade da internet, livros especializados, exemplos de código e uma grande quantidade de questões de exames, incluindo até mesmo dados de pré-treinamento matemático gerados pelo próprio Qwen2.

Vale destacar o modelo Qwen2-Math-Instruct. Este modelo de recompensa especializado em matemática, treinado com base no Qwen2-Math-72B, utiliza um método de treinamento inovador. A equipe de desenvolvimento combinou inteligentemente sinais de recompensa densos e sinais binários de acerto ou erro da resposta do modelo, utilizando esta combinação como sinal de supervisão, construindo dados SFT (Supervised Fine-Tuning) através de amostragem de rejeição e aplicando a técnica de otimização de política relativa de grupo (GRPO) no aprendizado por reforço após o SFT. Este método de treinamento único melhorou significativamente a capacidade do modelo de resolver problemas matemáticos.

Em aplicações práticas, o Qwen2-Math-Instruct apresentou um desempenho impressionante. Tanto na AIME (American Invitational Mathematics Examination) de 2024 quanto na AMC (American Mathematics Competition) de 2023, o modelo apresentou excelentes resultados em várias configurações, incluindo estratégias como busca gananciosa (Greedy), votação majoritária e minimização de risco.

Ainda mais emocionante é que o Qwen2-Math também demonstrou uma boa capacidade em resolver alguns problemas difíceis do nível da Olimpíada Internacional de Matemática (IMO). Através da análise de uma série de casos de teste, os pesquisadores descobriram que o Qwen2-Math não apenas consegue lidar facilmente com problemas simples de competições matemáticas, mas também consegue fornecer soluções convincentes para problemas complexos.

No entanto, a equipe da Alibaba Cloud não parou por aí. Eles revelaram que a série atual do Qwen2-Math suporta apenas inglês, mas estão ativamente desenvolvendo um modelo bilíngue que suporta inglês e chinês, e planejam lançar uma versão multilíngue em breve. Além disso, a equipe está continuamente otimizando o modelo para melhorar ainda mais sua capacidade de resolver problemas matemáticos mais complexos e desafiadores.

O surgimento do Qwen2-Math abriu novas possibilidades para a aplicação da IA na área da matemática. Ele não apenas trará mudanças revolucionárias para o setor educacional, ajudando os alunos a entender e dominar melhor o conhecimento matemático, mas também pode desempenhar um papel importante em pesquisa científica, engenharia e outras áreas que exigem cálculos matemáticos complexos.

Página do projeto: https://top.aibase.com/tool/qwen2-math

Download do modelo: https://huggingface.co/Qwen

Qwen2-Math Alibaba Cloud Modelo de linguagem grande Resolução de problemas matemáticos

Este artigo é do AIbase Daily

Bem-vindo à coluna [AI Daily]! Este é o seu guia para explorar o mundo da inteligência artificial todos os dias. Todos os dias apresentamos os destaques da área de IA, com foco nos desenvolvedores, para o ajudar a obter insights sobre as tendências tecnológicas e a compreender as aplicações inovadoras de produtos de IA.

—— Criado pelo Grupo AIbase Daily

Notícias de IA Relacionadas Recomendadas

Baidu anuncia: o modelo de linguagem grande Ernie 4.5 Turbo será lançado em 25 de abril

Hoje, a Baidu anunciou oficialmente seu mais recente trabalho - o modelo de linguagem grande Ernie 4.5 Turbo, que será revelado na conferência Create, em 25 de abril. Embora a empresa ainda não tenha divulgado detalhes sobre os parâmetros e recursos específicos deste novo modelo, a expectativa é grande tanto dentro quanto fora do setor. Os detalhes completos só serão revelados no dia do lançamento.

Apr 10, 2025

Meta lança o modelo de linguagem grande Llama 4: arquitetura de especialista mista lidera uma nova era da IA

A Meta lançou seu mais recente modelo de inteligência artificial de código aberto, o Llama 4, marcando outro grande avanço no campo da IA. O Llama 4 vem em duas versões, chamadas Scout e Maverick, com o objetivo de melhorar a funcionalidade e o desempenho dos modelos de IA. A Meta afirma que o Llama 4 é um modelo multimodal que pode processar vários tipos de dados, incluindo texto, imagens, vídeos e áudio, e pode converter livremente entre esses formatos. Vale ressaltar que a série Llama 4 é a primeira a...

Apr 7, 2025

Observatório Astronômico Nacional e Alibaba Cloud lançam o primeiro modelo de linguagem grande solar do mundo, Jinwu: precisão de previsão de erupções solares de classe M5 ultrapassa 91%

Recentemente, o Observatório Astronômico Nacional da China e a Alibaba Cloud anunciaram em conjunto o lançamento do "Jinwu", o primeiro modelo de linguagem grande solar do mundo, marcando um passo importante na profunda integração da pesquisa em física solar e da tecnologia de inteligência artificial. De acordo com informações, o modelo foi desenvolvido com base no framework Tongyi Qianwen (Tongyi Qianwen) de código aberto da Alibaba Cloud, e sua precisão na previsão de erupções solares de classe M5 ultrapassa 91%, atingindo o nível mais alto do mundo para previsões dessa classe. Este feito não apenas melhora a precisão da previsão do clima espacial, mas também fornece novas técnicas para lidar com os potenciais impactos terrestres causados pela atividade solar.

Apr 1, 2025

Agente de IA Niu da Tuniu: Lançamento de serviço de viagens inteligente com suporte de modelo de linguagem grande de código aberto

Na tarde do dia 1º de abril, a Tuniu Travel anunciou o lançamento oficial de seu Agente de Aplicativo de Turismo de IA Niu, disponível simultaneamente no aplicativo Tuniu Travel e no miniaplicativo "Agente de IA Niu". Segundo informações, o "Agente de IA Niu" utiliza de forma inovadora os modelos de linguagem grandes de código aberto DeepSeek e Tongyi Qianwen, e integra profundamente cenários de aplicativos verticais de viagens, com o objetivo de fornecer aos usuários uma experiência de viagem mais conveniente e eficiente. Com o "Agente de IA Niu", os usuários podem facilmente pesquisar e reservar passagens aéreas, hotéis e passagens de trem. É ainda mais digno de nota que a IA...

Apr 1, 2025

IFlytek Medical lança o primeiro modelo de linguagem grande do mundo para diabetes tipo 1, alegando superar o GPT-4!

A IFlytek Medical anunciou hoje uma grande notícia: o lançamento oficial do primeiro modelo de linguagem grande para diabetes tipo 1 do mundo, derivado de resultados-chave de um grande projeto nacional sobre as quatro principais doenças crônicas. Afirma-se que o lançamento deste modelo representa um importante avanço científico saindo do laboratório para aplicação clínica, e também a primeira vez que a província de Anhui consegue transformar os resultados de um projeto de pesquisa científica nacional de grande porte na área de prevenção e controle de doenças crônicas. Segundo informações, o projeto se concentra nos principais desafios no processo de diagnóstico e tratamento do diabetes tipo 1, integrando dados multimodais e ampla experiência clínica, e é baseado na poderosa tecnologia do modelo de linguagem grande IFlytek Medical X1.

Mar 30, 2025

Óculos AR Thunderbird e modelo de linguagem grande personalizado Tongyi se unem para melhorar significativamente a experiência interativa

Mar 26, 2025

Relatórios indicam que a BMW adotará totalmente o modelo de linguagem grande Tongyi da Alibaba

Mar 26, 2025

LiblibAI integra o modelo de linguagem grande Tongyi da Alibaba, capacitando uma nova era para 20 milhões de criadores

No campo da criação de imagens de IA na China, a plataforma LiblibAI recentemente recebeu uma grande atualização. A plataforma integrou oficialmente o modelo de linguagem grande Tongyi da Alibaba, expandindo ainda mais suas capacidades em geração de imagens de IA e criação de vídeos. Essa iniciativa não apenas representa um grande avanço na tecnologia de IA, mas também traz boas novas para uma ampla comunidade de criadores. De acordo com informações oficiais, a LiblibAI integrou o mais recente modelo de código aberto Wanxiang, lançando os recursos de texto para vídeo e imagem para vídeo. Os usuários precisam apenas inserir palavras-chave ou carregar

Mar 25, 2025

LiblibAI integra o modelo de linguagem grande Tongyi da Alibaba, lançando recurso de geração de vídeo AI em 10 segundos

Mar 24, 2025

Boletim Diário de IA: O Meituan desenvolveu o modelo de linguagem grande interno LongCat; a vivo estabeleceu um centro independente de robótica LAB; a Tencent lançou a versão oficial do modelo de linguagem grande HunYuan T1

Bem-vindo ao boletim diário de IA! Aqui você encontrará seu guia diário para explorar o mundo da inteligência artificial. Todos os dias, apresentamos os destaques do campo da IA, com foco em desenvolvedores, para ajudá-lo a entender as tendências tecnológicas e os novos aplicativos de produtos de IA. Descubra novos produtos de IA aqui: https://top.aibase.com/ 1、A tecnologia LHM do Laboratório de IA da Alibaba realiza a rápida reconstrução 3D do corpo humano e a geração de animações a partir de uma única imagem. A tecnologia LHM do Laboratório de IA da Alibaba alcançou um avanço significativo na área de reconstrução 3D do corpo humano, utilizando transformações multimodais

Mar 24, 2025

Notícias de IA

IA Diário

Linha do Tempo da IA

Casos Recentes

Coleção de Imagens

Coleção de Vídeos

Coleção de Áudios

Coleção de Conteúdo

Tutoriais Recentes

Ranking de Produtos de IA

Ranking de Crescimento de Tráfego de IA

Ranking de Queda de Tráfego de IA

Ranking Semanal de IA

Estados Unidos

China

Índia

Brasil

Geração de Imagens

Assistente Pessoal

Geração de Personagens

Geração de Vídeos

Ranking de Projetos de IA

Ranking de Crescimento de Projetos de IA

Ranking de Desenvolvedores de IA

Ranking de Organizações de IA

Deepseek

TTS

LLM

ChatGPT

Visão Geral