Em um artigo de pesquisa focado na avaliação de IA médica, a Microsoft parece ter "inadvertidamente" revelado o tamanho dos parâmetros de vários modelos de linguagem grandes de ponta. Publicado em 26 de dezembro, o artigo não apenas expôs dados de parâmetros de modelos de várias empresas, incluindo OpenAI e Anthropic, mas também gerou debates na indústria sobre arquitetura de modelos e poder tecnológico.

De acordo com o artigo, o modelo o1-preview da OpenAI possui aproximadamente 300 bilhões de parâmetros, o GPT-4o cerca de 200 bilhões e o GPT-4o-mini apenas 8 bilhões. Isso contrasta fortemente com a afirmação da Nvidia, feita no início deste ano, de que o GPT-4 utiliza uma arquitetura MoE de 1,76 trilhões. O artigo também revelou que o Claude3.5Sonnet tem aproximadamente 175 bilhões de parâmetros.

image.png

Esta não é a primeira vez que a Microsoft "vaza" informações sobre parâmetros de modelos em artigos científicos. Em outubro do ano passado, um artigo da Microsoft revelou que o GPT-3.5-Turbo tinha 20 bilhões de parâmetros, informação posteriormente removida em uma versão atualizada. Essas "vazas" repetidas levaram os especialistas a especularem sobre uma possível intenção por trás delas.

image.png

É importante notar que o objetivo principal do artigo é apresentar o MEDEC, um benchmark para a área médica. A equipe de pesquisa analisou 488 notas clínicas de três hospitais americanos para avaliar a capacidade dos principais modelos em identificar e corrigir erros em documentos médicos. Os resultados mostraram que o Claude3.5Sonnet liderou na detecção de erros, com uma pontuação de 70,16.

image.png

A autenticidade desses dados gerou um debate acalorado na indústria. Alguns argumentam que, se o Claude3.5Sonnet realmente alcança um desempenho excelente com um número menor de parâmetros, isso destacaria a força tecnológica da Anthropic. Outros analistas, por meio da análise de preços de modelos, consideram que algumas estimativas de parâmetros são razoáveis.

image.png

É particularmente notável que o artigo apenas estima os parâmetros dos modelos principais, sem mencionar os parâmetros específicos do Google Gemini. Acredita-se que isso possa estar relacionado ao uso de TPUs em vez de GPUs Nvidia pelo Gemini, dificultando a estimativa precisa com base na velocidade de geração de tokens.

image.png

Com a OpenAI gradativamente diminuindo seu compromisso com o código aberto, informações essenciais como os parâmetros dos modelos provavelmente continuarão sendo um foco de atenção na indústria. Este vazamento acidental levanta novamente questões sobre a arquitetura dos modelos de IA, as estratégias tecnológicas e a competição comercial.

Referências:

https://arxiv.org/pdf/2412.19260

https://x.com/Yuchenj_UW/status/1874507299303379428

https://www.reddit.com/r/LocalLLaMA/comments/1f1vpyt/why_gpt_4o_mini_is_probably_around_8b_active/