Uma nova avaliação independente mostra que os modelos mais recentes da Meta, Llama4 — Maverick e Scout — tiveram um desempenho excelente em testes padrão, mas tiveram um desempenho abaixo do esperado em tarefas complexas de contexto longo. De acordo com o "índice de inteligência" da análise de inteligência artificial, o Maverick obteve uma pontuação de 49 pontos, superando o Claude3.7Sonnet (pontuação não especificada), mas ficando atrás do Deepseek V30324 (53 pontos); o Scout obteve uma pontuação de 36 pontos, semelhante ao GPT-4o-mini, superando o Claude3.5Sonnet e o Mistral Small3.1. Ambos os modelos apresentaram desempenho estável em tarefas de raciocínio, codificação e matemática, sem mostrar pontos fracos significativos.
A eficiência da arquitetura do Maverick é notável, com apenas 17 bilhões de parâmetros ativos (em comparação com 37 bilhões do Deepseek V3), representando 60% do total de parâmetros (402 bilhões em comparação com 671 bilhões), e capaz de processar imagens, não apenas texto. Em termos de preço, o Maverick custa US$ 0,24/US$ 0,77 por milhão de tokens de entrada/saída, enquanto o Scout custa US$ 0,15/US$ 0,40, menos que o Deepseek V3 e até 10 vezes mais barato que o GPT-4o, tornando-se um dos modelos de IA mais acessíveis.
No entanto, o lançamento do Llama4 gerou controvérsia. O teste de referência LMArena mostrou que o Maverick ficou em segundo lugar na versão de "bate-papo experimental" recomendada pela Meta, mas caiu para o quinto lugar quando o "controle de estilo" foi ativado, destacando sua dependência de otimização de formato em vez de pura qualidade de conteúdo. Os testadores questionaram a confiabilidade dos benchmarks da Meta, apontando diferenças significativas em seu desempenho em outras plataformas. A Meta admitiu otimizar a experiência de avaliação humana, mas negou qualquer fraude nos dados de treinamento.
Tarefas de contexto longo são uma fraqueza óbvia do Llama4. Testes do Fiction.live mostraram que o Maverick teve uma precisão de apenas 28,1% com 128.000 tokens, enquanto o Scout teve uma precisão ainda menor, de 15,6%, muito abaixo dos 90,6% do Gemini2.5Pro. Embora a Meta afirme que o Maverick suporta uma janela de contexto de 1 milhão de tokens e o Scout de 10 milhões de tokens, o desempenho real ficou muito aquém do esperado. Pesquisas mostram que janelas de contexto muito grandes têm um retorno limitado, sendo mais prático o uso de até 128K.
O chefe de IA generativa da Meta, Ahmad Al-Dahle, respondeu que as inconsistências iniciais se devem a problemas de implementação, e não a defeitos do modelo. Ele negou as acusações de fraude nos testes e disse que as otimizações de implantação estão em andamento e devem ser estabilizadas em alguns dias.