Dados mostram que os modelos Grok-2 e Grok-Mini da equipe xAI entraram oficialmente no ranking LMSys Arena de chatbots, com o Grok-2 conquistando a segunda posição. Este desempenho supera o GPT-4o da OpenAI (de maio) e se iguala ao modelo Gemini mais recente, com o apoio de mais de 6.000 votos de usuários da comunidade.

image.png

Vale destacar que o Grok-2 teve um desempenho excepcional em tarefas matemáticas, conquistando o primeiro lugar nessa categoria. Também obteve a segunda posição em diversas outras tarefas, incluindo prompts complexos, programação e seguimento de instruções. Em comparação, o Grok-2-Mini alcançou a quinta posição no ranking, demonstrando sua boa performance.

O Grok-2-Mini também passou por uma melhoria significativa na velocidade, agora funcionando duas vezes mais rápido que antes. Essa melhoria significativa se deve à equipe de inferência da xAI, que reescreveu completamente a pilha de inferência, utilizando o SGLang para alcançar inferência multi-host mais eficiente e maior precisão. A equipe também introduziu novos algoritmos de computação e comunicação, além de melhor agendamento de lote e técnicas de quantização, melhorando ainda mais o desempenho geral do modelo.

Embora alguns tenham dúvidas sobre o desempenho do Grok-2, considerando o GPT-4o da OpenAI superior, muitos usuários relatam que o Grok-2 se destaca em tarefas de programação e matemática. Os modelos da série Grok-2 foram lançados em versão beta este mês e estão disponíveis para teste na plataforma X. Além disso, o modelo suporta a criação de imagens usando o modelo de geração de imagens FLUX.1.

Destaques:

✨ O Grok-2 conquistou a segunda posição no ranking LMSys de chatbots, superando o GPT-4o (de maio) e empatando com o Gemini.

🚀 O Grok-2 teve um desempenho excelente em tarefas matemáticas, obtendo o primeiro lugar, e também se destacou em várias outras tarefas.

💡 O Grok-2-Mini teve um aumento de velocidade, sendo duas vezes mais rápido, melhorando ainda mais seu desempenho.