A versão experimental (Exp1114) do Gemini, da Google DeepMind, alcançou resultados impressionantes na plataforma Chatbot Arena. Após mais de uma semana de testes na comunidade, com mais de 6.000 votos, o novo modelo superou significativamente seus concorrentes, demonstrando força em várias áreas-chave.
Na pontuação geral, o Gemini-Exp-1114 empatou em primeiro lugar com o GPT-4-latest, com uma excelente pontuação acima de 40 pontos, superando a versão anterior, GPT-4-preview. Ainda mais surpreendente, o modelo alcançou o primeiro lugar em áreas essenciais como matemática, prompts complexos e escrita criativa, demonstrando uma força abrangente.
Especificamente, o progresso do Gemini-Exp-1114 é impressionante:
Saltou do 3º para o 1º lugar na classificação geral.
Subiu do 3º para o 1º lugar na avaliação de habilidades matemáticas.
Ascendeu do 4º para o 1º lugar no processamento de prompts complexos.
Melhorou do 2º para o 1º lugar na escrita criativa.
Também ocupa o primeiro lugar no processamento visual.
E melhorou sua capacidade de programação do 5º para o 3º lugar.
O Google AI Studio já lançou oficialmente essa nova versão para os usuários experimentarem. No entanto, a comunidade também expressou preocupações sobre alguns problemas específicos, como a persistência do limite de 1000 tokens e como lidar com a saída de textos muito longos em aplicações reais.
Analistas do setor acreditam que esse avanço demonstra que os investimentos de longo prazo do Google em IA estão começando a dar frutos. Curiosamente, o modelo manteve a 4ª posição em controle de estilo, o que pode sugerir que a equipe de desenvolvimento utilizou principalmente novos métodos de pós-treinamento, em vez de modificar o modelo pré-treinado.
Essa grande conquista também gerou discussões sobre a configuração do setor. A OpenAI costumava lançar novos produtos quando os concorrentes publicavam atualizações importantes, mas a magnitude do progresso do Google desta vez chamou a atenção do setor. Alguns acreditam que isso pode prenunciar a chegada do Gemini 2, e que a competitividade do Google na área de modelos grandes está aumentando significativamente.