A mais recente tentativa do Google na área de IA generativa tem chamado a atenção de todos. Após meses de desempenho discreto, o Google Gemini acelerou rapidamente, lançando um novo modelo de linguagem experimental — Gemini-Exp-1206. De acordo com o mais recente ranking do ChatArena, este modelo se destacou entre seus muitos concorrentes, tornando-se o líder em IA generativa.
O Gemini-Exp-1206 obteve a maior pontuação Arena (Arena Score) no LMArena, alcançando 1379 pontos, ligeiramente acima dos 1366 pontos do ChatGPT-4.0. Essa pontuação indica que o Gemini-Exp-1206 teve um desempenho excepcional em várias avaliações, demonstrando sua capacidade abrangente. Além disso, em comparação com o Gemini-Exp-1114 anterior, o novo modelo também mostra um desempenho mais forte.
Então, o que é o LMArena? O LMArena, também conhecido como Chatbot Arena, é uma plataforma de código aberto usada para avaliar modelos de linguagem grandes. Esta plataforma foi desenvolvida em conjunto pelo LMSYS e pelo SkyLab da Universidade da Califórnia, Berkeley, com o objetivo de apoiar a avaliação do desempenho de LLMs pela comunidade por meio de testes em tempo real e comparações diretas.
Na classificação, a Arena Score representa o desempenho médio do modelo em várias tarefas, sendo que quanto maior a pontuação, maior a capacidade. Embora a pontuação do GeminiExp-1206 seja superior à do ChatGPT-4.0, o ChatGPT-4.0 ainda tem uma vantagem significativa no número de votos, com 21.929 votos, enquanto o Gemini-Exp-1206 recebeu 5052 votos. Um número maior de votos geralmente indica maior confiabilidade, pois isso sugere que o modelo foi testado mais extensivamente.
Além disso, os dados do intervalo de confiança de 95% mostram que o IC do Gemini é de ±10/-5, enquanto o IC do ChatGPT é de ±4/-5. Isso indica que a pontuação média do Gemini é maior, mas o ChatGPT-4.0 apresenta maior estabilidade de desempenho.
Vale ressaltar que os modelos experimentais do Gemini são protótipos de ponta, projetados para testes e feedback. Esses modelos oferecem aos desenvolvedores a oportunidade de experimentar antecipadamente os mais recentes avanços em IA do Google, demonstrando a inovação contínua. No entanto, esses modelos experimentais são temporários, podem ser substituídos a qualquer momento e não são adequados para ambientes de produção.
Se você deseja usar o Gemini-Exp-1206 gratuitamente, basta acessar o Google AI Studio, fazer login, selecionar "Criar prompt" e, nas configurações, alterar o modelo para "Gemini Experimental 1206" para começar a conversar.
Embora os resultados do Gemini-Exp-1206 sejam bastante impressionantes, é importante lembrar sua natureza experimental. O potencial futuro ainda precisa ser revelado com o tempo, e o setor espera ansiosamente pelo lançamento estável desse forte concorrente.
Entrada do projeto:https://ai.google.dev/gemini-api/docs/models/experimental-models?hl=pt-br
Destaques:
🌟 O Gemini-Exp-1206 obteve uma pontuação alta de 1379 no ranking do LMArena, superando os 1366 pontos do ChatGPT-4.0.
🗳️ O ChatGPT-4.0 recebeu 21.929 votos, significativamente mais do que os 5052 votos do Gemini-Exp-1206, demonstrando sua confiabilidade.
🔍 Os modelos experimentais do Gemini oferecem aos desenvolvedores oportunidades sem precedentes de experimentar a IA, mas ainda estão em fase de teste e não são adequados para uso em produção.