A divisão de pesquisa de IA da gigante tecnológica Google lançou recentemente a mais nova iteração do modelo Gemini AI: o Gemini 2.0 Flash. Este novo modelo apresenta melhorias significativas de desempenho, especialmente em velocidade de processamento e expansão de funcionalidades multimodais.

A empresa afirma que os usuários globais do Gemini podem acessar uma versão otimizada para bate-papo selecionando a versão experimental do 2.0 Flash na lista suspensa de modelos na web para desktop e dispositivos móveis. Em breve, estará disponível também no aplicativo móvel Gemini. No início do próximo ano, o Gemini 2.0 será expandido para mais produtos Google.

image.png

Um desenvolvimento crucial do Gemini 2.0 Flash é sua velocidade de processamento aprimorada. O Google afirma que o novo modelo é duas vezes mais rápido que seu antecessor, o Gemini 1.5 Pro, e também demonstra melhor desempenho em diversos testes de referência. Essa melhoria de velocidade significa que os usuários desfrutarão de capacidade de processamento mais eficiente e tempos de resposta mais rápidos.

image.png

Além disso, o Gemini 2.0 Flash expandiu sua capacidade de processar diversos tipos de dados. O modelo agora inclui uma API multi-modal em tempo real, capaz de processar fluxos de áudio e vídeo em tempo real. Isso permite que os desenvolvedores criem aplicativos que utilizam entradas dinâmicas de áudio e vídeo. Simultaneamente, o modelo também integra a funcionalidade nativa de geração de imagens, permitindo que os usuários criem e modifiquem imagens por meio de prompts de texto conversacionais.

Além desses avanços principais, o Gemini 2.0 Flash inclui várias outras melhorias. A saída de áudio multilíngue nativa agora suporta oito idiomas diferentes, expandindo a acessibilidade global do modelo. Melhorias no suporte a ferramentas e agentes permitem que o modelo interaja de forma mais eficiente com ferramentas e sistemas externos, permitindo a conclusão de tarefas mais complexas.

Em tarefas de engenharia de software, o Gemini 2.0 Flash obteve uma pontuação de 51,8% no teste de referência SWE-bench Verified, projetado para avaliar a proficiência em codificação. Esse resultado demonstra o potencial do modelo para auxiliar os desenvolvedores nos processos de geração, depuração e otimização de código.

O Google está integrando o Gemini 2.0 Flash em suas próprias ferramentas de desenvolvimento. Um novo agente de código impulsionado por IA, chamado Jules, utiliza o Gemini 2.0 Flash para auxiliar os desenvolvedores no Google Colaboratory. Essa integração demonstra a aplicação prática do modelo em ambientes de desenvolvimento.

O Gemini 2.0 Flash também inclui recursos relacionados ao desenvolvimento responsável de IA. O suporte a 109 idiomas expandiu a acessibilidade global do modelo. Todas as imagens e saídas de áudio geradas são integradas com a marca d'água SynthID, fornecendo um mecanismo para rastrear a origem e solucionar potenciais problemas relacionados ao conteúdo gerado por IA.

O lançamento do Gemini 2.0 Flash representa mais um passo no desenvolvimento dos modelos de IA do Google. O foco em aumentar a velocidade, expandir as capacidades multimodais e melhorar a interação com ferramentas contribui para um sistema de IA mais versátil e poderoso.

À medida que o Google continua a desenvolver a série de modelos Gemini, espera-se um aprimoramento adicional e expansão de capacidades. O Gemini 2.0 Flash contribui para o progresso contínuo da tecnologia de IA e suas potenciais aplicações em várias áreas.

Apresentação oficial: https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/#gemini-2-0-flash

Destaques:

🚀 O Gemini 2.0 Flash é duas vezes mais rápido que seu antecessor, com melhorias significativas de desempenho.

🎥 O modelo inclui uma nova API multi-modal em tempo real, suportando o processamento em tempo real de fluxos de áudio e vídeo.

🌐 Funcionalidade nativa de geração de imagens integrada, permitindo a criação e modificação de imagens por meio de prompts de texto.