Google Gemini 2.0 Lançado: Flash 2.0 Agora Suporta Saída Multimodal

Sundar Pichai, CEO do Google e de sua empresa matriz, Alphabet, anunciou o lançamento do mais recente modelo de inteligência artificial da empresa, o Gemini 2.0, marcando um passo significativo na construção de um assistente de IA universal. O Gemini 2.0 demonstra avanços notáveis no processamento de entradas multimodais e no uso de ferramentas nativas, permitindo que os agentes de IA compreendam melhor o mundo ao seu redor e tomem medidas em nome dos usuários sob supervisão.

O Gemini 2.0 foi desenvolvido com base em seus predecessores, Gemini 1.0 e 1.5, sendo este último o primeiro a alcançar a capacidade de processamento multimodal nativa, capaz de entender vários tipos de informações, incluindo texto, vídeo, imagens, áudio e código. Atualmente, milhões de desenvolvedores usam o Gemini para desenvolver, levando o Google a repensar seus produtos, incluindo 7 produtos que atendem 2 bilhões de usuários, e a criar novos produtos. O NotebookLM é um exemplo da capacidade multimodal e de contexto longo, tendo sido amplamente elogiado.

微信截图_20241212080452.png

O lançamento do Gemini 2.0 sinaliza a entrada do Google em uma nova era de agentes, com o modelo possuindo capacidades nativas de saída de imagem e áudio, além da capacidade de usar ferramentas nativas. O Google já começou a disponibilizar o Gemini 2.0 para desenvolvedores e testadores confiáveis, e planeja integrá-lo rapidamente aos seus produtos, começando pelo Gemini e pela Pesquisa. A partir de hoje, o modelo experimental Gemini 2.0 Flash estará disponível para todos os usuários do Gemini. Simultaneamente, o Google lançou um novo recurso chamado Deep Research, que utiliza raciocínio avançado e capacidade de contexto longo para atuar como assistente de pesquisa, explorando temas complexos e compilando relatórios em nome do usuário. Este recurso está atualmente disponível no Gemini Advanced.

A Pesquisa, sendo um dos produtos mais afetados pela IA, a visão geral de IA do Google já alcança 1 bilhão de pessoas, permitindo-lhes fazer perguntas totalmente novas e rapidamente se tornando um dos recursos de pesquisa mais populares do Google. Como próximo passo, o Google integrará a capacidade de raciocínio avançado do Gemini 2.0 à visão geral de IA para resolver temas mais complexos e problemas de múltiplas etapas, incluindo equações matemáticas avançadas, consultas multimodais e codificação. Testes limitados começaram nesta semana, com um lançamento mais amplo planejado para o início do próximo ano. O Google também continuará a expandir a visão geral de IA para mais países e idiomas no próximo ano.

O Google também demonstrou os resultados de ponta de sua pesquisa em agentes por meio da capacidade multimodal nativa do Gemini 2.0. O Gemini 2.0 Flash é uma melhoria em relação ao 1.5 Flash, o modelo mais popular entre os desenvolvedores até o momento, com tempos de resposta semelhantes. Notavelmente, o 2.0 Flash superou o 1.5 Pro em testes de referência-chave em duas vezes a velocidade. O 2.0 Flash também traz novas capacidades. Além de suportar entradas multimodais como imagens, vídeos e áudio, o 2.0 Flash agora suporta saídas multimodais, como imagens geradas nativamente misturadas com texto e áudio de texto para fala (TTS) multilíngue controlável. Ele também pode chamar ferramentas nativamente, como a Pesquisa Google, execução de código e funções de usuário definidas por terceiros.

微信截图_20241212080808.png

O Gemini 2.0 Flash está agora disponível para desenvolvedores como um modelo experimental, através da API Gemini do Google AI Studio e Vertex AI, todos os desenvolvedores podem usar entradas multimodais e saídas de texto, enquanto a conversão de texto para fala e a geração nativa de imagens são oferecidas a parceiros de acesso antecipado. A disponibilidade geral seguirá em janeiro, juntamente com o lançamento de modelos de tamanhos adicionais.

Para ajudar os desenvolvedores a construir aplicativos dinâmicos e interativos, o Google também lançou uma nova API multimodal em tempo real, com capacidade de entrada de áudio e vídeo em tempo real e a capacidade de usar várias ferramentas combinadas.

A partir de hoje, os usuários do Gemini em todo o mundo podem acessar uma versão otimizada para bate-papo do experimento 2.0 Flash selecionando-o no menu suspenso do modelo em páginas da web para desktop e dispositivos móveis, e estará disponível em breve no aplicativo móvel Gemini. No início do próximo ano, o Google expandirá o Gemini 2.0 para mais produtos do Google.

Notícias e Informações de IA

Google Gemini 2.0 Lançado: Flash 2.0 Agora Suporta Saída Multimodal

AIbase基地