Na conferência re:Invent de terça-feira, a Amazon Web Services (AWS) anunciou sua nova família de modelos de IA generativa multimodais: Nova. Este lançamento inclui quatro modelos de geração de texto: Micro, Lite, Pro e Premier, além dos modelos de geração de imagens Nova Canvas e de vídeo Nova Reel.

O CEO da Amazon, Andy Jassy, disse que os modelos Micro, Lite e Pro serão lançados para os clientes da AWS ainda hoje, enquanto o modelo Premier está previsto para o início de 2025. A família Nova foi projetada para lidar com vários tipos de entrada (incluindo texto, imagens e vídeos), com os modelos de geração de texto otimizados para 15 idiomas, com suporte principal em inglês.

Modelos de Geração de Texto Nova

Os modelos de geração de texto Nova possuem diferentes recursos e especificações. O modelo Micro se destaca pela menor latência e resposta rápida, mas suporta apenas entrada e saída de texto, ideal para tarefas de processamento rápido. O modelo Lite suporta processamento rápido de entrada de texto, imagens e vídeos, enquanto o modelo Pro oferece um equilíbrio entre precisão, velocidade e custo. O Premier é o modelo mais poderoso, projetado para cargas de trabalho complexas, ideal para aplicativos avançados que exigem modelos personalizados.

O tamanho da janela de contexto desses modelos também varia. O Micro suporta até aproximadamente 100.000 palavras, enquanto os modelos Lite e Pro podem processar aproximadamente 225.000 palavras, 15.000 linhas de código ou 30 minutos de conteúdo de áudio. A AWS afirma que, até o início de 2025, a janela de contexto de alguns modelos Nova será expandida para 2 milhões de tokens.

Jassy enfatizou que a família Nova é a mais rápida e econômica em sua categoria. Eles podem ser ajustados na plataforma de desenvolvimento de IA da AWS, AWS Bedrock, para aumentar ainda mais a velocidade e a eficiência. Além disso, a família Nova pode ser integrada perfeitamente a sistemas e APIs proprietários para executar várias tarefas de automação.

Nova Canvas e Nova Reel

Além da geração de texto, a AWS também lançou duas ferramentas de geração de imagens e vídeos: Nova Canvas e Nova Reel. O Nova Canvas permite que os usuários gerem e editem imagens por meio de prompts, oferecendo controle sobre o esquema de cores e o layout das imagens geradas. O Nova Reel pode gerar vídeos de até 6 segundos com base em prompts ou imagens de referência, permitindo que os usuários ajustem o movimento da câmera, incluindo panorâmica, rotação e zoom.

Segue uma imagem do Canvas:

QQ20241204-092926.png

Embora o Reel esteja atualmente limitado a vídeos curtos de 6 segundos, a AWS afirma que versões de vídeos mais longos serão lançadas em breve. Além disso, a AWS integrou medidas de controle de uso responsável a essas ferramentas, incluindo marcas d'água e revisão de conteúdo, para evitar a geração de conteúdo prejudicial.

Jassy também revelou que a AWS está desenvolvendo um modelo de voz para voz, previsto para o primeiro trimestre de 2025, que suportará entrada de voz e gerará fala humana natural. Além disso, a AWS está desenvolvendo um modelo "qualquer para qualquer", previsto para o meio de 2025, que suportará conversão multi-modal entre texto, voz, imagens e vídeos.

A AWS mantém cautela sobre a confidencialidade de seus dados de treinamento e afirma que oferecerá uma política de indenização em questões de direitos autorais para proteger os direitos legítimos de seus clientes.

Acesso ao projeto:https://aws.amazon.com/cn/ai/generative-ai/nova/

Blog oficial:https://aws.amazon.com/cn/blogs/aws/introducing-amazon-nova-frontier-intelligence-and-industry-leading-price-performance/