En la conferencia re:Invent del martes, Amazon Web Services (AWS) anunció el lanzamiento de su nueva familia de modelos de IA generativa multimodales: Nova. Este lanzamiento incluye cuatro modelos de generación de texto: Micro, Lite, Pro y Premier, además del modelo de generación de imágenes Nova Canvas y el modelo de generación de vídeo Nova Reel.
El CEO de Amazon, Andy Jassy, declaró que los modelos Micro, Lite y Pro estarán disponibles para los clientes de AWS a partir de ese mismo día, mientras que el modelo Premier se espera para principios de 2025. La familia Nova está diseñada para procesar múltiples formas de entrada (incluyendo texto, imágenes y vídeo), y los modelos de generación de texto están optimizados para 15 idiomas, con soporte principal para inglés.
Modelos de generación de texto Nova
Los modelos de generación de texto Nova tienen diferentes funciones y especificaciones. El modelo Micro se caracteriza por su mínima latencia y respuesta rápida, pero solo admite entrada y salida de texto, lo que lo hace ideal para tareas de procesamiento rápido. El modelo Lite admite un procesamiento rápido de entrada de texto, imágenes y vídeo, mientras que el modelo Pro ofrece un equilibrio entre precisión, velocidad y coste. Premier es el modelo más potente, diseñado para cargas de trabajo complejas y aplicaciones avanzadas que requieren modelos personalizados.
El tamaño de la ventana de contexto de estos modelos también varía. Micro admite hasta aproximadamente 100.000 palabras, mientras que los modelos Lite y Pro pueden procesar aproximadamente 225.000 palabras, 15.000 líneas de código o 30 minutos de contenido de audio. AWS indicó que, para principios de 2025, la ventana de contexto de algunos modelos Nova se ampliará a 2 millones de tokens.
Jassy destacó que la familia Nova es la más rápida y económica de su clase. Se pueden ajustar finamente en la plataforma de desarrollo de IA de AWS, AWS Bedrock, para mejorar aún más la velocidad y la eficiencia. Además, la familia Nova se integra perfectamente con sistemas y API propietarios para realizar diversas tareas de automatización.
Nova Canvas y Nova Reel
Además de la generación de texto, AWS también lanzó dos herramientas de generación de imágenes y vídeo: Nova Canvas y Nova Reel. Nova Canvas permite a los usuarios generar y editar imágenes a través de indicaciones, ofreciendo control sobre la paleta de colores y el diseño de las imágenes generadas. Nova Reel puede generar vídeos de hasta 6 segundos a partir de indicaciones o imágenes de referencia, permitiendo a los usuarios ajustar el movimiento de la cámara, incluyendo panorámicas, rotaciones y zoom.
Aquí hay una imagen de Canvas:
Aunque actualmente Reel se limita a la creación de vídeos cortos de 6 segundos, AWS indicó que pronto se lanzarán versiones de vídeos más largos. Además, AWS ha integrado medidas de control de uso responsable en estas herramientas, incluyendo marcas de agua y revisión de contenido, para evitar la generación de contenido dañino.
Jassy también reveló que AWS está desarrollando un modelo de voz a voz, que se espera que se lance en el primer trimestre de 2025, y que admitirá la entrada de voz y generará voz humana natural. Además, AWS está desarrollando un modelo "cualquier cosa a cualquier cosa", que se espera que se lance a mediados de 2025, y que admitirá la conversión multi-modal entre texto, voz, imágenes y vídeo.
AWS mantiene la confidencialidad de sus datos de entrenamiento y afirma que ofrecerá una política de compensación por problemas de derechos de autor para proteger los derechos legítimos de sus clientes.
Enlace al proyecto: https://aws.amazon.com/cn/ai/generative-ai/nova/
Blog oficial: https://aws.amazon.com/cn/blogs/aws/introducing-amazon-nova-frontier-intelligence-and-industry-leading-price-performance/