Lors de la conférence re:Invent de mardi, Amazon Web Services (AWS) a annoncé le lancement de sa nouvelle série de modèles d'IA générative multimodale : Nova. Cette série comprend quatre modèles de génération de texte : Micro, Lite, Pro et Premier, ainsi que le modèle de génération d'images Nova Canvas et le modèle de génération de vidéos Nova Reel.

Le PDG d'Amazon, Andy Jassy, a déclaré que les modèles Micro, Lite et Pro seraient déployés auprès des clients AWS dès ce jour, tandis que le modèle Premier devrait être disponible début 2025. La série Nova est conçue pour traiter plusieurs formes d'entrée (texte, image, vidéo), les modèles de génération de texte étant optimisés pour 15 langues, principalement l'anglais.

Modèles de génération de texte Nova

Les modèles de génération de texte Nova offrent des fonctionnalités et des spécifications différentes. Le modèle Micro se caractérise par une latence minimale et une réponse rapide, mais ne prend en charge que les entrées et sorties de texte, ce qui le rend idéal pour les tâches de traitement rapide. Le modèle Lite prend en charge le traitement rapide des entrées texte, image et vidéo, tandis que le modèle Pro offre un équilibre entre précision, vitesse et coût. Premier est le modèle le plus puissant, conçu pour les charges de travail complexes et adapté aux applications avancées nécessitant des modèles personnalisés.

La taille de la fenêtre contextuelle de ces modèles varie également. Micro prend en charge jusqu'à environ 100 000 mots, tandis que les modèles Lite et Pro peuvent traiter environ 225 000 mots, 15 000 lignes de code ou 30 minutes de contenu audio. AWS a indiqué que d'ici début 2025, la fenêtre contextuelle de certains modèles Nova serait étendue à 2 millions de jetons.

Jassy a souligné que la série Nova est la série de modèles d'IA la plus rapide et la moins coûteuse du marché. Ils peuvent être affinés sur la plateforme de développement d'IA d'AWS, AWS Bedrock, pour améliorer encore leur vitesse et leur efficacité. De plus, la série Nova peut fonctionner de manière transparente avec des systèmes et des API propriétaires pour exécuter diverses tâches d'automatisation.

Nova Canvas et Nova Reel

En plus de la génération de texte, AWS a également lancé deux outils de génération d'images et de vidéos : Nova Canvas et Nova Reel. Nova Canvas permet aux utilisateurs de générer et de modifier des images à partir d'invites, et offre un contrôle sur les palettes de couleurs et la mise en page des images générées. Nova Reel permet de générer des vidéos de 6 secondes maximum à partir d'invites ou d'images de référence, et permet aux utilisateurs d'ajuster le mouvement de la caméra, notamment le panoramique, la rotation et le zoom.

Voici une image de Canvas :

QQ20241204-092926.png

Bien que Reel soit actuellement limité à la création de courtes vidéos de 6 secondes, AWS a indiqué qu'une version vidéo plus longue serait disponible prochainement. De plus, AWS a intégré des mesures de contrôle de l'utilisation responsable à ces outils, notamment des filigranes et une modération du contenu, afin d'éviter la génération de contenu préjudiciable.

Jassy a également révélé qu'AWS développe un modèle voix-à-voix, prévu pour le premier trimestre 2025, qui prendra en charge la saisie vocale et générera une voix humaine naturelle. En outre, AWS développe un modèle « n'importe quoi vers n'importe quoi », prévu pour le milieu de l'année 2025, qui prendra en charge la conversion multimodale entre texte, voix, image et vidéo.

AWS fait preuve de prudence quant à la confidentialité de ses données d'entraînement et indique qu'elle proposera une politique d'indemnisation en cas de problèmes de droits d'auteur, afin de protéger les droits légitimes de ses clients.

Accès au projet : https://aws.amazon.com/cn/ai/generative-ai/nova/

Blog officiel : https://aws.amazon.com/cn/blogs/aws/introducing-amazon-nova-frontier-intelligence-and-industry-leading-price-performance/