Auf der re:Invent-Konferenz am Dienstag stellte Amazon Web Services (AWS) seine neue Reihe multimodaler generativer KI-Modelle namens Nova vor. Die Nova-Reihe umfasst vier Textgenerierungsmodelle: Micro, Lite, Pro und Premier, sowie das Bildgenerierungsmodell Nova Canvas und das Videogenerierungsmodell Nova Reel.
Amazon-CEO Andy Jassy gab bekannt, dass die Modelle Micro, Lite und Pro noch am selben Tag für AWS-Kunden verfügbar sein werden, während das Premier-Modell voraussichtlich Anfang 2025 erscheinen wird. Die Nova-Reihe ist speziell für die Verarbeitung verschiedener Eingabedatenformate (einschließlich Text, Bilder, Videos) konzipiert. Die Textgenerierungsmodelle sind speziell für 15 Sprachen optimiert, wobei Englisch im Vordergrund steht.
Nova Textgenerierungsmodelle
Die Nova Textgenerierungsmodelle weisen unterschiedliche Funktionen und Spezifikationen auf. Das Micro-Modell zeichnet sich durch minimale Latenz und schnelle Reaktionszeiten aus, unterstützt aber nur Text-Ein- und -Ausgabe und eignet sich daher für schnelle Aufgaben. Das Lite-Modell unterstützt die schnelle Verarbeitung von Text-, Bild- und Videoeingaben, während das Pro-Modell ein Gleichgewicht zwischen Genauigkeit, Geschwindigkeit und Kosten bietet. Premier ist das leistungsstärkste Modell und für komplexe Workloads konzipiert, ideal für anspruchsvolle Anwendungen, die ein maßgeschneidertes Modell benötigen.
Die Modelle unterscheiden sich auch in der Größe ihres Kontextfensters. Micro unterstützt maximal etwa 100.000 Wörter, Lite und Pro können etwa 225.000 Wörter, 15.000 Codezeilen oder 30 Minuten Audioinhalt verarbeiten. AWS gab an, dass das Kontextfenster einiger Nova-Modelle bis Anfang 2025 auf 2 Millionen Token erweitert werden soll.
Jassy betonte, dass die Nova-Reihe die schnellsten und kostengünstigsten KI-Modelle ihrer Klasse sind. Sie können auf der AWS AI-Entwicklungsplattform AWS Bedrock feinabgestimmt werden, um Geschwindigkeit und Effizienz weiter zu steigern. Darüber hinaus lässt sich die Nova-Reihe nahtlos mit proprietären Systemen und APIs integrieren, um verschiedene Automatisierungsaufgaben zu erledigen.
Nova Canvas und Nova Reel
Neben der Textgenerierung stellte AWS auch zwei Tools zur Bild- und Videogenerierung vor: Nova Canvas und Nova Reel. Mit Nova Canvas können Benutzer Bilder über Prompts generieren und bearbeiten und die Farbschemata und das Layout der generierten Bilder steuern. Nova Reel kann Videos mit einer Länge von bis zu 6 Sekunden basierend auf Prompts oder Referenzbildern generieren und ermöglicht die Anpassung der Kamerabwegung, einschließlich Schwenken, Drehen und Zoomen.
Obwohl Reel derzeit auf 6-Sekunden-Videos beschränkt ist, gab AWS an, dass längere Videoversionen in Kürze verfügbar sein werden. Darüber hinaus sind in diesen Tools von AWS Maßnahmen zur verantwortungsvollen Nutzung integriert, darunter Wasserzeichen und Inhaltsprüfung, um die Generierung schädlicher Inhalte zu vermeiden.
Jassy erwähnte auch, dass AWS an einem Sprach-zu-Sprach-Modell arbeitet, das voraussichtlich im ersten Quartal 2025 erscheinen wird und Sprachein- und -ausgabe mit natürlicher menschlicher Sprache unterstützt. Darüber hinaus entwickelt AWS ein „beliebig-zu-beliebig“-Modell, das Mitte 2025 erscheinen soll und multimodale Konvertierungen zwischen Text, Sprache, Bildern und Videos ermöglicht.
AWS ist vorsichtig mit der Geheimhaltung seiner Trainingsdaten und gibt an, dass es eine Entschädigungsrichtlinie in Bezug auf Urheberrechtsfragen anbieten wird, um die Rechte der Kunden zu schützen.
Projekt-Zugang: https://aws.amazon.com/cn/ai/generative-ai/nova/
Offizieller Blog: https://aws.amazon.com/cn/blogs/aws/introducing-amazon-nova-frontier-intelligence-and-industry-leading-price-performance/