12月4日(火曜日)に開催されたre:Inventカンファレンスで、Amazon Web Services(AWS)は、新しいマルチモーダル生成AIモデルシリーズであるNovaを発表しました。今回の発表では、Micro、Lite、Pro、Premierの4つのテキスト生成モデルに加え、画像生成モデルNova Canvasと動画生成モデルNova Reelも発表されました。
AmazonのCEOであるAndy Jassy氏は、Micro、Lite、Proモデルは同日よりAWSのお客様に提供開始され、Premierモデルは2025年初頭にリリースされる予定であると述べました。Novaシリーズは、テキスト、画像、動画など、さまざまな入力形式を処理するように設計されており、テキスト生成モデルは特に15言語に最適化されており、主に英語をサポートしています。
Novaテキスト生成モデル
Novaテキスト生成モデルは、それぞれ異なる機能と仕様を持っています。Microモデルは、最小限の遅延と迅速な応答が特徴ですが、テキストの入出力のみをサポートしており、迅速な処理タスクに適しています。Liteモデルは、テキスト、画像、動画の高速な入力処理をサポートし、Proモデルは、精度、速度、コストのバランスを提供します。Premierは最も強力なモデルであり、複雑なワークロード向けに設計されており、カスタムモデルが必要な高度なアプリケーションに適しています。
これらのモデルのコンテキストウィンドウサイズも異なります。Microは最大約100,000単語をサポートし、LiteとProモデルは約225,000単語、15,000行のコード、または30分のオーディオコンテンツを処理できます。AWSは、2025年初頭までに、一部のNovaモデルのコンテキストウィンドウが200万トークンに拡大されると述べています。
Jassy氏は、Novaシリーズは同クラス製品の中で最速かつ最もコスト効率の高いAIモデルであると強調しました。これらのモデルは、AWSのAI開発プラットフォームであるAWS Bedrockで微調整でき、速度と効率をさらに向上させることができます。さらに、Novaシリーズは、独自のシステムやAPIとシームレスに連携し、さまざまな自動化タスクを実行できます。
Nova CanvasとNova Reel
テキスト生成に加えて、AWSは画像と動画の生成ツールであるNova CanvasとNova Reelも発表しました。Nova Canvasを使用すると、プロンプトから画像を生成および編集でき、生成された画像の色構成とレイアウトを制御できます。Nova Reelは、プロンプトまたは参照画像に基づいて最長6秒の動画を生成でき、パン、回転、ズームなどのカメラの動きを調整できます。
Canvasからの画像を以下に示します。
現在Reelは6秒の短い動画の作成に限定されていますが、AWSはより長いバージョンの動画を近日中にリリースすると述べています。さらに、AWSはこれらのツールに、有害なコンテンツの生成を避けるための透かしとコンテンツのモデレーションなどの責任ある使用のための制御策を組み込んでいます。
Jassy氏はまた、2025年第1四半期にリリースされる予定の音声から音声へのモデルを開発中であることを明らかにしました。このモデルは音声入力をサポートし、自然な人間の言葉を生成します。さらに、AWSは、テキスト、音声、画像、動画間のマルチモーダル変換をサポートする「任意から任意」モデルを2025年中頃にリリースする予定です。
AWSは、トレーニングデータの機密性について慎重な姿勢を維持しており、著作権の問題については補償ポリシーを提供して、お客様の合法的な権利を保護すると述べています。
プロジェクト入口:https://aws.amazon.com/cn/ai/generative-ai/nova/
公式ブログ:https://aws.amazon.com/cn/blogs/aws/introducing-amazon-nova-frontier-intelligence-and-industry-leading-price-performance/