最近のポッドキャスト番組で、Google DeepMindのCEOであるデミス・ハサビス氏は、Googleが最終的にGemini AIモデルと動画生成モデルVeoを統合し、Geminiの物理世界に対する理解を向上させる計画であると述べました。彼は、Geminiは最初からマルチモーダル設計を目的としており、「汎用デジタルアシスタント」を目指しており、現実世界でユーザーを真に支援することを目指していると指摘しました。
ハサビス氏は、AI業界が様々なメディア形式を理解し合成できる「万能」モデルへと徐々に進化しつつあると述べました。例えば、Googleの最新のGeminiモデルはテキストや画像だけでなく、音声も生成できます。また、OpenAIのChatGPTのデフォルトモデルも既に画像をネイティブに作成できます。さらに、Amazonも今年中に「何でもあり」のモデルを発表すると発表しています。
これらの万能モデルを実現するには、画像、動画、音声、テキストなど、大量のトレーニングデータが必要です。ハサビス氏は、Veoモデルのトレーニングデータは主にGoogleが所有するYouTubeプラットフォームから得られていると示唆しました。彼は、膨大な数のYouTube動画を見ることで、Veoは世界の物理法則を学習できると述べています。
Googleは以前、同社のモデルはYouTubeクリエイターとの契約に基づき、「一部」のYouTubeコンテンツからトレーニングされる「可能性がある」と述べていました。報告によると、Googleは昨年、AIモデルのトレーニングに必要なデータの取得を可能にするため、サービス利用規約を拡大しました。この戦略は、Googleが市場の需要を満たすためにAI技術の能力向上に積極的に取り組んでいることを示しています。
AI技術の急速な発展に伴い、Googleのこの計画は、マルチモーダルAIへの業界の関心の高さと、将来の可能性のある方向性を反映しています。GeminiとVeoを組み合わせたモデルは、ユーザーにより豊かなインタラクティブな体験を提供し、AIが日常生活により良く統合されるのに役立ちます。
要点:
- 🤖 Googleは、物理世界への理解を深めるため、GeminiとVeo AIモデルを統合する計画です。
- 🎥 Veoモデルのトレーニングデータは主にYouTubeから取得され、膨大な数の動画を使用して物理法則を学習します。
- 🌐 AI業界は、増加する市場需要に応えるため、マルチモーダルな「万能」モデルへと進化しています。