グーグル、GeminiとVeo AIモデルを統合し、スマートアシスタントを進化させる計画

AIbase基地

公開日AIニュース · 1 分で読めます · Apr 11, 2025

最近のポッドキャスト番組で、Google DeepMindのCEOであるデミス・ハサビス氏は、Googleが最終的にGemini AIモデルと動画生成モデルVeoを統合し、Geminiの物理世界に対する理解を向上させる計画であると述べました。彼は、Geminiは最初からマルチモーダル設計を目的としており、「汎用デジタルアシスタント」を目指しており、現実世界でユーザーを真に支援することを目指していると指摘しました。

Googleの大規模言語モデルGemini

ハサビス氏は、AI業界が様々なメディア形式を理解し合成できる「万能」モデルへと徐々に進化しつつあると述べました。例えば、Googleの最新のGeminiモデルはテキストや画像だけでなく、音声も生成できます。また、OpenAIのChatGPTのデフォルトモデルも既に画像をネイティブに作成できます。さらに、Amazonも今年中に「何でもあり」のモデルを発表すると発表しています。

これらの万能モデルを実現するには、画像、動画、音声、テキストなど、大量のトレーニングデータが必要です。ハサビス氏は、Veoモデルのトレーニングデータは主にGoogleが所有するYouTubeプラットフォームから得られていると示唆しました。彼は、膨大な数のYouTube動画を見ることで、Veoは世界の物理法則を学習できると述べています。

Googleは以前、同社のモデルはYouTubeクリエイターとの契約に基づき、「一部」のYouTubeコンテンツからトレーニングされる「可能性がある」と述べていました。報告によると、Googleは昨年、AIモデルのトレーニングに必要なデータの取得を可能にするため、サービス利用規約を拡大しました。この戦略は、Googleが市場の需要を満たすためにAI技術の能力向上に積極的に取り組んでいることを示しています。

AI技術の急速な発展に伴い、Googleのこの計画は、マルチモーダルAIへの業界の関心の高さと、将来の可能性のある方向性を反映しています。GeminiとVeoを組み合わせたモデルは、ユーザーにより豊かなインタラクティブな体験を提供し、AIが日常生活により良く統合されるのに役立ちます。

要点:
- 🤖 Googleは、物理世界への理解を深めるため、GeminiとVeo AIモデルを統合する計画です。
- 🎥 Veoモデルのトレーニングデータは主にYouTubeから取得され、膨大な数の動画を使用して物理法則を学習します。
- 🌐 AI業界は、増加する市場需要に応えるため、マルチモーダルな「万能」モデルへと進化しています。

Gemini Veo マルチモーダル汎用デジタルアシスタント

この記事はAIbaseデイリーからのものです

【AIデイリー】へようこそ！ここは、毎日人工知能の世界を探求するためのガイドです。毎日、開発者に焦点を当て、技術トレンドを洞察し、革新的なAI製品アプリケーションを理解するのに役立つ、AI分野のホットなコンテンツをお届けします。

—— AIbase デイリーグループによって作成

グーグル、サムスンへの巨額資金提供でGeminiアプリプリインストールを促進か

Apr 28, 2025

国内初のマルチモーダルAIプログラマーが正式に職場へ　文心快码CodingインテリジェントエージェントZulu正式リリース

百度Create AI開発者会議が北京で開催されました。この注目を集めるテクノロジーイベントで、百度は文心快码3.5バージョンと、国内初のマルチモーダルAIプログラマーである文心快码Comate Zuluインテリジェントエージェントを正式にリリースし、AIプログラミングツールの新たな発展段階への到来を示しました。

Apr 27, 2025

グーグル、独占裁判でサムスンへのGeminiアプリプリインストール対価として巨額支払い

Apr 27, 2025

芯驰、次世代4ナノメートルAIコックピットチップX10を発表、インテリジェント運転体験を向上

芯馳科技が、次世代の4ナノメートルAIコックピットチップX10を発表しました。このチップは、高度なAI機能と70億パラメーターのマルチモーダル大規模モデルを搭載し、インテリジェント運転体験を大幅に向上させます。よりスムーズで安全な運転を実現する革新的な技術が搭載されています。

Apr 27, 2025

Ema、新型言語モデルEmaFusionを発表：コストと精度においてO3、Geminiを凌駕

AI業界の競争が激化する中、Ema社は新型言語モデルEmaFusionを発表しました。コストと精度において、O3、Gemini、Sonnetを含む複数の著名なAIモデルを上回ると主張しています。従来の単一戦略システムとは異なり、EmaFusionは「カスケード」判定システムを採用し、コストと精度を動的にバランスさせることができます。また、ユーザーは具体的なタスクのニーズに合わせて微調整することも可能です。Emaの最高経営責任者Sur…

Apr 27, 2025

Moonshot AIがKimi-Audioを発表：オープンソースの音声基礎モデルが新たな基準を確立

この度、Moonshot AIは、音声の理解、生成、インタラクション分野における技術の進歩を促進することを目的とした、全く新しいオープンソースの音声基礎モデルであるKimi-Audioを発表しました。この発表は、世界中のAIコミュニティから大きな注目を集め、マルチモーダルAI発展における重要なマイルストーンとみなされています。以下は、Kimi-Audioの主要な特徴、パフォーマンス、業界への影響に関する包括的なレポートです。画期的な特徴：万能な音声処理能力Kimi-Audio-7B-InstructはQwenに基づいています。

Apr 27, 2025

グーグルのGeminiチャットボット、スマートウォッチと車に拡大、Googleアシスタントに取って代わる

グーグルのサンダー・ピチャイCEOは、次世代チャットボットGeminiが、年内にスマートウォッチ、Android Auto、その他のデバイスに搭載されることを発表しました。この計画により、Googleアシスタントは段階的にGeminiに置き換えられ、ユーザーエクスペリエンスが向上します。Geminiは現在、モバイルアプリとウェブ上で利用可能ですが、スマートウォッチ、車、その他のスマートデバイスへの展開が予定されています。

Apr 25, 2025

Meta、WebSSLモデルを発表：言語不要のビジョン学習における新たな探求

人工知能の分野において、Meta社は最近、WebSSLシリーズモデルを発表しました。このシリーズモデルは、パラメータ規模が3億から70億と異なり、純粋な画像データに基づいてトレーニングされ、言語なしの監督によるビジョン自己教師あり学習（SSL）の可能性を探求することを目的としています。この新たな研究は、将来のマルチモーダルタスクに新たな可能性をもたらし、ビジョン表現の学習方法の理解についても新たな視点を与えてくれます。これまで、OpenAIのCLIPモデルは、ビジュアル質問応答（VQA）や文書理解などのマルチモーダルタスクにおける優れた性能で知られていました。

Apr 25, 2025

グーグルAI概要：月間ユーザー15億人超え、スマートツールが継続的に進化

Apr 25, 2025

ステップスターとゲンリキ・インテリジェンスが戦略的提携

ステップスターとゲンリキ・インテリジェンスは北京において戦略的提携契約を締結しました。両社はそれぞれの技術的優位性を活かし、マルチモーダル大規模言語モデル技術、インテリジェントターミナルエージェント、エンボディッドAIのシナリオにおいて緊密な協力を展開します。今回の提携の目標は「物理世界における推論の実現」であり、共同で「RoboAgent」と呼ばれるインテリジェントロボットを開発し、汎用人工知能（AGI）の現実世界への応用を推進することです。調印式には、ステップスターの創業者兼CEOである姜大昕博士とゲンリキ・インテリジェンスの共同創業者が出席しました。

Apr 24, 2025

AIニュース

AIデイリー

AIタイムライン

Alハードウェアです

最新事例

画像コレクション

ビデオコレクション

オーディオコレクション

コンテンツコレクション

最新チュートリアル

AIプロダクトランキング

AIトラフィック成長ランキング

AIトラフィック減少ランキング

AI週間ランキング

アメリカ合衆国

中国

インド

ブラジル

画像生成

パーソナルアシスタント

キャラクター生成

ビデオ生成

AIプロジェクトランキング

AIプロジェクト成長ランキング

AI開発者ランキング

AI組織ランキング

Deepseek

TTS

LLM

ChatGPT

概要

グーグル、GeminiとVeo AIモデルを統合し、スマートアシスタントを進化させる計画

AIbase基地

この記事はAIbaseデイリーからのものです

関連AIニュースの推奨

グーグル、サムスンへの巨額資金提供でGeminiアプリプリインストールを促進か

国内初のマルチモーダルAIプログラマーが正式に職場へ 文心快码CodingインテリジェントエージェントZulu正式リリース

グーグル、独占裁判でサムスンへのGeminiアプリプリインストール対価として巨額支払い

芯驰、次世代4ナノメートルAIコックピットチップX10を発表、インテリジェント運転体験を向上

Ema、新型言語モデルEmaFusionを発表：コストと精度においてO3、Geminiを凌駕

Moonshot AIがKimi-Audioを発表：オープンソースの音声基礎モデルが新たな基準を確立

グーグルのGeminiチャットボット、スマートウォッチと車に拡大、Googleアシスタントに取って代わる

Meta、WebSSLモデルを発表：言語不要のビジョン学習における新たな探求

グーグルAI概要：月間ユーザー15億人超え、スマートツールが継続的に進化

ステップスターとゲンリキ・インテリジェンスが戦略的提携

国内初のマルチモーダルAIプログラマーが正式に職場へ　文心快码CodingインテリジェントエージェントZulu正式リリース