Gemini AIによるトレーニングで、Googleがロボットのナビゲーションとタスク実行能力を向上

AIbase

公開日AIニュース · 1 分で読めます · Jul 12, 2024

175

Googleは、Gemini AIを使用してロボットをトレーニングし、ナビゲーションとタスク実行能力を向上させています。

DeepMindのロボットチームは、新しい研究論文で、Gemini 1.5 Proの長いコンテキストウィンドウを活用することで、ユーザーが自然言語の指示でRT-2ロボットとより簡単にやり取りできるようにする方法を詳しく説明しています。指定されたエリアのビデオツアーを撮影することで、研究者たちはGemini 1.5 Proを使ってロボットにビデオを「視聴」させ、環境を理解させました。これにより、ロボットは観察に基づいて、電源コンセントで充電するようユーザーを案内するなど、命令を実行できるようになりました。

DeepMindによると、Geminiを搭載したロボットは、9000平方フィート以上の作業エリアで50以上のユーザー指示を成功率90％で実行しました。

さらに、研究者たちは、Gemini 1.5 Proにより、ロボットはナビゲーションだけでなく、指示をどのように実行するかを計画できることも発見しました。例えば、テーブルの上に多くのコーラ缶が置かれている状況で、ユーザーが自分の好きな飲み物があるかどうかロボットに尋ねると、Geminiはロボットに冷蔵庫を確認しに行く必要があることを認識させ、その後ユーザーに結果を報告させました。DeepMindは、これらの結果についてさらに調査を進めると述べています。

研究論文によると、Googleが提供するビデオデモは印象的ですが、論文に示されているように、ロボットはこれらの指示を処理するのに10～30秒かかります。より高度な環境マッピングロボットと家を共有するまでにはまだ時間がかかるかもしれませんが、少なくともこれらのロボットは、紛失した鍵や財布を見つけるのに役立つ可能性があります。

要点：
🤖 Gemini AIがロボットをトレーニングし、ナビゲーションとタスク実行能力を向上
🧠 Gemini 1.5 Proにより、ロボットは自然言語の指示を実行可能に
🔍 研究により、Geminiはロボットがナビゲーションを超えた指示の実行計画を可能にすると判明

AI音楽生成モデルMusiConGen：Transformerを用いた音楽生成、リズムとコードの精密制御

MusiConGenモデルは、事前学習済みのMusicGen-melodyフレームワークを微調整したもので、様々なスタイルの音楽片段の生成に使用されます。研究チームは、コードとリズムの制御パラメータを設定することで、生成された音楽サンプルを提示しており、リラックスしたブルース、スムーズなアシッドジャズ、クラシックロック、ハイエナジーファンク、ヘヴィメタルの5つの異なるスタイルを含んでいます。

マスクのxAI、来月Grok 2発表、Grok 3は12月発表予定

イーロン・マスクは、xAIが来月、GPT-4と同等の性能を持つAIモデルGrok 2を発表し、12月にはさらに強力なGrok 3を発表する予定であると発表しました。Grok 3はメンフィスデータセンターで15,000個以上のGPUを用いた大規模なトレーニングが行われています。一部のテスラビデオデータはまだモデルのトレーニングに利用されていませんが、ChatGPTとの比較ではGrokはまだいくつかの点で劣っていることが示されています。Xの買収という文脈においては、キャッチアップには時間が必要です。

小紅書、世界初の「AIコンビニ」を開設 AI関連の優れた投稿に3万～50万PVの支援

小紅書は先日、「科技薯」アカウントを立ち上げ、世界初のAIコンビニ創業プロジェクトを開始しました。全網の優れたクリエイターやテクノロジー企業と協力し、AIの最先端技術、有益な情報、感情的な体験などを提供するコンテンツを配信します。このコンビニでは、@趙純想氏などのクリエイティブなAI製品、例えば食事補助、AI式ラーメンレシピ、AIによる頸椎病治療、林亦LYi氏の家伝のAI治療、AIによる母親の未完成の仕事の完了支援などが販売されています。「科技薯」はまた、イベントを開催し、#AIコンビニを使用してAI関連の投稿を作成した投稿者に3万〜50万PVの支援を提供します。

AI界に衝撃！Llama 3.1リーク：4050億パラメーターのオープンソース巨獣襲来！

最近、4050億パラメーターを持つオープンソースの大規模言語モデルLlama 3.1がRedditでリークされ、大きな注目を集めています。現在、GPT-4に最も近いオープンソース製品と見なされており、一部の性能ではGPT-4を上回るとさえ言われています。Meta（旧Facebook）によってリリースされたこのモデルは、ベースモデルと70Bバージョンのベンチマーク結果を含んでおり、複数の性能テストでGPT-4を上回っています。Llama 3.1は、多言語サポート能力と広範なトレーニングデータセット（15Tトークン以上）を備えています。