Waymoは最近、自動運転タクシーの開発に使用する、Googleのマルチモーダル大規模言語モデル(MLLM)Geminiをベースにした新しいトレーニングモデルの開発という大きな進歩を発表しました。この新しいモデルはEMMA(自動運転エンドツーエンドマルチモーダルモデル)と呼ばれ、センサーデータの処理を通じて自動運転車の将来の軌跡を生成し、無人運転車がどこへ行き、どのように障害物を回避するかを決定するのに役立ちます。

QQ20241031-093704.png

EMMAモデルは、自動運転分野をリードする企業が運用でMLLMを使用する最初の兆候の一つであり、これらのLLMが、現在のチャットボット、メールマネージャー、画像ジェネレーターとしての用途を超えて、全く新しい道路環境で応用が見つかることを示しています。

Waymoの研究チームは、GeminiのようなMLLMが自動運転システムに魅力的な解決策を提供すると述べています。その理由は2つあります。チャットボットは「万能選手」であり、インターネットから収集された大量のデータでトレーニングされているため、「通常の運転ログに含まれる情報以上の豊富な『世界知識』を提供できる」こと、そして「思考連鎖推論」などの技術を通じて「卓越した」推論能力を示し、複雑なタスクを論理的な一連のステップに分解することで人間の推論を模倣できることです。

WaymoのEMMAモデルは、軌跡予測、物体検出、道路地図の理解において優れた性能を示していますが、限界もあります。例えば、LiDARやレーダーからの3Dセンサー入力を取り込むことができず、一度に処理できる画像フレーム数が少ないことです。MLLMを使用して自動運転タクシーをトレーニングすることには、モデルが幻覚を起こしたり、単純なタスクを完了できなかったりするなどのリスクもあります。

そのため、Waymoはこれらの問題を軽減し、自動運転モデルアーキテクチャの最新技術をさらに発展させるために、さらなる研究が必要であるとしています。