Meta、AIシステムMoChaを発表：テキストが生き生きとしたアニメキャラクターに、口パクと動きは自然で滑らか

AIbase基地

公開日AIニュース · 1 分で読めます · Apr 2, 2025

Metaとウォータールー大学の研究者らが共同で開発した、MoChaという新しいAIシステムが発表されました。これは、簡単なテキストの説明から、同期した音声と自然な動きを伴う完全なアニメーションキャラクターを生成できる画期的なシステムです。この革新的な技術は、コンテンツ制作の効率と表現力を大幅に向上させ、様々な分野で大きな可能性を秘めています。

従来を打破、全身アニメーションと正確な口パク同期

これまでのAIモデルが顔の表情に重点を置いていたのに対し、MoChaの最大の特徴は、全身の自然な動きをレンダリングできる点にあります。近距離でも半近距離でも、テキストの内容に基づいて、唇の同期、ジェスチャー、複数キャラクター間のインタラクションなど、細やかな動きを生成できます。初期のデモでは主に上半身に焦点を当て、キャラクターの口パクが会話内容と正確に一致し、ボディランゲージもテキストの意味と自然に調和している様子が示されました。

より正確な唇の同期を実現するため、研究チームは「音声-ビデオウィンドウアテンション」メカニズムという革新的な手法を導入しました。このメカニズムは、AIビデオ生成における長年の課題である、高解像度のオーディオを維持しながらビデオ処理における情報圧縮と、並列ビデオ生成における口パクのずれの問題を効果的に解決します。その核心は、各フレームの画像が特定のウィンドウ範囲内のオーディオデータのみにアクセスするよう制限する点にあります。この方法は、人間の音声の動作様式、つまり口の動きは瞬時の音に依存し、ボディランゲージはより広いテキストパターンに従うという点を模倣しています。各オーディオの前後にマーカーを追加することで、MoChaはよりスムーズなトランジションとより正確な唇の同期効果を生み出します。

複数キャラクターの容易な管理、シンプルで効率的なプロンプトシステム

複数キャラクターを含むシーンを処理する場合、MoChaチームはシンプルで効率的なプロンプトシステムを開発しました。ユーザーは一度だけキャラクター情報を定義すれば、「Person1」、「Person2」などの簡単なタグを使用して、異なるシーンでこれらのキャラクターを参照できます。この方法により、キャラクターの繰り返し記述による煩雑な作業を回避し、複数キャラクターアニメーションの作成をより容易にします。

優れた性能、同等のシステムを凌駕

150種類の異なるシーンでのテストの結果、MoChaは唇の同期と自然な動きの質において、同等のシステムを上回りました。独立した評価者から、MoChaが生成したビデオのリアルさについて高い評価を得ています。テスト結果から、MoChaはあらゆる指標において競合他社を凌駕する能力を示しました。

Metaの研究チームは、MoChaがデジタルアシスタント、バーチャルアバター、広告、教育コンテンツなどの分野で大きな可能性を秘めていると考えています。しかし、Metaは、このシステムがオープンソース化されるか、それとも研究プロトタイプとして残るのかについては明らかにしていません。注目すべきは、MoChaの開発は、主要なソーシャルメディア企業がAI駆動のビデオ技術の開発を競っている重要な時期に行われているということです。

以前、MetaはMovieGenを発表しており、TikTokの親会社であるバイトダンスも、INFP、OmniHuman-1、Gokuなど、独自のAIアニメーションシステムを積極的に開発しています。このAIビデオ技術の競争は、間違いなく関連技術の進歩と普及を加速させるでしょう。

プロジェクト入口：https://top.aibase.com/tool/mocha

Meta Ray-Banスマートグラス、リアルタイム翻訳機能を全世界展開オフライン利用も可能に

Meta社は先日、Ray-Ban Metaスマートグラスのリアルタイム翻訳機能が全世界のユーザーに向けて正式に公開されたことを発表しました。以前は、この機能は一部市場の早期テストユーザーのみに限定されていました。今回の全世界展開により、ユーザーは様々な場面で、より便利でスムーズな言語変換体験を得ることができ、特にネットワーク環境のない場所でも、言語の壁を克服できます。Metaの公式発表によると、Ray-Ban Metaスマートグラスのリアルタイム翻訳機能は現在、世界中の販売市場を対象に、英語、フランス語、イタリア語などをサポートしています。

Meta、Ray-Banスマートグラスにリアルタイム翻訳機能を追加

Meta社は先日、Ray-Banスマートグラスにリアルタイム翻訳、Instagramメッセージと通話機能など、複数の新機能を追加したと発表しました。これらの機能は当初、Metaの先行体験プログラム参加者に限定されていましたが、現在では全てのRay-Banスマートグラスユーザーに公開されています。リアルタイム翻訳機能は、2024年のMeta Connectカンファレンスで初公開され、昨年12月には一部の国で限定的なテストが行われました。現在、ユーザーは対応地域で…

Meta、AIで年齢詐称するティーンエイジャーのInstagramアカウントを保護モードで開始

Meta社は、Instagramプラットフォーム上のティーンエイジャーユーザーの年齢を識別するために、人工知能（AI）技術を利用すると発表しました。これは、ユーザーが年齢を偽って登録することを防ぎ、青少年のオンライン上の安全性を高め、保護された環境でソーシャルメディアを利用できるようにすることを目的としています。Metaによると、システムがアカウントがティーンエイジャーのものであると疑わしいと検知した場合、ユーザーが大人の誕生日情報を入力していても、自動的に「ティーンエイジャーアカウント」モードに切り替えられます。Instagramは昨年から、…

Apple Intelligence機能制限：Metaアプリの禁止がAI競争の議論を呼ぶ

海外メディアの報道によると、Appleが最近発表したApple Intelligence機能は、Meta傘下のアプリ（Facebook、Instagram、WhatsApp、Threadsなど）で使用できなくなり、ライティングツール(Writing Tools)やカスタム絵文字ジェネレーター(Genmoji)などの主要機能が利用不可となっています。この措置は、Metaが自社のMeta AIツールの推進戦略と関連があると見られており、両テクノロジー大手間のAI競争を浮き彫りにしています。

英国のAI著作権規制がモデルの偏りとクリエイターの収益減少を招く可能性

近年、政策専門家はAI著作権規制に対し懸念を表明しており、包括的なテキストおよびデータマイニングの免除を提供しなければ、AIモデルの質が低下し、ひいてはイノベーションに悪影響を及ぼす可能性があると指摘しています。OpenAI、Google、Metaなどの企業が英国において著作権材料をAIトレーニングに使用することを禁止すれば、モデル出力の偏りが生じ、その有効性が低下する可能性があると専門家は述べています。英国政府は2024年12月に、クリエイティブコンテンツをAIモデルのトレーニングに使用する場合の保護策を探るための協議を開始しました。

Meta、AIトレーニング再開を発表ヨーロッパのユーザーの公開コンテンツを利用

Metaは先日、ヨーロッパのユーザーが公開したコンテンツを、同社の人工知能モデルのトレーニングに使用開始すると発表しました。これは、データプライバシーの問題で昨年トレーニングを一時停止した後、再開するものです。Metaによると、今回のAIトレーニングは、EU27カ国の成人が共有した公開投稿やコメントを主に利用するとのことです。さらに、ユーザーとMeta AI間のやり取り（質問や問い合わせなど）も、AIモデルのトレーニングと改善に利用されます。画像注記：画像はAIによって生成され、画像ライセンスプロバイダーMidjから提供されています。

Metaの新モデルLlama-4-Maverick、ランキング急落で不正疑惑

先日、Meta社が公開したオープンソースの大規模言語モデルLlama-4-Maverickが、LMArenaのランキングで2位から32位に急落し、開発者から不正疑惑の声が上がっています。Metaが特別なバージョンを提出してランキングを操作した可能性が指摘されています。発端は4月6日、Metaが最新のLlama4（Scout、Maverick、Behemothの3バージョン）を発表したことでした。その中のLl...

Llama 4がVertex AIに登場：Metaの最新モデルをワンクリックでデプロイ、AI開発の新時代へ

先日、Google Cloud Platformは、Vertex AI Model GardenにMetaの最新世代のオープンソース大規模言語モデルLlama 4を正式に導入したと発表し、世界中のテクノロジー業界で大きな話題となっています。Llama 4シリーズのScoutとMaverickの2つのモデルがVertex AIに統合され、完全にマネージドされたモデル・アズ・ア・サービス（MaaS）APIエンドポイントを通じて開発者向けにプレビュー公開されたとのことです。この機能により、