音声クローン技術で先進的な企業であるResemble AIは、最新世代のディープフェイク検出モデル「Detect-2B」を発表しました。この新しいモデルは、AI生成音声の検出において約94%の高い精度を達成し、ディープフェイク検出技術の大きな進歩を示しています。
Detect-2Bは、事前にトレーニングされた複数のサブモデルとファインチューニング技術を用いて、音声片段を詳細に検査し、AI生成かどうかを判定します。Resemble AIのブログによると、Detect-2Bは従来のDetectモデルをベースに、モデルアーキテクチャ、トレーニングデータ、全体的な性能において大幅な飛躍を遂げ、非常に堅牢で正確な検出モデルを実現しました。
Detect-2Bのサブモデルは、固定された音声表現モデルと、重要な層を挿入した適応モジュールで構成されています。これらの適応モジュールは、録音中に残る予期せぬ音、つまり人工物にモデルの焦点をシフトさせます。これらの音は、通常、本物の音声とAI生成の音声を区別する手がかりとなります。AI生成音声はしばしば「あまりにもきれいすぎる」傾向がありますが、Detect-2Bは、新しい片段を聴くたびにモデルを再トレーニングすることなく、音声のAI生成確率を予測できます。
画像出典:AI生成画像、画像ライセンス提供元Midjourney
Resemble AIはまた、Detect-2BのアーキテクチャはMamba-SSM(状態空間モデル)に基づいていると述べています。これらのモデルは静的なデータや繰り返しパターンに依存せず、確率的または確率モデルを用いるため、様々な変数への反応がより良好です。このアーキテクチャは、音声片段の様々なダイナミクスを捉え、音声信号の状態に適応できるため、音声検出に非常に適しており、録音品質が低い場合でも機能し続けます。
モデル性能の評価において、Resemble AIは、Detect-2Bに対して広範なテストを実施しました。これには、未知の話者、ディープフェイクで生成された音声、そして様々な言語が含まれます。同社によると、このモデルは、6種類の異なる言語のディープフェイク音声に対して、少なくとも93%の精度で正しく検出できるとしています。
Resemble AIは4月にAI音声プラットフォーム「Rapid Voice Cloning」を発表しました。Detect-2BはAPIを通じて提供され、様々なアプリケーションに統合でき、企業に強力なディープフェイク検出ツールを提供します。
2024年の米国大統領選挙が近づくなか、AI生成の音声や動画を識別することがますます重要になっています。AI音声は、有権者を誤解させ、誤った情報を拡散することを容易にする可能性があり、ブランドに対する信頼を損なう可能性があります。Detect-2Bなどのツールは、ディープフェイクが公衆の知るところとなる前に、それらを識別し、その偽造性を証明するのに役立ちます。
AIクローン検出に取り組んでいるのはResemble AIだけではありません。McAfeeは1月にAI音声検出のための「Project Mockingbird」を開始し、MetaはAI生成音声に透かしを追加する方法を開発しています。
Resemble AIは、生成AIの能力が向上するにつれて、検出能力も向上させる必要があると述べています。同社は、表現学習、高度なモデルアーキテクチャ、データ拡張などの分野に重点を置いた、Detect-2Bをさらに改良するためのいくつかのエキサイティングな研究方向を計画しています。これは、Resemble AIがディープフェイク技術の課題に対処するために継続的なイノベーションに尽力していることを示しています。