音声クローン企業Resemble AIは、約94%の精度を誇る、次世代ディープフェイク検出モデル「Detect-2B」を発表しました。Detect-2Bは、一連の事前学習済みサブモデルとファインチューニングを用いて音声片段を検査し、AI生成かどうかを判定します。DETECT-2Bは、30以上の言語の音声をわずか200ミリ秒で94%以上の高い精度で検出できます。この効率的で多言語対応の技術により、AI生成音声による詐欺行為に効果的に対処できます。

image.png

製品入口:https://top.aibase.com/tool/detect-2b

同社はブログ記事で、「最初のDetectモデルの堅実な基盤の上に構築されたDETECT-2Bは、モデルアーキテクチャ、トレーニングデータ、全体的なパフォーマンスにおいて大きな進歩を遂げました。その結果、膨大な数の本物と偽の音声片段のデータセットで卓越した性能を発揮する、非常に強力で正確なディープフェイク検出モデルが実現しました。」と述べています。

image.png

Resembleによると、Detect-2Bのサブモデルは「凍結された音声表現モデルと、その主要な層に挿入された適応モジュールで構成されています」。適応モジュールは、本物の音声と偽の音声を識別する際にしばしば現れる、意図しない音(録音に残る予期せぬ音)にモデルの焦点を当てます。AI生成音声片段の多くは「あまりにもきれいすぎる」ため、Detect-2Bは、新しい片段を聴くたびにモデルを再トレーニングすることなく、音声内のAI生成部分を予測できます。サブモデルは、大規模なデータセットでトレーニングされています。

Detect-2Bは予測スコアを集計し、「慎重に調整された閾値」と比較して、録音が本物か偽物かを判定します。Resembleは、研究者らがDetect-2Bを構築した方法は、トレーニング速度を向上させ、展開に多くの計算リソースを必要としないように設計されていると述べています。

このモデルのアーキテクチャはMamba-SSM(状態空間モデル)に基づいており、静的なデータや繰り返しパターンに依存しません。代わりに、確率的確率モデルを使用しており、さまざまな変数により敏感に反応します。Resembleによると、このアーキテクチャは、音声クリップ内のさまざまなダイナミクスを捉え、音声信号のさまざまな状態に適応し、録音品質が低い場合でも動作を継続するため、音声検出において優れた性能を発揮します。

モデルの評価のために、Resembleは、未知の話者、ディープフェイクで生成された音声、さまざまな言語を含むテストをDetect-2Bに実施したと述べています。同社によると、このモデルは、6種類の異なる言語のディープフェイク音声について、少なくとも93%の精度で正しく検出しました。

Resembleは4月にAI音声プラットフォーム「Rapid Voice Cloning」を発表しました。Detect-2BはAPIを通じて提供され、さまざまなアプリケーションに統合できます。

AIクローン検出に取り組んでいるのはResembleだけではありません。McAfeeは1月にAI音声検出のためのプロジェクトMockingbirdを発表し、MetaはAI生成音声に透かしを追加する方法を開発中です。

要点:

- Resemble AIが発表したDetect-2Bモデルは、次世代のディープフェイク検出モデルであり、精度は94%に達します。

- Detect-2Bは、事前学習済みサブモデルとファインチューニングを使用して音声片段を検査し、AI生成かどうかを判断します。

- このモデルのアーキテクチャは確率的確率モデルに基づいており、音声信号のさまざまなダイナミクスにより敏感に反応し、さまざまな言語のディープフェイク音声検出において優れた性能を発揮します。