グーグル、AIテキスト透かしツールSynthIDをオープンソース化　AI生成コンテンツの識別を容易に

最近、GoogleはAI生成テキストの識別を支援するテキスト透かしツールSynthIDをオープンソース化すると発表しました。このツールは現在、Googleの「責任ある生成AIツールキット」を通じて一般公開されています。

Google (2) (画像提供：図虫：站长之家使用許可済)

Google DeepMindの研究担当副社長であるPushmeet Kohli氏は、この技術により、他の生成AI開発者は、テキスト出力が自社の巨大言語モデル（LLM）によるものかどうかを検出できるようになり、より責任ある方法でAIアプリケーションを構築できるようになると述べています。

情報が急速に伝わる現代において、透かし技術は特に重要です。巨大言語モデルが政治的虚偽情報の拡散や不適切なコンテンツの生成などに利用されるにつれて、透かしツールの需要も高まっています。例えば、カリフォルニア州ではAI透かしを義務付けることを検討しており、中国では昨年から透かしの使用が求められています。それでも、関連技術は依然として改善段階にあります。

GoogleのSynthID技術は、昨年8月に初めて公開されました。これは、生成されたテキスト、画像、音声、ビデオに不可視の透かしを追加することで、AI生成の出力をより容易に識別できるようにします。

具体的には、SynthIDは、生成されたテキストの各単語の確率を微調整することで、ソフトウェアでは識別できるが人間には気づかれない変更を加えます。例えば、モデルが「私の好きな熱帯果物は__。」を生成する場合、「マンゴー」、「ライチ」、「パパイヤ」、「ドリアン」などの単語を選択する可能性があります。各単語には確率スコアがあり、SynthIDはテキストの品質、正確性、創造性に影響を与えることなく、これらのスコアを調整します。

この調整は生成されたテキスト全体で継続的に行われるため、1つのテキストには10個以上の調整スコアが含まれ、1ページの内容には数百個含まれる可能性があります。最終的に、これらの調整された確率スコアの組み合わせが透かしを構成します。Googleは、このシステムがGeminiチャットボットに統合されており、生成されるテキストの品質や速度に影響を与えないと述べています。ただし、短いテキスト、書き換えられたコンテンツ、翻訳されたコンテンツ、事実に関する質問への回答などでは、いくつかの課題が残っています。

Googleはブログ記事で、「SynthIDはAI生成コンテンツを識別するための万能の鍵ではありませんが、より信頼性の高いAI識別ツールの開発のための重要な基盤であり、何百万人ものユーザーがより賢明な意思決定を行うのに役立ちます」と述べています。

プロジェクトへのアクセス:https://ai.google.dev/responsible/docs/safeguards/synthid?hl=ja