Récemment, Google a annoncé l'open-source de son outil de filigrane textuel SynthID, visant à aider les développeurs à mieux identifier les textes générés par l'IA. Cet outil est désormais accessible au public via la « boîte à outils IA générative responsable » de Google.

Pushmeet Kohli, vice-président de la recherche chez Google DeepMind, a déclaré que cette technologie permettrait aux autres développeurs d'IA générative de détecter si une sortie textuelle provient de leurs propres grands modèles linguistiques (LLM), ce qui les aidera à construire des applications IA de manière plus responsable.

À notre époque où l'information se propage rapidement, la technologie de filigrane est particulièrement importante. Avec l'utilisation croissante des grands modèles linguistiques pour diffuser de fausses informations politiques, générer du contenu inapproprié, etc., la demande d'outils de filigrane ne cesse d'augmenter. Par exemple, la Californie envisage de rendre le filigrane IA obligatoire, tandis que la Chine l'a déjà rendu obligatoire l'année dernière. Néanmoins, les technologies correspondantes sont encore en constante amélioration.

La technologie SynthID de Google a été dévoilée pour la première fois en août dernier. Elle ajoute des filigranes invisibles aux textes, images, audios et vidéos générés, rendant ainsi les sorties de l'IA plus faciles à identifier.

Plus précisément, SynthID ajuste légèrement la probabilité de chaque mot généré dans la sortie textuelle, de sorte que ces modifications soient reconnaissables par un logiciel mais indétectables par l'homme. Par exemple, lorsque le modèle génère « Mon fruit tropical préféré est __ », il peut choisir des mots comme « mangue », « litchi », « papaye » ou « durian ». Chaque mot a un score de probabilité, et SynthID ajuste ces scores sans affecter la qualité, l'exactitude et la créativité du texte.

Cet ajustement se poursuit tout au long du texte généré. Ainsi, un texte peut comporter plus d'une dizaine de scores ajustés, et une page entière peut en contenir des centaines. Finalement, le motif de ces scores de probabilité ajustés constituera le filigrane. Google indique que le système est intégré à son chatbot Gemini et n'affecte pas la qualité ni la vitesse de génération de texte. Cependant, il rencontre encore quelques défis avec les textes courts, les contenus réécrits ou traduits, et les réponses à des questions factuelles.

Google a indiqué dans un billet de blog : « SynthID n'est pas la clé universelle pour identifier le contenu généré par l'IA, mais il constitue une base importante pour le développement d'outils d'identification de l'IA plus fiables, pouvant aider des millions d'utilisateurs à prendre des décisions plus éclairées. »

Accès au projet : https://ai.google.dev/responsible/docs/safeguards/synthid?hl=fr

Points clés :

📜 SynthID est open-source et aide les développeurs à identifier les textes générés par l'IA.

🛠️ La technologie de filigrane est de plus en plus importante pour lutter contre les fausses informations et les contenus inappropriés.

💡 SynthID de Google ajuste les scores de probabilité de la génération de texte pour créer un filigrane.