Resemble AI, une société leader dans le clonage vocal, a récemment annoncé le lancement de son modèle de détection de deepfakes nouvelle génération, Detect-2B. Ce nouveau modèle affiche un taux de précision d'environ 94 % dans la détection d'audio généré par IA, marquant une avancée majeure dans la technologie de détection des deepfakes.
Detect-2B utilise une série de sous-modèles pré-entraînés et des techniques de réglage fin pour examiner en profondeur les extraits audio afin de déterminer s'ils ont été générés par IA. Resemble AI a déclaré sur son blog que Detect-2B représente un bond significatif par rapport au modèle Detect initial, avec des améliorations majeures de l'architecture du modèle, des données d'entraînement et des performances globales, créant ainsi un modèle de détection extrêmement robuste et précis.
Les sous-modèles de Detect-2B sont composés d'un modèle de représentation audio figé et de modules adaptatifs insérés dans des couches clés. Ces modules adaptatifs déplacent l'attention du modèle vers les artéfacts, c'est-à-dire les sons inattendus laissés dans l'enregistrement, qui permettent généralement de distinguer l'audio réel de l'audio généré par IA. L'audio généré par IA a tendance à paraître « trop propre », et Detect-2B est capable de prédire la probabilité qu'un audio soit généré par IA, sans avoir besoin de réentraîner le modèle à chaque écoute d'un nouveau fragment.
Source : Image générée par IA, fournisseur de services d'autorisation d'images : Midjourney
Resemble AI a également mentionné que l'architecture de Detect-2B est basée sur des modèles Mamba-SSM ou modèles espace-état. Ces modèles ne s'appuient pas sur des données statiques ou des motifs répétitifs, mais utilisent des modèles aléatoires ou probabilistes aléatoires, réagissant mieux aux différentes variables. Cette architecture est particulièrement bien adaptée à la détection audio car elle permet de capturer les différentes dynamiques des extraits audio, de s'adapter à l'état du signal audio et de continuer à fonctionner même si la qualité de l'enregistrement est médiocre.
Lors de l'évaluation des performances du modèle, Resemble AI a mené des tests approfondis de Detect-2B, y compris des locuteurs inconnus, de l'audio généré par deepfakes et différentes langues. La société a déclaré que le modèle était capable de détecter correctement l'audio deepfake de six langues différentes avec une précision d'au moins 93 %.
Resemble AI a lancé sa plateforme vocale IA Rapid Voice Cloning en avril. Detect-2B sera disponible via une API et pourra être intégré à différentes applications, offrant aux entreprises un puissant outil de détection des deepfakes.
À l'approche de l'élection présidentielle américaine de 2024, il est de plus en plus important de pouvoir identifier les sons ou vidéos générés par l'intelligence artificielle. Les voix artificielles pourraient faciliter la désinformation des électeurs et la propagation de fausses informations, érodant ainsi la confiance dans les marques. Des outils comme Detect-2B peuvent aider à identifier et à prouver ces faux avant qu'ils ne soient connus du public.
Resemble AI n'est pas la seule société à s'engager dans la détection des clones IA. McAfee a lancé Project Mockingbird en janvier pour détecter l'audio IA, tandis que Meta développe une méthode pour ajouter des filigranes à l'audio généré par IA.
Resemble AI indique que, parallèlement aux progrès constants des capacités de l'IA générative, ses capacités de détection doivent également progresser. Ils ont prévu plusieurs axes de recherche passionnants pour améliorer encore Detect-2B, en se concentrant sur l'apprentissage des représentations, les architectures de modèles avancés et l'augmentation des données. Cela montre l'engagement de Resemble AI envers l'innovation continue pour relever les défis posés par la technologie des deepfakes.