La société de clonage vocal Resemble AI a lancé la nouvelle génération de son modèle de détection de deepfakes, affichant une précision d'environ 94 %. Detect-2B utilise une série de sous-modèles pré-entraînés et un réglage fin pour examiner les extraits audio et déterminer s'ils ont été générés par une IA. DETECT-2B est capable de détecter des audios dans plus de 30 langues en seulement 200 millisecondes, avec une très haute précision (plus de 94 %). Grâce à cette technologie efficace et multilingue, nous pouvons lutter efficacement contre la fraude audio générée par l'IA.
Accès au produit :https://top.aibase.com/tool/detect-2b
Dans un billet de blog, la société a déclaré : « Construit sur les bases solides de notre modèle Detect initial, DETECT-2B a réalisé des progrès significatifs en termes d'architecture du modèle, de données d'entraînement et de performances globales. Le résultat est un modèle de détection de deepfakes extrêmement puissant et précis, qui a obtenu des performances exceptionnelles sur un vaste ensemble de données d'extraits audio réels et falsifiés. »
Selon Resemble, les sous-modèles de Detect-2B « sont composés d'un modèle de représentation audio figé et d'un module adaptatif inséré dans ses couches clés ». Le module adaptatif oriente le modèle vers les sons inattendus qui distinguent souvent l'audio réel de l'audio falsifié — c'est-à-dire les sons parasites qui restent dans l'enregistrement. La plupart des extraits audio générés par l'IA sonnent « trop propres ». Detect-2B peut prédire les parties générées par l'IA dans l'audio sans avoir à réentraîner le modèle à chaque fois qu'il écoute un nouvel extrait. Les sous-modèles sont également entraînés sur des ensembles de données à grande échelle.
Detect-2B agrège ses scores de prédiction et les compare à « un seuil finement ajusté », puis détermine si l'enregistrement est réel ou falsifié. Resemble indique que ses chercheurs ont conçu Detect-2B de manière à le rendre plus rapide à entraîner, sans nécessiter beaucoup de ressources de calcul pour le déploiement.
L'architecture du modèle est basée sur Mamba-SSM, ou modèle espace-état, qui ne repose pas sur des données statiques ou des motifs répétitifs. Au lieu de cela, il utilise un modèle probabiliste stochastique, plus réactif aux différentes variables. Resemble indique que cette architecture fonctionne bien pour la détection audio car elle capture les différentes dynamiques des extraits audio, s'adapte aux différents états du signal audio et continue de fonctionner même si la qualité de l'enregistrement est médiocre.
Pour évaluer le modèle, Resemble indique avoir testé Detect-2B, y compris des locuteurs inconnus, des audios générés par deepfakes et différentes langues. La société affirme que le modèle a correctement détecté des audios deepfakes dans six langues différentes avec une précision d'au moins 93 %.
Resemble a lancé sa plateforme vocale IA Rapid Voice Cloning en avril. Detect-2B sera disponible via une API et pourra être intégré à différentes applications.
Resemble n'est pas la seule société à s'attaquer à la détection des clones IA. McAfee a lancé en janvier le projet Mockingbird pour détecter les audios IA. Quant à Meta, elle développe une méthode pour ajouter des filigranes aux audios générés par l'IA.
Points clés :
- Le modèle Detect-2B de Resemble AI est un modèle de détection de deepfakes de nouvelle génération, avec une précision de 94 %.
- Detect-2B utilise des sous-modèles pré-entraînés et un réglage fin pour examiner les extraits audio et déterminer s'ils ont été générés par une IA.
- L'architecture du modèle est basée sur un modèle probabiliste stochastique, plus sensible aux différentes dynamiques du signal audio, et offre d'excellentes performances dans la détection d'audios deepfakes dans différentes langues.