Das Soundklon-Unternehmen Resemble AI hat die nächste Generation seines Deepfake-Erkennungsmodells veröffentlicht, das eine Genauigkeit von etwa 94 % erreicht. Detect-2B verwendet eine Reihe von vortrainierten Submodellen und Feineinstellungen, um Audiosegmente zu überprüfen und festzustellen, ob sie von KI generiert wurden. DETECT-2B kann mit einer sehr hohen Genauigkeit (über 94 %) innerhalb von nur 200 Millisekunden Audio in über 30 Sprachen erkennen. Mit dieser effizienten, mehrsprachigen Technologie können wir KI-generierten Audiobetrug effektiv bekämpfen.

image.png

Produktzugang:https://top.aibase.com/tool/detect-2b

Das Unternehmen erklärte in einem Blogbeitrag: „Aufbauend auf der soliden Grundlage unseres ursprünglichen Detect-Modells hat DETECT-2B erhebliche Fortschritte in der Modellarchitektur, den Trainingsdaten und der Gesamtleistung erzielt. Das Ergebnis ist ein extrem leistungsstarkes und präzises Deepfake-Erkennungsmodell, das auf einem umfangreichen Datensatz aus echten und gefälschten Audiosegmenten eine außergewöhnliche Leistung erzielt hat.“

image.png

Laut Resemble bestehen die Submodelle von Detect-2B „aus einem eingefrorenen Audio-Repräsentationsmodell und einem adaptiven Modul, das in seine wichtigen Schichten eingefügt wird“. Das adaptive Modul lenkt den Fokus des Modells auf unerwartete Geräusche, die oft echte und gefälschte Audios unterscheiden – also unerwartete Geräusche, die in der Aufnahme verbleiben. Die meisten KI-generierten Audiosegmente klingen „zu sauber“. Detect-2B kann KI-generierte Teile in Audio vorhersagen, ohne das Modell bei jedem neuen Segment neu trainieren zu müssen. Die Submodelle werden auch mit einem umfangreichen Datensatz trainiert.

Detect-2B fasst seine Vorhersagewerte zusammen und vergleicht sie mit „einem sorgfältig abgestimmten Schwellenwert“, um dann zu bestimmen, ob die Aufnahme echt oder gefälscht ist. Resemble gibt an, dass seine Forscher Detect-2B so aufgebaut haben, dass es schneller trainiert werden kann und weniger Rechenressourcen für den Einsatz benötigt.

Die Architektur des Modells basiert auf Mamba-SSM oder Zustandsraummodellen, die nicht von statischen Daten oder sich wiederholenden Mustern abhängen. Stattdessen verwendet es ein stochastisches Wahrscheinlichkeitsmodell, das auf verschiedene Variablen stärker reagiert. Resemble gibt an, dass diese Architektur bei der Audioerkennung gut funktioniert, da sie die unterschiedlichen Dynamiken in Audioclips erfasst, sich an die verschiedenen Zustände des Audiosignals anpasst und auch bei schlechterer Aufnahmequalität weiterhin funktioniert.

Um das Modell zu evaluieren, erklärt Resemble, dass sie Detect-2B getestet haben, einschließlich unbekannter Sprecher, KI-generierter Audios und verschiedener Sprachen. Das Unternehmen behauptet, dass das Modell Deepfake-Audios in sechs verschiedenen Sprachen mit einer Genauigkeit von mindestens 93 % korrekt erkannt hat.

Resemble hat im April seine KI-Sprachplattform Rapid Voice Cloning vorgestellt. Detect-2B wird über eine API bereitgestellt und kann in verschiedene Anwendungen integriert werden.

Resemble ist nicht das einzige Unternehmen, das sich mit der Erkennung von KI-Klonen befasst. McAfee hat im Januar das Projekt Mockingbird zur Erkennung von KI-Audio vorgestellt. Meta entwickelt derweil eine Methode, um KI-generiertes Audio mit Wasserzeichen zu versehen.

Wichtigste Punkte:

- Das von Resemble AI veröffentlichte Detect-2B-Modell ist ein Deepfake-Erkennungsmodell der nächsten Generation mit einer Genauigkeit von 94 %.

- Detect-2B verwendet vortrainierte Submodelle und Feineinstellungen, um Audiosegmente zu überprüfen und zu bestimmen, ob sie von KI generiert wurden.

- Die Architektur des Modells basiert auf einem stochastischen Wahrscheinlichkeitsmodell, das auf die unterschiedlichen Dynamiken des Audiosignals empfindlicher reagiert und bei der Erkennung von Deepfake-Audios in verschiedenen Sprachen hervorragende Leistungen erbringt.