Resemble AI, una empresa líder en clonación de voz, anunció recientemente el lanzamiento de su modelo de detección de deepfakes de próxima generación, Detect-2B. Este nuevo modelo ha demostrado una precisión de aproximadamente el 94% en la detección de audio generado por IA, lo que representa un importante avance en la tecnología de detección de deepfakes.
Detect-2B utiliza una serie de submodelos preentrenados y técnicas de ajuste fino para examinar a fondo los fragmentos de audio y determinar si fueron generados por IA. Resemble AI indicó en su blog que Detect-2B, basado en su modelo Detect original, ha logrado un gran salto en la arquitectura del modelo, los datos de entrenamiento y el rendimiento general, creando un modelo de detección extremadamente robusto y preciso.
Los submodelos de Detect-2B constan de un modelo de representación de audio congelado y módulos adaptativos que insertan capas clave. Estos módulos adaptativos cambian el enfoque del modelo hacia los artefactos, es decir, los sonidos inesperados que quedan en la grabación y que suelen distinguir entre audio real y audio generado por IA. El audio generado por IA suele sonar "demasiado limpio", y Detect-2B puede predecir la probabilidad de que un audio haya sido generado por IA sin necesidad de volver a entrenar el modelo cada vez que se escucha un nuevo fragmento.
Nota de la fuente: Imagen generada por IA, proveedor de servicios de licencias de imágenes Midjourney
Resemble AI también mencionó que la arquitectura de Detect-2B se basa en Mamba-SSM o modelos de espacio de estados. Estos modelos no dependen de datos estáticos o patrones repetitivos, sino que utilizan modelos probabilísticos o estocásticos, respondiendo mejor a diferentes variables. Esta arquitectura es ideal para la detección de audio, ya que puede capturar diferentes dinámicas en los fragmentos de audio, adaptarse al estado de la señal de audio e incluso funcionar con una calidad de grabación deficiente.
Al evaluar el rendimiento del modelo, Resemble AI realizó pruebas exhaustivas de Detect-2B, incluyendo hablantes desconocidos, audio generado por deepfakes y diferentes idiomas. La empresa afirmó que el modelo puede detectar correctamente el audio deepfake en seis idiomas diferentes con una precisión de al menos el 93%.
Resemble AI lanzó su plataforma de voz IA Rapid Voice Cloning en abril. Detect-2B se proporcionará a través de una API y se podrá integrar en diferentes aplicaciones, ofreciendo a las empresas una potente herramienta de detección de deepfakes.
Con las elecciones presidenciales estadounidenses de 2024 acercándose, la identificación de voz o vídeo generados por inteligencia artificial se vuelve cada vez más importante. Las voces de IA pueden facilitar la desinformación de los votantes y la propagación de información errónea, minando la confianza en las marcas. Herramientas como Detect-2B pueden ayudar a identificar y verificar estos deepfakes antes de que lleguen al público.
Resemble AI no es la única empresa que se dedica a la detección de clones de IA. McAfee lanzó el Proyecto Mockingbird en enero para detectar audio de IA, mientras que Meta está desarrollando un método para agregar marcas de agua al audio generado por IA.
Resemble AI afirma que, a medida que la capacidad de la IA generativa continúa mejorando, sus capacidades de detección también deben mejorar. Han planeado varias direcciones de investigación emocionantes para mejorar aún más Detect-2B, centrándose en áreas como el aprendizaje de representaciones, arquitecturas de modelos avanzados y expansión de datos. Esto demuestra el compromiso de Resemble AI con la innovación continua para abordar los desafíos de la tecnología deepfake.