En el contexto actual de la rápida evolución de la tecnología de conversión de texto a voz, la falsificación de voz se ha vuelto cada vez más grave, representando una amenaza significativa para la privacidad del usuario y la seguridad social. Recientemente, el Laboratorio de Seguridad de Sistemas Inteligentes de la Universidad de Zhejiang y la Universidad Tsinghua han publicado conjuntamente un nuevo marco de detección de falsificación de voz, llamado "SafeEar".

Este marco se centra en la detección eficiente de falsificaciones mientras protege la privacidad del contenido de voz, abordando los desafíos planteados por la síntesis de voz.

La idea de SafeEar se basa en un modelo desacoplado basado en un códec de audio neuronal, que separa inteligentemente la información acústica y semántica del habla. Esto significa que SafeEar solo depende de la información acústica para la detección de falsificaciones, sin necesidad de acceder al contenido completo del audio, lo que evita eficazmente la filtración de privacidad.

El marco completo se divide en cuatro partes principales.

Primero, el modelo de desacoplamiento frontal se encarga de extraer las características acústicas objetivo del audio de entrada; segundo, la capa de cuello de botella y la capa de confusión reducen la dimensionalidad y desordenan las características acústicas, mejorando la resistencia al robo de contenido; tercero, el detector de falsificación utiliza un clasificador Transformer para determinar si el audio ha sido falsificado; finalmente, el módulo de mejora del entorno real simula diferentes entornos de audio, mejorando aún más la detección del modelo.

image.png

Enlace al proyecto: https://github.com/LetterLiGo/SafeEar?tab=readme-ov-file

Tras realizar experimentos en varios conjuntos de datos de referencia, el equipo de investigación descubrió que la tasa de error de SafeEar es tan baja como el 2,02%. Esto significa que es muy eficaz en la identificación de audio deepfake. Además, SafeEar puede proteger el contenido de audio en cinco idiomas, haciéndolo ininteligible para máquinas u oídos humanos, con una tasa de error de palabras de hasta el 93,93%. Asimismo, las pruebas demostraron que los atacantes no pueden recuperar el contenido de voz protegido, lo que demuestra las ventajas de esta tecnología en la protección de la privacidad.

Además, el equipo de SafeEar ha creado un conjunto de datos que contiene 1,5 millones de archivos de audio multilingües, que abarcan varios idiomas como inglés, chino, alemán, francés e italiano, proporcionando una rica base de datos para futuras investigaciones y detección de falsificaciones de voz.

El lanzamiento de SafeEar no solo aporta una nueva solución al campo de la detección de falsificaciones de voz, sino que también allana el camino para la protección de la privacidad de voz de los usuarios.

Puntos clave:

  • 🎤 **Marco innovador de SafeEar**: capaz de detectar audio deepfake sin revelar el contenido de voz, protegiendo la privacidad del usuario.
  • 🔍 **Mecanismo de autoatención multi-cabeza**: mejora la capacidad de identificar audio deepfake sin pistas semánticas, con una tasa de error tan baja como el 2,02%.
  • 🔒 **Protección del contenido de audio**: protege eficazmente el audio en varios idiomas contra el análisis, con una tasa de error de palabras de hasta el 93,93%.