A empresa de clonagem de voz Resemble AI lançou a próxima geração de seu modelo de detecção de deepfakes, com uma precisão de aproximadamente 94%. O Detect-2B usa uma série de submodelos pré-treinados e ajuste fino para examinar trechos de áudio e determinar se foram gerados por IA. O DETECT-2B consegue detectar áudio em mais de 30 idiomas em apenas 200 milissegundos, com uma precisão muito alta (acima de 94%). Com essa tecnologia eficiente e multilíngue, podemos combater eficazmente a fraude de áudio gerada por IA.
Acesso ao produto:https://top.aibase.com/tool/detect-2b
A empresa disse em um post de blog: "Construído sobre a base sólida de nosso modelo Detect original, o DETECT-2B fez avanços significativos na arquitetura do modelo, nos dados de treinamento e no desempenho geral. O resultado é um modelo de detecção de deepfakes extremamente poderoso e preciso, alcançando um desempenho excepcional em um grande conjunto de dados de trechos de áudio reais e falsos."
Segundo a Resemble, os submodelos do Detect-2B "são compostos por um modelo de representação de áudio congelado e um módulo adaptativo inserido em suas camadas principais". O módulo adaptativo direciona o foco do modelo para sons inesperados que frequentemente distinguem áudio real de áudio falso — ou seja, sons acidentais que permanecem na gravação. A maioria dos trechos de áudio gerados por IA soa "muito limpos". O Detect-2B pode prever as partes de áudio geradas por IA sem precisar treinar o modelo novamente a cada novo trecho ouvido. Os submodelos também são treinados em um conjunto de dados em larga escala.
O Detect-2B agrega suas pontuações de previsão e as compara com um "limite cuidadosamente ajustado", determinando então se a gravação é real ou falsa. A Resemble afirma que seus pesquisadores construíram o Detect-2B de forma que ele seja mais rápido no treinamento e não requer muitos recursos computacionais para implantação.
A arquitetura do modelo é baseada em Mamba-SSM, ou modelo de espaço de estados, que não depende de dados estáticos ou padrões repetitivos. Em vez disso, ele usa um modelo de probabilidade estocástico que é mais responsivo a diferentes variáveis. A Resemble afirma que essa arquitetura funciona bem na detecção de áudio porque captura diferentes dinâmicas em clipes de áudio, adapta-se aos vários estados do sinal de áudio e continua funcionando mesmo com gravações de baixa qualidade.
Para avaliar o modelo, a Resemble afirma ter testado o Detect-2B, incluindo locutores desconhecidos, áudio gerado por deepfakes e diferentes idiomas. A empresa afirma que o modelo detectou corretamente áudios deepfakes em seis idiomas diferentes com uma precisão de pelo menos 93%.
A Resemble lançou sua plataforma de voz de IA Rapid Voice Cloning em abril. O Detect-2B será disponibilizado por meio de uma API e poderá ser integrado a diferentes aplicativos.
A Resemble não é a única empresa que se dedica à detecção de clones de IA. A McAfee lançou o projeto Mockingbird em janeiro para detectar áudio de IA. Já o Meta está desenvolvendo um método para adicionar marcas d'água ao áudio gerado por IA.
Destaques:
- O modelo Detect-2B, lançado pela Resemble AI, é a próxima geração de modelos de detecção de deepfakes, com precisão de 94%.
- O Detect-2B usa submodelos pré-treinados e ajuste fino para examinar trechos de áudio e determinar se foram gerados por IA.
- A arquitetura do modelo é baseada em um modelo de probabilidade estocástico, mais sensível às diferentes dinâmicas do sinal de áudio, e apresenta excelente desempenho na detecção de áudio deepfake em diferentes idiomas.