Um modelo de áudio de código aberto revolucionário — Hertz-dev — surgiu, impressionando desenvolvedores globais com seus incríveis indicadores de desempenho. Esta gigantesca IA de voz, com 8,5 bilhões de parâmetros, treinada com 20 milhões de horas de dados de áudio de alta qualidade, conseguiu realizar o sonho humano de um diálogo em tempo real full-duplex.
O mais impressionante é seu desempenho de latência ultrabaixa de 120 milissegundos, o dobro da melhoria em relação aos modelos abertos existentes, elevando a experiência de diálogo humano-máquina a um novo nível. Imagine conversar com uma IA sem esperar que ela termine antes de intervir naturalmente, tão fluido e natural quanto uma conversa humana real.
Avanços principais do Hertz-dev:
Tecnologia full-duplex inovadora: revoluciona o modelo tradicional de fala alternada, permitindo uma verdadeira troca bidirecional em tempo real.
Compressão de áudio excepcional: garante alta qualidade de áudio enquanto reduz significativamente o uso de largura de banda.
Capacidade de diálogo prolongado: compreende e gera facilmente conteúdo de diálogo contínuo.
Latência revolucionariamente baixa: velocidade de resposta de 120 milissegundos, inaugurando uma nova era de interação em tempo real.
Como um modelo básico Transformer focado em áudio, o Hertz-dev utilizou dados de conversação do mundo real durante o treinamento, capturando com sucesso características sutis da fala humana, incluindo pausas naturais e variações ricas no tom emocional.
Para os desenvolvedores, este é um tesouro de código aberto de grande valor. Eles podem baixar livremente o modelo, ajustá-lo de acordo com cenários de aplicação específicos e criar vários aplicativos de voz inovadores. Isso significa um salto qualitativo em tudo, desde robôs de atendimento ao cliente e assistentes de voz até tutoria educacional e interação de entretenimento.
Endereço do projeto: https://github.com/Standard-Intelligence/hertz-dev