Hertz-dev: Modelo de áudio de código aberto com latência ultrarrápida de 120ms impressiona a web

AIbase基地

Publicado emNotícias e Informações de IA · 3 minutos de leitura · Nov 5, 2024

263

Um modelo de áudio de código aberto revolucionário — Hertz-dev — surgiu, impressionando desenvolvedores globais com seus incríveis indicadores de desempenho. Esta gigantesca IA de voz, com 8,5 bilhões de parâmetros, treinada com 20 milhões de horas de dados de áudio de alta qualidade, conseguiu realizar o sonho humano de um diálogo em tempo real full-duplex.

O mais impressionante é seu desempenho de latência ultrabaixa de 120 milissegundos, o dobro da melhoria em relação aos modelos abertos existentes, elevando a experiência de diálogo humano-máquina a um novo nível. Imagine conversar com uma IA sem esperar que ela termine antes de intervir naturalmente, tão fluido e natural quanto uma conversa humana real.

Avanços principais do Hertz-dev:

Tecnologia full-duplex inovadora: revoluciona o modelo tradicional de fala alternada, permitindo uma verdadeira troca bidirecional em tempo real.

Compressão de áudio excepcional: garante alta qualidade de áudio enquanto reduz significativamente o uso de largura de banda.

Capacidade de diálogo prolongado: compreende e gera facilmente conteúdo de diálogo contínuo.

Latência revolucionariamente baixa: velocidade de resposta de 120 milissegundos, inaugurando uma nova era de interação em tempo real.

Como um modelo básico Transformer focado em áudio, o Hertz-dev utilizou dados de conversação do mundo real durante o treinamento, capturando com sucesso características sutis da fala humana, incluindo pausas naturais e variações ricas no tom emocional.

Para os desenvolvedores, este é um tesouro de código aberto de grande valor. Eles podem baixar livremente o modelo, ajustá-lo de acordo com cenários de aplicação específicos e criar vários aplicativos de voz inovadores. Isso significa um salto qualitativo em tudo, desde robôs de atendimento ao cliente e assistentes de voz até tutoria educacional e interação de entretenimento.

Endereço do projeto: https://github.com/Standard-Intelligence/hertz-dev

Hertz-dev Modelo de áudio Conversa em tempo real full-duplex IA de voz

Este artigo é do AIbase Daily

Bem-vindo à coluna [AI Daily]! Este é o seu guia para explorar o mundo da inteligência artificial todos os dias. Todos os dias apresentamos os destaques da área de IA, com foco nos desenvolvedores, para o ajudar a obter insights sobre as tendências tecnológicas e a compreender as aplicações inovadoras de produtos de IA.

—— Criado pelo Grupo AIbase Daily

Notícias de IA Relacionadas Recomendadas

Musk anuncia o lançamento do novo aplicativo Grok: experiência de voz significativamente aprimorada

Feb 28, 2025

Spotify e ElevenLabs se unem para oferecer opção de audiobooks com narração em IA

Na quinta-feira, a Spotify anunciou uma parceria com a ElevenLabs para integrar audiobooks com narração gerada por IA da empresa. Como um dos principais fornecedores de áudio em IA, essa nova parceria deve aumentar significativamente o número de audiobooks com narração em IA na plataforma. O novo processo exige que os autores baixem pacotes de arquivos de áudio da ElevenLabs e acessem o serviço de publicação de audiobooks da Spotify, Findaway Voices.

Feb 21, 2025

1.5k

SpeakIn arrecada 500 milhões de yuans em financiamento, focando em dispositivos inteligentes e aplicações industriais em 2025

No contexto do crescente desenvolvimento da indústria de inteligência artificial, a SpeakIn, empresa de tecnologia de voz AI, anunciou recentemente o sucesso de uma rodada de financiamento de 500 milhões de yuans. A rodada de financiamento contou com a participação de vários fundos industriais de renome, plataformas de ativos estatais e fundos de private equity, marcando um forte apoio da SpeakIn no mercado de capitais. Fundada em 2007, como uma das primeiras empresas chinesas a se concentrar na IA, a SpeakIn inicialmente se concentrou na tecnologia de voz AI, expandindo-se agora para soluções integradas de hardware e software e produtos de hardware de IA. No futuro, a SpeakIn irá...

Jan 14, 2025

1.2k

Step-1o Audio: Modelo de linguagem de fala ponta a ponta com centenas de bilhões de parâmetros lançado e integrado ao aplicativo Yuewen

A Jieyue Xingchen anunciou recentemente o lançamento do Step-1o, um novo membro da matriz de modelos da série Step – um modelo de linguagem de fala ponta a ponta com centenas de bilhões de parâmetros, alegadamente o primeiro na China. Este lançamento representa um grande avanço no campo da tecnologia de voz. Através de uma solução de voz ponta a ponta, o modelo consegue integrar a compreensão e geração de fala, elevando o limite de QI e QE do modelo e permitindo uma experiência de comunicação de alta qualidade e quase natural.

Dec 16, 2024

3.6k

Nova potência em tecnologia de voz de IA! Ações da SoundHound AI disparam esta semana

No cenário de rápido desenvolvimento da tecnologia de inteligência artificial, a SoundHound AI demonstra mais uma vez seu potencial de mercado. A empresa de tecnologia focada em IA conversacional recebeu recentemente boas notícias, não apenas apresentando tecnologias de ponta em uma conferência de investidores, mas também estabelecendo uma parceria bem-sucedida com a rede de restaurantes Torchy's Tacos. Avanços tecnológicos e expansão comercial caminham lado a lado. Em 4 de dezembro, na conferência global de tecnologia e IA do UBS, o diretor financeiro da SoundHound, Nitesh Sharan, apresentou detalhes da empresa aos investidores.

Dec 9, 2024

2.7k

Com o poder dos grandes modelos de IA! WPS Office lança recurso de taquigrafia de voz WPS AI

O WPS Office lançou recentemente seu recurso de taquigrafia de voz com IA, aprimorado pela tecnologia WPS AI e profundamente integrado ao WPS Cloud Document. Ele oferece aos usuários uma experiência de conversão de voz em texto mais rápida, precisa e inteligente. Este novo recurso não apenas suporta gravação em tempo real e importação de áudio para conversão de texto, mas também permite tradução entre várias línguas, incluindo chinês e inglês, garantindo a integridade dos arquivos de gravação. Mesmo que o aplicativo seja fechado inesperadamente durante a gravação, os usuários podem retornar à tarefa e continuar gravando.

Dec 3, 2024

3.1k

NVIDIA apresenta o Fugatto: modelo de áudio com IA que gera música e efeitos sonoros a partir de texto e áudio

Na área da criação musical e sonora, a combinação de tecnologia e criatividade sempre enfrenta muitos desafios. Os modelos de IA existentes geralmente são especializados em tarefas específicas e carecem de ampla adaptabilidade, o que limita o papel auxiliar da IA na produção musical. Para que a IA possa melhor servir à produção musical e de áudio, é necessário um modelo universal que possa lidar de forma flexível com diversas necessidades criativas. Para isso, a NVIDIA lançou o Fugatto, um modelo de geração e processamento de áudio com 2,5 bilhões de parâmetros. O Fugatto foi projetado para

Nov 26, 2024

2.3k

Novo modelo de áudio de código aberto Hertz-Dev: latência ultrabaixa para conversação em tempo real com IA

Na onda da tecnologia atual, a inteligência artificial conversacional (IA) tornou-se parte integrante de nossas vidas. No entanto, a interação rápida, eficiente e em tempo real ainda representa um grande desafio. Em particular, o problema da latência, ou seja, o tempo entre a entrada e a resposta, muitas vezes torna a experiência com chatbots e assistentes virtuais lenta, afetando a experiência do usuário. Para preencher essa lacuna, o Standard Intelligence Lab lançou recentemente o Hertz-Dev, um modelo de áudio de código aberto com 850 milhões de parâmetros

Nov 4, 2024

4.3k

Google aprimora tecnologia de voz com IA: 2 minutos de conversa gerados em 3 segundos, mudando a interação humano-máquina

A mais recente tecnologia de geração de voz lançada pelo Google redefine os padrões do setor. Essa tecnologia inovadora não apenas gera conversas naturais de até 2 minutos em apenas 3 segundos, mas também garante a coerência e a qualidade da fala entre múltiplos interlocutores. Essa tecnologia já está sendo utilizada em diversos produtos do Google, como o Gemini Live e o Project Astra, e está mudando a maneira como as pessoas interagem com assistentes digitais e ferramentas de IA em todo o mundo. Nos últimos anos, o Google tem se concentrado na pesquisa na área de geração de áudio. Os modelos desenvolvidos pela empresa podem gerar áudio a partir de texto

Oct 31, 2024

2.8k

Lançamento do recurso de voz emocional ponta a ponta do ZhiPu QingYan: permite interrupções a qualquer momento e suporta vários idiomas e dialetos

A ZhiPu AI anunciou que sua tecnologia de voz emocional ponta a ponta foi oficialmente lançada na plataforma ZhiPu QingYan e está disponível para todos os usuários. Essa inovação tecnológica supera as limitações das tecnologias tradicionais de conversão de texto em fala (TTS), permitindo uma compreensão profunda do contexto e a geração de diálogos naturais e emocionais. Isso marca a evolução da tecnologia de síntese de voz da ZhiPu AI, de uma simples leitura de texto para uma inteligência artificial capaz de expressar emoções reais.

Oct 25, 2024

4.8k

Notícias de IA

IA Diário

Linha do Tempo da IA

Casos Recentes

Coleção de Imagens

Coleção de Vídeos

Coleção de Áudios

Coleção de Conteúdo

Tutoriais Recentes

Ranking de Produtos de IA

Ranking de Crescimento de Tráfego de IA

Ranking de Queda de Tráfego de IA

Ranking Semanal de IA

Estados Unidos

China

Índia

Brasil

Geração de Imagens

Assistente Pessoal

Geração de Personagens

Geração de Vídeos

Ranking de Projetos de IA

Ranking de Crescimento de Projetos de IA

Ranking de Desenvolvedores de IA

Ranking de Organizações de IA

Deepseek

TTS

LLM

ChatGPT

Visão Geral