Em 19 de março, um modelo de texto para fala (TTS) de código aberto chamado Orpheus TTS foi oficialmente lançado. Este modelo chamou rapidamente a atenção por sua expressão emocional próxima à humana, sua saída de voz natural e fluida e suas características de fluxo de saída em tempo real com latência ultrabaixa.

O Orpheus TTS destaca-se pela baixa latência e alta expressividade emocional. Suas características principais incluem:   - **Latência ultrabaixa**: latência padrão de aproximadamente 200 milissegundos, que pode ser reduzida para 25-50 milissegundos por meio da otimização do cache KV do fluxo de entrada e do modelo, atendendo às necessidades de conversação em tempo real.   - **Expressão emocional**: saída de voz natural e fluida, capaz de se aproximar das emoções humanas, com suporte a variações ricas de tom, melhorando a experiência de interação.   - **Fluxo de saída em tempo real**: suporta geração de áudio em streaming, garantindo que a geração de voz seja sincronizada com a entrada, adequada para assistentes virtuais, sistemas de atendimento ao cliente, etc.

Graças às suas características de baixa latência e alta naturalidade, o Orpheus TTS é considerado de grande potencial na área de diálogo em tempo real. Seja para assistentes de voz inteligentes, educação online, apresentadores virtuais ou dublagem de personagens de jogos, este modelo pode fornecer uma experiência de interação de voz mais humana. Além disso, sua natureza de código aberto oferece aos desenvolvedores mais possibilidades de personalização.

Com a combinação de expressão emocional, efeitos naturais e latência ultrabaixa, o Orpheus TTS marca um novo nível na tecnologia TTS. Ele não apenas melhorou a qualidade da síntese de voz, mas também abriu novas possibilidades para cenários de interação dinâmica por meio do fluxo de saída em tempo real. No futuro, este modelo pode se tornar um marco na área de TTS de código aberto.