O maior modelo de tradução de código aberto do mundo! Criado pelo Meta, suporta 100 idiomas e vozes!

微信公众平台

Publicado emNotícias e Informações de IA · 2 minutos de leitura · Aug 24, 2023

141

O Meta lançou o SeamlessM4T, o maior modelo de tradução multimodal de código aberto do mundo, com suporte para 100 idiomas e capacidade de reconhecer dialetos. Este modelo pode executar tarefas de tradução multimodal, incluindo voz para texto, voz para voz, texto para voz e texto para texto.

O SeamlessM4T integra modelos de tradução anteriores do Meta, como o NLLB e o MMS, e foi treinado usando uma grande quantidade de dados de voz e texto alinhados. O modelo alcançou resultados de ponta em tradução multitarefa e demonstrou excelente desempenho em testes de robustez, especialmente na identificação de ruído de fundo e variações de locutor. Além disso, o modelo melhorou significativamente o desempenho de idiomas com recursos baixos e médios.

Modelo de reconhecimento de voz de código aberto FireRedASR do Xiaohongshu, com excelente precisão de reconhecimento em chinês

No campo do reconhecimento de voz, o desenvolvimento da tecnologia de reconhecimento em chinês tem sido foco de atenção. Recentemente, a equipe FireRed do Xiaohongshu lançou um novo modelo de reconhecimento de voz de código aberto - FireRedASR. Este sistema de reconhecimento de voz baseado em modelos grandes obteve resultados excelentes em vários conjuntos de testes padrão, marcando um grande avanço na tecnologia de reconhecimento de voz em chinês. O principal indicador do FireRedASR é a taxa de erro de caracteres (CER), sendo que quanto menor o indicador, melhor o efeito de reconhecimento do modelo. Em testes públicos recentes, Fi

Novo modelo de reconhecimento de voz de código aberto Moonshine: cinco vezes mais rápido que o OpenAI Whisper

A startup americana Useful Sensors lançou um modelo de reconhecimento de voz de código aberto chamado Moonshine. O Moonshine foi projetado para processar dados de áudio de forma mais eficiente, sendo mais econômico em termos de recursos computacionais e cinco vezes mais rápido que o Whisper do OpenAI. Este novo modelo é construído para aplicações em tempo real em hardware com recursos limitados e possui uma arquitetura flexível. Ao contrário do Whisper, que processa o áudio em segmentos fixos de 30 segundos, o Moonshine...

API de reconhecimento de voz Gladia arrecada US$ 16 milhões em Série A para desafiar Amazon, Microsoft e Google

A startup francesa Gladia, que oferece uma interface de programação de aplicativos (API) de reconhecimento de voz, arrecadou US$ 16 milhões em uma rodada de financiamento Série A. Essencialmente, a API da Gladia converte qualquer arquivo de áudio em texto com alta precisão e baixa latência. Embora a Amazon, a Microsoft e o Google ofereçam APIs de voz para texto como parte de seus pacotes de produtos em nuvem, seu desempenho não é tão bom quanto os modelos mais novos oferecidos por algumas startups especializadas. Isso é especialmente verdadeiro desde o lançamento do modelo Whisper pela OpenAI.

Notícias e Informações de IA

O maior modelo de tradução de código aberto do mundo! Criado pelo Meta, suporta 100 idiomas e vozes!

微信公众平台

Notícias de IA Relacionadas Recomendadas

OnePlus 13 lança novo ColorOS 15.0.0.701 com recurso de reconhecimento de voz AIGC

Modelo de reconhecimento de voz de código aberto FireRedASR do Xiaohongshu, com excelente precisão de reconhecimento em chinês

Novo modelo de reconhecimento de voz de código aberto Moonshine: cinco vezes mais rápido que o OpenAI Whisper

API de reconhecimento de voz Gladia arrecada US$ 16 milhões em Série A para desafiar Amazon, Microsoft e Google