Meta lança novo modelo de tradução de voz, com capacidade de imitar tom e velocidade

量子位

Publicado emNotícias e Informações de IA · 2 minutos de leitura · Dec 21, 2023

O Meta lançou recentemente a série Seamless Communication, uma nova família de modelos de tradução de voz que inclui 4 modelos e oferece tradução em tempo real entre quase 100 idiomas, com uma latência de cerca de 2 segundos. Os modelos conseguem replicar características complexas da fala original, como pausas, tom e velocidade, tornando a tradução mais natural. Eles utilizam uma arquitetura não auto-regressiva para suportar traduções de sequências longas. Além disso, o Meta também disponibilizou o código-fonte dos modelos e o maior corpus de voz já criado, com 585.000 horas de dados, e adicionou recursos como marca d'água de áudio e mitigação de toxicidade na tradução para evitar o mau uso dos modelos.

Executivos do Google respondem à reversão do compromisso com IA de armas e metas de diversidade, causando indignação entre funcionários!

Em uma recente reunião de todos os funcionários, executivos do Google detalharam a decisão da empresa de abandonar as metas de diversidade e inclusão (D&I) e seu compromisso de não desenvolver inteligência artificial para fins bélicos. Melonie Parker, ex-chefe de diversidade do Google, afirmou que a empresa interromperá os programas de treinamento de D&I para funcionários e “atualizará” outros treinamentos relacionados. Esta é a primeira resposta a todos os funcionários desde que o Google anunciou que não estabeleceria mais metas de contratação para diversidade. O advogado-chefe do Google, Kent Walker, disse que, desde que a empresa apresentou pela primeira vez sua AI Princ

Estudo alerta para os limites dos modelos de linguagem de IA: desempenho reduzido à metade com contexto superior a 8K, raciocínio conceitual se torna um desafio

Uma pesquisa recente realizada pela Universidade de Munique, o Centro de Aprendizado de Máquina de Munique e a Adobe Research mostra que 12 modelos de linguagem de IA de ponta, incluindo GPT-4o, Gemini1.5Pro e Llama-3.3-70B, enfrentam uma redução significativa de desempenho em tarefas de raciocínio conceitual com texto longo. Embora esses modelos suportem o processamento de contexto de pelo menos 128.000 tokens, sua capacidade de ligação lógica profunda ainda apresenta limitações fundamentais. A equipe de pesquisa desenvolveu o NOLIMA (sem correspondência de texto)

Usuários ativos mensais de aplicativos AIGC ultrapassam 100 milhões, com Doubao dominando metade do mercado

De acordo com os dados mais recentes da empresa de pesquisa QuestMobile, até o final de novembro de 2024, os usuários ativos mensais de aplicativos AIGC (conteúdo gerado por inteligência artificial) na China ultrapassaram 100 milhões. Entre eles, o Doubao, da ByteDance, se destacou, detendo metade do mercado graças à sua sólida base de usuários. Simultaneamente, o Wen Xiaoyan do Baidu e o Kimi, assistente inteligente desenvolvido pela Yue Zhi Anmian, também conquistaram espaço no mercado. Com o rápido crescimento dos aplicativos AIGC, a concentração de usuários em empresas líderes tende a aumentar.

Notícias e Informações de IA

Meta lança novo modelo de tradução de voz, com capacidade de imitar tom e velocidade

量子位

Notícias de IA Relacionadas Recomendadas

NetEase Youdao lança novo modelo de tradução de parâmetros menores de 14B, melhorando a precisão e a eficiência da tradução

Executivos do Google respondem à reversão do compromisso com IA de armas e metas de diversidade, causando indignação entre funcionários!

Estudo alerta para os limites dos modelos de linguagem de IA: desempenho reduzido à metade com contexto superior a 8K, raciocínio conceitual se torna um desafio

Usuários ativos mensais de aplicativos AIGC ultrapassam 100 milhões, com Doubao dominando metade do mercado