Notícias de IA

Não perca nenhum momento da inovação global em IA

IA Diário

Tendências diárias da indústria de IA em três minutos

Linha do Tempo da IA

Marcos da indústria de IA

Guia de Monetização de IA

Casos Recentes

Compartilhamento de casos de monetização de IA

Coleção de Imagens

Casos de monetização de criação de imagens por IA

Coleção de Vídeos

Casos de monetização de criação de vídeos por IA

Coleção de Áudios

Casos de monetização de criação de áudios por IA

Coleção de Conteúdo

Casos de monetização de escrita de conteúdo por IA

Tutoriais de IA

Tutoriais Recentes

Compartilhamento gratuito dos tutoriais de IA mais recentes

Rankings de Produtos de IA

Ranking de Produtos de IA

Mostra o ranking total de visitas de sites de IA

Ranking de Crescimento de Tráfego de IA

Rastreia os sites de IA de crescimento mais rápido por tráfego

Ranking de Queda de Tráfego de IA

Foco em sites de IA com quedas significativas de tráfego

Ranking Semanal de IA

Mostra o ranking semanal de visitas de sites de IA

Rankings de Países Populares

Estados Unidos

Sites de IA mais populares entre os usuários dos EUA

China

Sites de IA mais populares entre os usuários chineses

Índia

Sites de IA mais populares entre os usuários indianos

Brasil

Sites de IA mais populares entre os usuários brasileiros

Rankings de Categorias Populares

Geração de Imagens

Ranking total de visitas de sites de geração de imagens de IA

Assistente Pessoal

Ranking total de visitas de sites de assistentes pessoais de IA

Geração de Personagens

Ranking total de visitas de sites de geração de personagens de IA

Geração de Vídeos

Ranking total de visitas de sites de geração de vídeos de IA

Rankings de Dados de Código Aberto Populares

Ranking de Projetos de IA

Projetos de IA populares no GitHub por total de estrelas

Ranking de Crescimento de Projetos de IA

Projetos de IA populares no GitHub por taxa de crescimento

Ranking de Desenvolvedores de IA

Ranking de desenvolvedores de IA populares no GitHub

Ranking de Organizações de IA

Ranking de organizações de IA populares no GitHub

Categorias de Código Aberto Populares

Deepseek

Projetos de código aberto Deepseek populares no GitHub

TTS

Projetos de código aberto TTS populares no GitHub

LLM

Projetos de código aberto LLM populares no GitHub

ChatGPT

Projetos de código aberto ChatGPT populares no GitHub

Biblioteca de Projetos de Código Aberto de IA

Visão Geral

Visão geral dos projetos de código aberto de IA populares no GitHub

Biblioteca de produtos Navegação de ferramentas

Modelo de Geração de Áudio FunAudioLLM da Alibaba Tongyi Open Source: Suporta Conversação de Voz com Emoções, Audiolivros e Outros Cenários

AIbase

Publicado emNotícias e Informações de IA · 4 minutos de leitura · Jul 8, 2024

1.4k

O Alibaba Tongyi Lab recentemente lançou um projeto de código aberto de modelo de linguagem grande para áudio chamado FunAudioLLM, com o objetivo de melhorar a experiência de interação de voz natural entre humanos e modelos de linguagem grandes (LLMs). O projeto consiste em dois modelos principais: SenseVoice e CosyVoice.

O CosyVoice concentra-se na geração de fala natural, com suporte multilíngue, controle de tom e emoção, apresentando excelente desempenho na geração de fala multilíngue, geração de fala de amostra zero, síntese de voz entre idiomas e execução de instruções. Treinado com 150.000 horas de dados, ele suporta cinco idiomas: chinês, inglês, japonês, cantonês e coreano, podendo simular rapidamente tons de voz e oferecer controle granular de emoções e ritmo.

O SenseVoice, por sua vez, é dedicado ao reconhecimento de voz multilíngue de alta precisão, reconhecimento de emoções e detecção de eventos de áudio. Treinado com 400.000 horas de dados, ele suporta mais de 50 idiomas, com resultados superiores ao modelo Whisper, especialmente com melhorias superiores a 50% em chinês e cantonês. O SenseVoice também possui capacidade de reconhecimento de emoções e detecção de eventos sonoros, além de uma velocidade de inferência rápida.

微信截图_20240708084503.png

O FunAudioLLM suporta vários cenários de aplicativos de interação homem-máquina, como tradução multilíngue, diálogo de voz emocional, podcasts interativos e audiolivros. Ao combinar SenseVoice, LLMs e CosyVoice, ele pode realizar tradução de voz para voz perfeita, aplicativos de bate-papo de voz emocional e estações de rádio de podcast interativas.

Em termos de princípios técnicos, o CosyVoice é baseado em codificação de quantização de voz, suportando a geração de voz natural e fluida, enquanto o SenseVoice fornece recursos abrangentes de processamento de voz, incluindo reconhecimento automático de voz, reconhecimento de idioma, reconhecimento de emoções e detecção de eventos de áudio.

Os modelos e códigos de código aberto foram lançados no ModelScope e Huggingface, e o GitHub também fornece códigos de treinamento, inferência e ajuste fino. Os modelos CosyVoice e SenseVoice estão disponíveis para experiência online no ModelScope, permitindo que os usuários experimentem diretamente essas tecnologias de voz avançadas.

Endereço do projeto: https://github.com/FunAudioLLM

1. Modelo de IA 2. Modelos de Linguagem Ampla (LLMs)3. Geração de Áudio 4. Interação de Linguagem Natural ['Modelo de IA''Modelos de Linguagem Ampla''Geração de Áudio''Interação de Linguagem Natural']

Este artigo é do AIbase Daily

Bem-vindo à coluna [AI Daily]! Este é o seu guia para explorar o mundo da inteligência artificial todos os dias. Todos os dias apresentamos os destaques da área de IA, com foco nos desenvolvedores, para o ajudar a obter insights sobre as tendências tecnológicas e a compreender as aplicações inovadoras de produtos de IA.

—— Criado pelo Grupo AIbase Daily