MinMo

MinMo é um modelo de linguagem grande multimodário para interação de voz perfeita.

Produto ComumChatInteração de vozMultimodal
MinMo é um modelo de linguagem grande multimodário desenvolvido pelo Alibaba Group Tongyi Lab, com cerca de 8 bilhões de parâmetros, focado em interação de voz perfeita. Treinado em 1,4 milhões de horas de dados de voz diversificados e em uma ampla gama de tarefas de voz, passando por várias etapas de treinamento, incluindo alinhamento de voz para texto, alinhamento de texto para voz, alinhamento de voz para voz e alinhamento de interação full-duplex. O MinMo alcançou desempenho de ponta em vários benchmarks de compreensão e geração de voz, mantendo ao mesmo tempo as capacidades de modelos de linguagem grandes de texto e suportando conversas full-duplex, ou seja, comunicação bidirecional simultânea entre o usuário e o sistema. Além disso, o MinMo apresenta um novo e simples decodificador de voz, superando modelos anteriores na geração de voz. A capacidade de seguir instruções do MinMo foi aprimorada, permitindo o controle da geração de voz com base nas instruções do usuário, incluindo detalhes como emoção, dialeto e velocidade da fala, e imitação de uma voz específica. A latência de voz para texto do MinMo é de aproximadamente 100 milissegundos, a latência full-duplex teórica é de aproximadamente 600 milissegundos e a latência real é de aproximadamente 800 milissegundos. O desenvolvimento do MinMo visa superar as principais limitações dos modelos multimodais alinhados anteriores, proporcionando aos usuários uma experiência de interação de voz mais natural, fluida e humana.
Abrir Site

MinMo Situação do Tráfego Mais Recente

Total de Visitas Mensais

63960

Taxa de Rejeição

57.97%

Média de Páginas por Visita

1.4

Duração Média da Visita

00:00:54

MinMo Tendência de Visitas

MinMo Distribuição Geográfica das Visitas

MinMo Fontes de Tráfego

MinMo Alternativas