Recentemente, a equipe VITA-MLLM anunciou o lançamento do VITA-1.5, uma atualização do VITA-1.0, focada em melhorar a velocidade e precisão da interação multimodais em tempo real. O VITA-1.5 não apenas suporta inglês e chinês, mas também apresenta melhorias significativas em vários indicadores de desempenho, proporcionando uma experiência de interação mais fluida para os usuários.

79e9529425a7e3b44d98a5bfa01d644e.png

No VITA-1.5, o atraso de interação foi reduzido significativamente, de 4 segundos para apenas 1,5 segundos. Usuários quase não percebem a latência durante a interação de voz. Além disso, esta versão também apresenta melhorias notáveis no desempenho multimodais. Após avaliações, o VITA-1.5 alcançou uma pontuação média de 70,8 em vários testes de referência, como MME, MMBench e MathVista, um aumento em relação aos 59,8 da versão anterior, demonstrando sua capacidade excepcional.

O VITA-1.5 também passou por otimizações profundas em seu processamento de voz. A taxa de erro do sistema de reconhecimento automático de fala (ASR) foi reduzida significativamente, de 18,4% para 7,5%, resultando em uma compreensão e resposta mais precisas dos comandos de voz. Simultâneamente, o VITA-1.5 introduziu um módulo de texto para fala (TTS) de ponta a ponta, que recebe diretamente embeddings de modelos de linguagem grandes (LLM) como entrada, melhorando a naturalidade e coerência da síntese de voz.

Para garantir o equilíbrio das capacidades multimodais, o VITA-1.5 adotou uma estratégia de treinamento incremental, minimizando o impacto do novo módulo de processamento de voz no desempenho visual-linguístico. O desempenho de compreensão de imagens caiu levemente de 71,3 para 70,8. Através dessas inovações tecnológicas, a equipe avançou ainda mais os limites da interação visual e de voz em tempo real, lançando as bases para futuras aplicações de interação inteligente.

image.png

Para usar o VITA-1.5, os desenvolvedores podem começar rapidamente com comandos simples na linha de comando, com demonstrações básicas e interativas em tempo real disponíveis. É necessário preparar alguns módulos essenciais, como o módulo de detecção de atividade de voz (VAD), para otimizar a experiência interativa em tempo real. Além disso, o código do VITA-1.5 será de código aberto, permitindo que uma ampla comunidade de desenvolvedores participe e contribua.

O lançamento do VITA-1.5 marca mais um avanço importante no campo dos modelos de linguagem grandes interativos e multimodais, demonstrando a busca incessante da equipe por inovação tecnológica e experiência do usuário.

Entrada do projeto: https://github.com/VITA-MLLM/VITA?tab=readme-ov-file

Destaques:

🌟 O VITA-1.5 reduz significativamente o atraso de interação, de 4 segundos para 1,5 segundos, melhorando consideravelmente a experiência do usuário.

📈 Desempenho multimodais aprimorado, com uma pontuação média de 70,8 em vários testes de referência, em comparação com 59,8 da versão anterior.

🔊 Capacidade de processamento de voz aprimorada, com a taxa de erro do ASR reduzida de 18,4% para 7,5%, resultando em um reconhecimento de voz mais preciso.