Recentemente, pesquisadores do Tencent Youtu Lab e outras instituições lançaram o VITA, o primeiro modelo de linguagem multimodal de código aberto que pode processar simultaneamente vídeo, imagem, texto e áudio, e sua experiência de interação é de primeira classe.

O modelo VITA foi criado para preencher a lacuna dos grandes modelos de linguagem no processamento de dialetos chineses. Baseado no poderoso modelo Mixtral8×7B, ele expandiu o vocabulário chinês e passou por ajuste fino de instruções bilíngues, permitindo que o VITA não apenas domine o inglês, mas também use o chinês fluentemente.

image.png

Principais características:

Compreensão multimodal: O VITA pode processar vídeo, imagem, texto e áudio, algo inédito em modelos de código aberto.

Interação natural: Não é necessário dizer "Ei, VITA" a cada vez. Ele responde sempre que você fala, e mesmo quando você está conversando com outras pessoas, ele mantém a cortesia e não interrompe sem necessidade.

Pioneiro em código aberto: O VITA representa um passo importante da comunidade de código aberto na compreensão e interação multimodais, estabelecendo uma base para pesquisas futuras.

image.png

A magia do VITA reside em sua implantação de modelo duplo. Um modelo é responsável por gerar respostas às consultas do usuário, enquanto outro modelo acompanha continuamente as entradas do ambiente, garantindo que cada interação seja precisa e oportuna.

O VITA não apenas conversa, mas também pode ser um companheiro de bate-papo durante seus exercícios ou oferecer sugestões em suas viagens. Ele também pode responder a perguntas com base em imagens ou vídeos fornecidos, demonstrando sua grande utilidade.

Embora o VITA já tenha demonstrado um enorme potencial, ele está em constante evolução em aspectos como síntese de fala emocional e suporte multimodal. Os pesquisadores planejam que a próxima geração do VITA consiga gerar áudio de alta qualidade a partir de entradas de vídeo e texto, e até mesmo explorar a possibilidade de gerar simultaneamente áudio e vídeo de alta qualidade.

O código aberto do modelo VITA não é apenas uma vitória tecnológica, mas também uma profunda inovação na forma de interação inteligente. Com o aprofundamento da pesquisa, temos razões para acreditar que o VITA nos proporcionará uma experiência de interação mais inteligente e humana.

Endereço do artigo: https://arxiv.org/pdf/2408.05211