腾讯发布首个开源多模态大型语言模型 VITA: comunicação sem barreiras com os usuários

AIbase基地

Publicado emNotícias e Informações de IA · 4 minutos de leitura · Aug 14, 2024

559

Recentemente, pesquisadores do Tencent Youtu Lab e outras instituições lançaram o VITA, o primeiro modelo de linguagem multimodal de código aberto que pode processar simultaneamente vídeo, imagem, texto e áudio, e sua experiência de interação é de primeira classe.

O modelo VITA foi criado para preencher a lacuna dos grandes modelos de linguagem no processamento de dialetos chineses. Baseado no poderoso modelo Mixtral8×7B, ele expandiu o vocabulário chinês e passou por ajuste fino de instruções bilíngues, permitindo que o VITA não apenas domine o inglês, mas também use o chinês fluentemente.

Principais características:

Compreensão multimodal: O VITA pode processar vídeo, imagem, texto e áudio, algo inédito em modelos de código aberto.

Interação natural: Não é necessário dizer "Ei, VITA" a cada vez. Ele responde sempre que você fala, e mesmo quando você está conversando com outras pessoas, ele mantém a cortesia e não interrompe sem necessidade.

Pioneiro em código aberto: O VITA representa um passo importante da comunidade de código aberto na compreensão e interação multimodais, estabelecendo uma base para pesquisas futuras.

A magia do VITA reside em sua implantação de modelo duplo. Um modelo é responsável por gerar respostas às consultas do usuário, enquanto outro modelo acompanha continuamente as entradas do ambiente, garantindo que cada interação seja precisa e oportuna.

O VITA não apenas conversa, mas também pode ser um companheiro de bate-papo durante seus exercícios ou oferecer sugestões em suas viagens. Ele também pode responder a perguntas com base em imagens ou vídeos fornecidos, demonstrando sua grande utilidade.

Embora o VITA já tenha demonstrado um enorme potencial, ele está em constante evolução em aspectos como síntese de fala emocional e suporte multimodal. Os pesquisadores planejam que a próxima geração do VITA consiga gerar áudio de alta qualidade a partir de entradas de vídeo e texto, e até mesmo explorar a possibilidade de gerar simultaneamente áudio e vídeo de alta qualidade.

O código aberto do modelo VITA não é apenas uma vitória tecnológica, mas também uma profunda inovação na forma de interação inteligente. Com o aprofundamento da pesquisa, temos razões para acreditar que o VITA nos proporcionará uma experiência de interação mais inteligente e humana.

Endereço do artigo: https://arxiv.org/pdf/2408.05211

Especialistas sugerem o uso de modelos de IA de grande porte para ajudar menores a evitar o vício em celulares

Recentemente, a Future Net sediou uma "Mesa redonda sobre prevenção do vício em celular em menores" em Pequim, com o objetivo de explorar maneiras eficazes de aliviar o vício em celular entre os jovens. A conferência, centrada no tema "Unindo forças para tecer uma rede de proteção, construindo um novo ecossistema para a infância digital", reuniu especialistas e estudiosos de todos os setores da sociedade para discutir os problemas relacionados ao uso de celulares por menores e as estratégias para lidar com eles. De acordo com o "5º Relatório Nacional sobre o Uso da Internet por Menores", publicado em dezembro de 2023, o celular já se tornou o principal dispositivo de acesso à internet para 91,3% dos menores, sendo que mais de...

Desvendando um Bug Estranho do ChatGPT: Por que ele 'evita' certos nomes?

Recentemente, usuários do ChatGPT descobriram um fenômeno extremamente estranho: quando questionado sobre nomes específicos como 'David Mayer', o chatbot trava ou se recusa a responder. Esse comportamento peculiar gerou especulações e discussões generalizadas. Após investigação, descobriu-se que esses nomes 'intocáveis' incluem Brian Hood, Jonathan Turley, David Faber, etc. À primeira vista, parecem não ter relação, mas uma análise mais aprofundada revela que essas pessoas estão ligadas a eventos públicos específicos ou questões de privacidade.

Spot, o robô da Boston Dynamics, ganha novas habilidades para evitar obstáculos como fios e escadas!

Notícia: O robô canino Spot, da Boston Dynamics, recebeu recentemente uma importante atualização de software que melhorou significativamente sua capacidade de locomoção em ambientes complexos. Embora o Spot consiga “ver” o mundo ao seu redor através de seu sistema de visão tridimensional, ele costumava ter dificuldades em compreender os obstáculos no ambiente. Para melhorar isso, a equipe de desenvolvimento introduziu um modelo de IA básico, permitindo que o Spot identificasse e evitasse vários perigos. Com esta atualização, o Spot pode identificar eficazmente fios elétricos, escadas e obstáculos.

O retorno do guru da tecnologia! Greg retorna à OpenAI, a chave para a revitalização da empresa?

O cofundador e presidente da OpenAI, Greg Brockman, anunciou oficialmente o fim de suas férias de meses e seu retorno à OpenAI. O anúncio gerou ampla atenção e discussão na comunidade tecnológica, especialmente considerando a recente onda de demissões de executivos na OpenAI, tornando o retorno de Greg particularmente significativo. Nos últimos meses, a OpenAI passou por uma série de mudanças em sua alta administração. O cientista-chefe Ilya Sutskever, o diretor de tecnologia Mira Mu...