A ByteDance anunciou o lançamento de seu novo modelo multi-modal, Vidi, focado na compreensão e edição de vídeos. Sua principal capacidade inicial é a função de recuperação de tempo precisa. De acordo com o AIbase, o Vidi pode processar entradas visuais, de áudio e de texto, suportando a análise de vídeos extremamente longos de até uma hora, superando modelos principais como GPT-4o e Gemini em tarefas de recuperação de tempo. Essa tecnologia inovadora já gerou muita discussão na comunidade de IA, e detalhes relevantes foram divulgados através dos canais oficiais da ByteDance e do GitHub.

1.jpg

Funcionalidades principais: Recuperação de tempo precisa e colaboração multi-modal

O Vidi, com sua poderosa capacidade de recuperação de tempo e processamento multi-modal, oferece uma nova solução para a compreensão e edição de vídeos. O AIbase analisou suas principais funcionalidades:

Localização precisa da recuperação de tempo: O Vidi pode localizar com precisão segmentos específicos em um vídeo com base em prompts de texto ou entradas multi-modais (como "encontre o segmento de 30 segundos em que a personagem dança"), com resolução de tempo em segundos, melhorando significativamente a eficiência da recuperação de conteúdo.

Suporte a vídeos longos: Suporta o processamento de vídeos de até uma hora, superando os gargalos de memória e computação de modelos tradicionais na compreensão de vídeos de sequências longas, adequado para analisar filmes, transmissões ao vivo ou gravações de conferências.

Processamento de entrada multi-modal: Integra visual (sequências de quadros), áudio (voz, sons de fundo) e texto (legendas, descrições), permitindo a compreensão semântica multi-modal, como localizar momentos importantes de um vídeo com base na emoção do áudio.

Capacidade de edição eficiente: Suporta a edição, reorganização e anotação de segmentos de vídeo com base na recuperação de tempo, simplificando o processo de criação e pós-produção de conteúdo.

O AIbase observou que testes da comunidade mostraram que o Vidi, ao processar o conjunto de dados Youku-mPLUG (10 milhões de pares vídeo-linguagem), consegue localizar rapidamente segmentos de cenários complexos, superando o desempenho do GPT-4o na tarefa de recuperação de tempo do ActivityNet (aumento de aproximadamente 10% na precisão).

Arquitetura tecnológica: Codificação de tempo inovadora e fusão multi-modal

O Vidi é baseado na estrutura VeOmni da ByteDance, combinando um modelo de linguagem grande específico para vídeo (Vid-LLM) e uma arquitetura de transformador aprimorada no tempo. A análise do AIbase indica que suas tecnologias principais incluem:

Transformador aprimorado no tempo: Através da incorporação temporal (Temporal Embedding) e do mecanismo de atenção hierárquica, otimiza o modelamento da relação espaço-temporal de vídeos de sequências longas, garantindo uma recuperação de tempo de alta precisão.

Codificador multi-modal: Utiliza a representação visual unificada do Chat-UniVi, fundindo quadros de vídeo, formas de onda de áudio e incorporação de texto, suportando o alinhamento semântico multi-modal e reduzindo a perda de informações.

Otimização de inferência eficiente: Utiliza o sistema de treinamento distribuído ByteScale da ByteDance, combinando quantização de 4 bits e processamento de divisão dinâmica, reduzindo significativamente o custo computacional do processamento de vídeos extremamente longos.

Dados de treinamento: Os dados de treinamento incluem Youku-mPLUG (10 milhões de pares vídeo-linguagem) e WebVid-10M, cobrindo várias línguas e cenários diversos, melhorando a capacidade de generalização do modelo.

O AIbase acredita que a capacidade de recuperação de tempo do Vidi se deve ao seu inovador mecanismo PHD-CSWA (Chunk-wise Sliding Window Attention), em linha com a tecnologia de dimensionamento de comprimento de pré-treinamento eficiente lançada anteriormente pela ByteDance, especialmente adequada para tarefas de sequências longas.

Cenários de aplicação: Da criação de conteúdo à análise inteligente

A capacidade multi-modal do Vidi e o suporte a vídeos extremamente longos abrem um amplo leque de cenários de aplicação. O AIbase resume seus principais usos:

Criação e edição de conteúdo: Oferece aos criadores de vídeo ferramentas de localização precisa de segmentos e edição automática, simplificando a produção de vídeos curtos, vlogs ou trailers de filmes, como a extração rápida de momentos importantes de uma transmissão ao vivo.

Análise inteligente de vídeo: Permite que as empresas analisem gravações longas de conferências ou vídeos de monitoramento, anotando automaticamente eventos importantes (como "segmento sobre discussão de orçamento"), melhorando a eficiência da recuperação de informações.

Educação e treinamento: Analisa vídeos educacionais, localizando pontos específicos de conhecimento ou segmentos interativos, gerando segmentos de aprendizagem personalizados, adequados para plataformas de educação online.

Entretenimento e recomendação: Otimiza sistemas de recomendação de vídeo em plataformas como o TikTok, melhorando a precisão da correspondência de conteúdo através da análise semântica e temporal, melhorando a experiência do usuário.

O feedback da comunidade mostra que o Vidi tem um desempenho excepcional no processamento de vídeos longos em chinês (como programas de variedades), e seu suporte multilíngue (cobrindo 8 idiomas) amplia ainda mais seu potencial de aplicação global. O AIbase observou que o Vidi se integra perfeitamente ao ecossistema de modelos Doubao da ByteDance, fornecendo uma base sólida para implantação comercial.

Guia de início rápido: Suporte de código aberto, amigável para desenvolvedores

O AIbase soube que o código e os modelos pré-treinados do Vidi serão de código aberto no GitHub (previsto para github.com/ByteDance-Seed/Vidi), suportando PyTorch e a estrutura VeOmni. Os desenvolvedores podem começar rapidamente seguindo estas etapas:

Clone o repositório Vidi, instale Python 3.9+ e dependências NVIDIA CUDA;

Baixe o conjunto de dados Youku-mPLUG ou WebVid-10M, configure a tarefa de recuperação de tempo;

Execute a inferência usando o script vidi.yaml fornecido, inserindo prompts multi-modais (como "localize a parte do vídeo em que o palestrante menciona IA");

Exporte o segmento localizado ou o resultado da edição, suportando formatos MP4 ou JSON.

A imagem Docker fornecida pela comunidade e a integração com o Hugging Face simplificam o processo de implantação. O hardware recomendado é NVIDIA A100 (40 GB) ou RTX3090 (24 GB). O AIbase recomenda que os desenvolvedores testem primeiro a função de recuperação de tempo do Vidi nos conjuntos de dados ActivityNet ou EgoSchema para verificar suas vantagens de desempenho.

Comparação de desempenho: Superando GPT-4o e Gemini

O desempenho do Vidi em tarefas de recuperação de tempo é particularmente notável. O AIbase compilou uma comparação com os modelos principais:

Precisão da recuperação de tempo: No conjunto de dados ActivityNet, a precisão do Vidi é aproximadamente 10% maior que a do GPT-4o e aproximadamente 12% maior que a do Gemini 1.5 Pro, especialmente em vídeos longos (> 30 minutos), apresentando desempenho estável.

Velocidade de processamento: O tempo médio de processamento do Vidi para um vídeo de uma hora é de 5 a 7 minutos (128 GPUs), melhor que os 8 a 10 minutos do GPT-4o, graças ao mecanismo de atenção em blocos.

Compreensão multi-modal: Em tarefas de perguntas e respostas de vídeo do Youku-mPLUG, a pontuação geral do Vidi (combinando visual, áudio e texto) supera o Gemini 1.5 Pro em cerca de 5%, sendo comparável ao GPT-4o.

A análise da comunidade sugere que as vantagens de desempenho do Vidi derivam de sua otimização focada em vídeo, em vez de um design multi-modal geral, sendo particularmente direcionado para a percepção temporal e o processamento de sequências longas. O AIbase prevê que o código aberto do Vidi impulsionará ainda mais a competição no campo do Vid-LLM.

Endereço do projeto: https://bytedance.github.io/vidi-website/