A NVIDIA lançou recentemente uma nova estrutura de IA para busca e resumo de vídeo (AI Blueprint for Video Search and Summarization), uma solução que revolucionará a forma como analisamos vídeos. Ao contrário dos modelos tradicionais, que só conseguem identificar objetos predefinidos, esta nova estrutura combina IA generativa, modelos de linguagem visual (VLM) e modelos de linguagem ampla (LLM) para alcançar uma compreensão profunda e interação natural com o conteúdo de vídeo.
Este sistema é construído sobre a arquitetura de microsserviços NVIDIA NIM, e sua principal vantagem é a capacidade de compreender vídeos. Combinando processamento de vídeo em segmentos, geração de descrições densas e construção de grafos de conhecimento, o sistema consegue analisar e entender vídeos longos com precisão. Usuários podem gerar resumos de vídeo, fazer perguntas e respostas interativas e monitorar eventos personalizados em fluxos de vídeo em tempo real através de uma simples interface REST API.
Do ponto de vista da arquitetura, a solução inclui vários componentes-chave: um processador de fluxo responsável pela interação e sincronização entre os componentes; o NeMo Guardrails garante a conformidade da entrada do usuário; um pipeline VLM baseado no NVIDIA DeepStream SDK responsável pela decodificação e extração de recursos de vídeo; um banco de dados vetorial para armazenar resultados intermediários; o módulo Context-Aware RAG integra a geração de resumos unificados; e o módulo Graph-RAG captura relações complexas em vídeos através de um banco de dados de grafos.
Na prática, o sistema primeiro divide o vídeo em pequenos segmentos, gera descrições densas usando VLM e depois usa LLM para resumir os resultados da análise. Para fluxos ao vivo, o sistema processa continuamente os segmentos de vídeo e gera resumos em tempo real. Ao construir um grafo de conhecimento, o sistema consegue capturar informações complexas no vídeo, permitindo interações de perguntas e respostas mais profundas.
Esta inovação tecnológica trará mudanças revolucionárias para fábricas, armazéns, lojas de varejo, aeroportos e terminais de transporte. Equipes de operações podem obter insights mais ricos da análise de vídeo através da interação em linguagem natural, permitindo decisões mais inteligentes.
Atualmente, a NVIDIA oferece acesso antecipado a esta solução. Desenvolvedores podem selecionar os modelos apropriados através do catálogo de APIs da NVIDIA, podendo usar serviços gerenciados pela NVIDIA ou optar por implantação local. Esta flexibilidade de implantação ajudará as empresas a criar soluções de análise de vídeo personalizadas de acordo com suas necessidades.
Com o avanço da IA, estamos testemunhando mudanças radicais na análise de vídeo. O lançamento desta nova solução da NVIDIA certamente acelerará a adoção da análise de vídeo inteligente em diversos setores.
Detalhes: https://developer.nvidia.com/blog/build-a-video-search-and-summarization-agent-with-nvidia-ai-blueprint