Modelo de compreensão de vídeo longo Video-XL lançado pela Baidu

AIbase基地

Publicado emNotícias e Informações de IA · 4 minutos de leitura · Oct 28, 2024

354

O Instituto de Inteligência Artificial de Pequim Zhiyuan, em colaboração com universidades como a Universidade Jiao Tong de Xangai, a Universidade do Povo Chinês, a Universidade de Pequim e a Universidade de Ciência e Tecnologia de Pequim, lançou um grande modelo de compreensão de vídeo extra longo chamado Video-XL. Este modelo é uma demonstração importante das capacidades centrais de modelos multimodais e um passo crucial em direção à inteligência artificial geral (AGI). Comparado com os modelos multimodais existentes, o Video-XL demonstra desempenho e eficiência superiores no processamento de vídeos longos com mais de 10 minutos.

微信截图_20241028161117.png

O Video-XL utiliza a capacidade nativa dos modelos de linguagem grandes (LLMs) para comprimir sequências visuais longas, mantendo a capacidade de compreensão de vídeos curtos e mostrando uma capacidade de generalização excepcional na compreensão de vídeos longos. O modelo alcançou o primeiro lugar em várias tarefas em vários benchmarks principais de compreensão de vídeos longos. O Video-XL alcançou um bom equilíbrio entre eficiência e desempenho, exigindo apenas uma placa gráfica com 80 GB de memória de vídeo para processar uma entrada de 2048 quadros, amostrando vídeos de horas de duração e alcançando uma precisão de quase 95% na tarefa de "encontrar uma agulha em um palheiro" de vídeo.

微信截图_20241028161127.png

O Video-XL promete mostrar um amplo valor de aplicação em cenários como resumo de filmes, detecção de anomalias em vídeo e detecção de inserção de anúncios, tornando-se um poderoso assistente para a compreensão de vídeos longos. O lançamento deste modelo marca um passo importante na eficiência e precisão da tecnologia de compreensão de vídeos longos, fornecendo um forte suporte técnico para o processamento e análise automatizados de conteúdo de vídeo longo no futuro.

Atualmente, o código do modelo Video-XL foi aberto para promover a cooperação e o compartilhamento de tecnologia na comunidade global de pesquisa de compreensão de vídeo multimodal.

Título do artigo: Video-XL: Modelo de linguagem de visão extra longo para compreensão de vídeo em escala de horas

Link do artigo: https://arxiv.org/abs/2409.14485

Link do modelo: https://huggingface.co/sy1998/Video_XL

Link do projeto: https://github.com/VectorSpaceLab/Video-XL

DeepSeek lança novo modelo multimodal de IA, Janus-Pro, com recursos aprimorados

A DeepSeek, empresa de modelos de linguagem de grande porte, lançou o novo modelo multimodal Janus-Pro, marcando sua entrada oficial no campo da geração de imagens por texto. Este lançamento representa um avanço significativo na tecnologia de IA multimodal da DeepSeek. Em testes de referência como GenEval e DPG-Bench, o Janus-Pro-7B não apenas superou o DALL-E3 da OpenAI, mas também modelos populares como Stable Diffusion e Emu3-Gen. O Janus-Pro utiliza licença MIT.

A Alibaba DAMO Academy lança o modelo multimodal Valley 2 para cenários de comércio eletrônico

A Alibaba DAMO Academy lançou recentemente um modelo de linguagem grande multimodal chamado Valley2, projetado para cenários de comércio eletrônico. Ele visa melhorar o desempenho em várias áreas e expandir os limites de aplicação em comércio eletrônico e vídeos curtos por meio de uma arquitetura de linguagem visual escalável. O Valley2 utiliza o Qwen2.5 como base do LLM, juntamente com o codificador visual SigLIP-384, combinando camadas MLP e convoluções para uma conversão de recursos eficiente.

Ex-especialista em visão da Microsoft, Hu Han, junta-se à Tencent para liderar o desenvolvimento do modelo multimodal HunYuan

Hu Han, ex-chefe de pesquisa do grupo de computação visual do Microsoft Research Asia, juntou-se oficialmente à Tencent, assumindo o desenvolvimento do modelo multimodal HunYuan, substituindo Liu Wei, ex-líder de tecnologia do modelo HunYuan, que deixou a empresa. Esta notícia chamou a atenção da indústria. Hu Han possui um sólido background acadêmico. Em 2008, graduou-se na Universidade Tsinghua e, em 2014, obteve seu doutorado sob a orientação do renomado professor Zhou Jie. Sua tese de doutorado recebeu o Prêmio de Excelência em Teses de Doutorado da Sociedade Chinesa de Inteligência Artificial em 2016. Em 2012, Hu Han trabalhou na Universidade da Pensilvânia...

Equipe da Universidade de Pequim lança o modelo multimodal LLaVA-o1, com capacidade de raciocínio comparável à do GPT-o1!

Recentemente, uma equipe de pesquisa da Universidade de Pequim e outras instituições anunciou o lançamento de um modelo multimodal de código aberto chamado LLaVA-o1. Afirma-se que este é o primeiro modelo de linguagem visual capaz de realizar raciocínio espontâneo e sistemático, comparável ao GPT-o1. O modelo apresentou desempenho excepcional em seis benchmarks multimodais desafiadores, com sua versão de 11B parâmetros superando outros concorrentes, como Gemini-1.5-pro, GPT-4o-mini e Llama-3.2-90B-Vision-Instruct. L