Universidades Tsinghua e Tencent lançam Oryx, arquitetura multi-modal totalmente de código aberto, com suporte para entrada de vídeos extra longos

AIbase基地

Publicado emNotícias e Informações de IA · 5 minutos de leitura · Sep 29, 2024

236

No mundo de rápido desenvolvimento da inteligência artificial, um modelo de linguagem grande multimodal chamado ORYX está silenciosamente mudando nossa compreensão da capacidade da IA de entender o mundo visual. Este sistema de IA, desenvolvido em conjunto por pesquisadores da Universidade Tsinghua, Tencent e Universidade Tecnológica de Nanyang, é considerado o "Transformers" no campo do processamento visual.

ORYX, abreviação de Oryx Multi-Modal Large Language Models, é um modelo de IA projetado especificamente para lidar com a compreensão espaço-temporal de imagens, vídeos e cenas 3D. Sua principal vantagem é sua capacidade de entender não apenas o conteúdo visual, mas também as conexões entre os conteúdos e as histórias por trás deles, assim como os humanos.

Um dos destaques deste sistema de IA é sua capacidade de lidar com entradas visuais de qualquer resolução. Seja uma foto antiga desfocada ou um vídeo de alta definição, o ORYX consegue lidar com facilidade. Isso se deve ao seu modelo pré-treinado OryxViT, que pode converter imagens de diferentes resoluções em um formato unificado compreensível pela IA.

Ainda mais impressionante é a capacidade de compressão dinâmica do ORYX. Ao lidar com entradas de vídeo longas, ele pode comprimir inteligentemente as informações, preservando o conteúdo essencial sem perda de qualidade. É como resumir um livro grosso em um cartão de anotações rico em informações, mantendo as informações essenciais e melhorando muito a eficiência do processamento.

O princípio de funcionamento do ORYX depende principalmente de dois componentes principais: o codificador visual OryxViT e o módulo de compressão dinâmica. O primeiro é responsável pelo processamento de diversas entradas visuais, enquanto o último garante que grandes quantidades de dados, como vídeos longos, possam ser processados de forma eficiente.

Em aplicações práticas, o ORYX demonstrou um potencial surpreendente. Ele não apenas pode entender profundamente o conteúdo de vídeo, incluindo objetos, enredos e ações, mas também pode captar com precisão a localização e a relação entre objetos em um espaço 3D. Essa capacidade de compreensão visual abrangente abre infinitas possibilidades para futuras interações homem-máquina, monitoramento inteligente, direção autônoma e muito mais.

Vale mencionar que o ORYX apresentou desempenho excepcional em vários testes de referência de linguagem visual, especialmente na compreensão espacial e temporal de dados de imagem, vídeo e 3D multi-visão, demonstrando uma vantagem significativa.

A inovação do ORYX reside não apenas em sua poderosa capacidade de processamento, mas também em sua abertura de um novo paradigma para a compreensão visual da IA. Ele pode processar entradas visuais em resolução nativa e, ao mesmo tempo, processar vídeos longos de forma eficiente por meio de tecnologia de compressão dinâmica. Essa flexibilidade e eficiência são difíceis de alcançar para outros modelos de IA.

Com o avanço contínuo da tecnologia, o ORYX provavelmente desempenhará um papel mais importante no campo da IA no futuro. Ele não apenas ajudará as máquinas a entender melhor nosso mundo visual, mas também pode fornecer novas ideias para simular o processo cognitivo humano.

Endereço do artigo:https://arxiv.org/pdf/2409.12961

Gemini AI alcança avanço inovador no processamento visual: análise simultânea de vídeo em tempo real e imagens estáticas

O Gemini AI do Google recentemente alcançou um avanço notável na tecnologia, capaz de processar simultaneamente múltiplos fluxos visuais, uma conquista sem precedentes no campo da inteligência artificial. Essa funcionalidade não foi apresentada através das plataformas principais do Google, mas sim por meio de um aplicativo experimental chamado "AnyChat". Essa nova capacidade do Gemini AI permite que ele não apenas assista a vídeos em tempo real, mas também analise imagens estáticas simultaneamente, superando a limitação anterior da inteligência artificial de processar apenas uma única entrada visual.

API do modelo OpenAI o1 totalmente otimizado: custo reduzido em 60% e nova capacidade de processamento visual avançada

Durante uma maratona de lives de 12 dias, a OpenAI lançou no 9º dia a API do modelo o1 para desenvolvedores e anunciou uma atualização significativa para a API em tempo real, com suporte à tecnologia WebRTC. A partir da data de lançamento, a OpenAI fornecerá acesso à API o1 para desenvolvedores com nível 5 de acesso à API. Esta atualização da API do modelo o1, em comparação com a versão de pré-visualização anterior, alcançou uma redução de 60% no custo de processamento e adicionou recursos avançados de processamento visual. Simultaneamente, o GPT-4o em processamento de áudio...

Smoore anuncia o primeiro modelo de linguagem grande multi-modal industrial do mundo, IndustryGPT V1.0

A Smoore anunciou o lançamento do IndustryGPT V1.0, o primeiro modelo de linguagem grande multi-modal industrial do mundo. Este modelo pode responder com precisão a perguntas sobre manufatura, identificar defeitos industriais e fornecer suporte à tomada de decisões. A empresa assinou acordos de cooperação estratégica com empresas multinacionais para impulsionar conjuntamente a entrada da manufatura industrial global na era inteligente. O novo modelo lançado tem um significado profundo para a manufatura inteligente e a inovação digital. O lançamento do novo modelo trará inovação tecnológica e desenvolvimento para o setor de manufatura industrial.

A Shengshu Science and Technology lança um modelo de linguagem grande multi-modal, apresentando as ferramentas PixWeaver e VoxCraft

A Shengshu Science and Technology lançou um modelo de linguagem grande multi-modal, juntamente com ferramentas como PixWeaver e VoxCraft. O modelo de linguagem grande multi-modal adota uma abordagem de fusão de baixo nível para realizar a fusão do conhecimento multi-modal. O PixWeaver é uma plataforma de design visual criativo que suporta a geração de imagens em vários estilos. O VoxCraft é uma ferramenta que suporta a criação rápida de imagens 3D. O modelo de linguagem grande da Shengshu Science and Technology também fornece capacidades de serviço para várias indústrias, incluindo produção de jogos, produção de filmes, e marketing de publicidade.