No mundo de rápido desenvolvimento da inteligência artificial, um modelo de linguagem grande multimodal chamado ORYX está silenciosamente mudando nossa compreensão da capacidade da IA de entender o mundo visual. Este sistema de IA, desenvolvido em conjunto por pesquisadores da Universidade Tsinghua, Tencent e Universidade Tecnológica de Nanyang, é considerado o "Transformers" no campo do processamento visual.
ORYX, abreviação de Oryx Multi-Modal Large Language Models, é um modelo de IA projetado especificamente para lidar com a compreensão espaço-temporal de imagens, vídeos e cenas 3D. Sua principal vantagem é sua capacidade de entender não apenas o conteúdo visual, mas também as conexões entre os conteúdos e as histórias por trás deles, assim como os humanos.
Um dos destaques deste sistema de IA é sua capacidade de lidar com entradas visuais de qualquer resolução. Seja uma foto antiga desfocada ou um vídeo de alta definição, o ORYX consegue lidar com facilidade. Isso se deve ao seu modelo pré-treinado OryxViT, que pode converter imagens de diferentes resoluções em um formato unificado compreensível pela IA.
Ainda mais impressionante é a capacidade de compressão dinâmica do ORYX. Ao lidar com entradas de vídeo longas, ele pode comprimir inteligentemente as informações, preservando o conteúdo essencial sem perda de qualidade. É como resumir um livro grosso em um cartão de anotações rico em informações, mantendo as informações essenciais e melhorando muito a eficiência do processamento.
O princípio de funcionamento do ORYX depende principalmente de dois componentes principais: o codificador visual OryxViT e o módulo de compressão dinâmica. O primeiro é responsável pelo processamento de diversas entradas visuais, enquanto o último garante que grandes quantidades de dados, como vídeos longos, possam ser processados de forma eficiente.
Em aplicações práticas, o ORYX demonstrou um potencial surpreendente. Ele não apenas pode entender profundamente o conteúdo de vídeo, incluindo objetos, enredos e ações, mas também pode captar com precisão a localização e a relação entre objetos em um espaço 3D. Essa capacidade de compreensão visual abrangente abre infinitas possibilidades para futuras interações homem-máquina, monitoramento inteligente, direção autônoma e muito mais.
Vale mencionar que o ORYX apresentou desempenho excepcional em vários testes de referência de linguagem visual, especialmente na compreensão espacial e temporal de dados de imagem, vídeo e 3D multi-visão, demonstrando uma vantagem significativa.
A inovação do ORYX reside não apenas em sua poderosa capacidade de processamento, mas também em sua abertura de um novo paradigma para a compreensão visual da IA. Ele pode processar entradas visuais em resolução nativa e, ao mesmo tempo, processar vídeos longos de forma eficiente por meio de tecnologia de compressão dinâmica. Essa flexibilidade e eficiência são difíceis de alcançar para outros modelos de IA.
Com o avanço contínuo da tecnologia, o ORYX provavelmente desempenhará um papel mais importante no campo da IA no futuro. Ele não apenas ajudará as máquinas a entender melhor nosso mundo visual, mas também pode fornecer novas ideias para simular o processo cognitivo humano.
Endereço do artigo:https://arxiv.org/pdf/2409.12961