L'Université Tsinghua et Tencent lancent Oryx, une architecture multimodale entièrement open source prenant en charge les entrées vidéo ultralongues

À l'ère du développement rapide de l'intelligence artificielle, un grand modèle linguistique multi-modal appelé ORYX est en train de révolutionner notre perception de la capacité de l'IA à comprendre le monde visuel. Développé conjointement par des chercheurs de l'Université Tsinghua, de Tencent et de l'Université technologique de Nanyang, ce système d'IA est considéré comme le "Transformer" du traitement visuel.

ORYX, acronyme d'Oryx Multi-Modal Large Language Models, est un modèle d'IA spécialement conçu pour traiter les images, les vidéos et la compréhension spatio-temporelle des scènes 3D. Son principal atout réside dans sa capacité à comprendre non seulement le contenu visuel, mais aussi les relations entre les contenus et l'histoire qui se cache derrière, comme le ferait un humain.

L'une des caractéristiques remarquables de ce système d'IA est sa capacité à traiter les entrées visuelles à n'importe quelle résolution. Que ce soient des vieilles photos floues ou des vidéos haute définition, ORYX les gère avec aisance. Ceci est dû à son modèle pré-entraîné OryxViT, qui convertit les images de différentes résolutions en un format unifié compréhensible par l'IA.

Plus étonnant encore est la capacité de compression dynamique d'ORYX. Face à de longues vidéos, il peut intelligemment compresser les informations, en conservant les éléments clés sans perte de qualité. C'est comme condenser un gros livre en un post-it riche en informations, en conservant l'essentiel tout en améliorant considérablement l'efficacité du traitement.

Le fonctionnement d'ORYX repose principalement sur deux composants clés : l'encodeur visuel OryxViT et le module de compression dynamique. Le premier traite les diverses entrées visuelles, tandis que le second garantit un traitement efficace des données volumineuses comme les longues vidéos.

En pratique, ORYX a démontré un potentiel extraordinaire. Il est capable non seulement de comprendre en profondeur le contenu des vidéos, y compris les objets, l'intrigue et les actions, mais aussi de saisir précisément la position et les relations entre les objets dans l'espace 3D. Cette capacité de compréhension visuelle complète ouvre des perspectives infinies pour les interactions homme-machine, la surveillance intelligente, la conduite autonome, etc.

Il est à noter qu'ORYX a obtenu d'excellents résultats dans plusieurs tests de référence visuel-linguistiques, démontrant un avantage significatif, notamment dans la compréhension spatiale et temporelle des images, des vidéos et des données 3D multivues.

L'innovation d'ORYX ne réside pas seulement dans ses puissantes capacités de traitement, mais aussi dans l'ouverture d'une nouvelle voie pour la compréhension visuelle par l'IA. Sa capacité à traiter les entrées visuelles en résolution native, combinée à la compression dynamique pour un traitement efficace des longues vidéos, offre une flexibilité et une efficacité inégalées par les autres modèles d'IA.

Avec les progrès constants de la technologie, ORYX devrait jouer un rôle encore plus important dans le domaine de l'IA à l'avenir. Il aidera non seulement les machines à mieux comprendre notre monde visuel, mais pourrait également fournir de nouvelles pistes pour la simulation des processus cognitifs humains.

Adresse de l'article : https://arxiv.org/pdf/2409.12961

Actualités IA

L'Université Tsinghua et Tencent lancent Oryx, une architecture multimodale entièrement open source prenant en charge les entrées vidéo ultralongues

AIbase基地

Recommandations d'actualités IA connexes

OpenBMB publie le modèle multi-modal MiniCPM-o2.6 : traitement visuel et vocal possible même sur téléphone portable

Gemini AI : Une percée dans le traitement visuel - Analyse simultanée de vidéos en temps réel et d'images statiques

L'API du modèle o1 d'OpenAI est désormais disponible : réduction des coûts de 60 % et nouvelles capacités de traitement visuel avancées