Des anciens élèves de l'Université de Zhejiang collaborent avec Microsoft pour lancer le modèle multimodal LLaVA, remettant en question GPT-4V

量子位

Publié leActualités IA · 1 minutes de lecture · Oct 12, 2023

Un ancien élève de l'université de Zhejiang, en collaboration avec les laboratoires de recherche Microsoft, a lancé LLaVA, un modèle multi-modal qui rivalise avec GPT-4V. LLaVA a démontré d'excellentes performances sur 11 ensembles de données de test, obtenant plus de 6000 étoiles. Ses capacités globales surpassent celles de GPT-4V dans 85% des cas. Le code source, le modèle et les données d'entraînement de LLaVA sont désormais accessibles.

Huawei Ascend et Step-Video lancent un modèle multimodale open source, faisant leur entrée dans le nouveau domaine de l'IA

Récemment, la communauté Modelers a officiellement lancé Step-Video et Step-Audio, deux grands modèles multimodaux open source développés par Step-Video. Ces deux modèles sont respectivement utilisés pour la génération de vidéo et l'interaction vocale, visant à fournir aux développeurs et aux entreprises des outils IA plus performants. Step-Video, dont le nom complet est Step-Video-T2V, est un modèle de génération de vidéo open source parmi les plus grands au monde, avec un nombre de paramètres atteignant 30 milliards. Ce modèle est capable de générer directement des vidéos de 20...

DeepSeek lance Janus-Pro, un nouveau modèle multimodal révolutionnaire

Le développeur chinois de modèles de langage DeepSeek a lancé Janus-Pro, un nouveau modèle d'IA multimodal qui marque son entrée dans le domaine de la génération d'images à partir de texte. Cette avancée représente une percée majeure pour DeepSeek dans le domaine de l'IA multimodale. Dans les benchmarks GenEval et DPG-Bench, Janus-Pro-7B a non seulement surpassé DALL-E3 d'OpenAI, mais a également dépassé des modèles populaires tels que Stable Diffusion et Emu3-Gen. Janus-Pro utilise une licence MIT.

Alibaba Damo Academy lance Valley 2, un grand modèle multimodal pour le commerce électronique

Alibaba Damo Academy a récemment lancé Valley2, un grand modèle linguistique multimodal conçu pour le commerce électronique. Ce modèle vise à améliorer les performances dans divers domaines et à étendre les applications aux scénarios de commerce électronique et de vidéos courtes grâce à une architecture visuelle-linguistique évolutive. Valley2 utilise Qwen2.5 comme backbone LLM, associé à un encodeur visuel SigLIP-384, combiné à une couche MLP et à une convolution pour une conversion efficace des caractéristiques.

Actualités IA

Des anciens élèves de l'Université de Zhejiang collaborent avec Microsoft pour lancer le modèle multimodal LLaVA, remettant en question GPT-4V

量子位

Recommandations d'actualités IA connexes

Huawei Ascend et Step-Video lancent un modèle multimodale open source, faisant leur entrée dans le nouveau domaine de l'IA

Microsoft lance Phi-4, un modèle multimodal et miniature améliorant le traitement de la voix, de la vision et du texte

DeepSeek lance Janus-Pro, un nouveau modèle multimodal révolutionnaire

Alibaba Damo Academy lance Valley 2, un grand modèle multimodal pour le commerce électronique