LLaVA-OneVision

Modèle de transformation performant pour les tâches de vision multimodale

Produit OrdinaireImageMultimodalReconnaissance visuelle

LLaVA-OneVision est un grand modèle multi-modal (LMM) développé par ByteDance en collaboration avec plusieurs universités. Il repousse les limites des performances des grands modèles multimodaux ouverts dans les scénarios d'images uniques, multiples et vidéo. La conception du modèle permet un apprentissage par transfert puissant entre différents modes/scénarios, démontrant de nouvelles capacités de synthèse, notamment en matière de compréhension vidéo et de capacité inter-scénarios, comme illustré par la conversion de tâches image-vers-vidéo.

Best AI Websites & Tools

LLaVA-OneVision

LLaVA-OneVision Dernière situation du trafic

LLaVA-OneVision Tendance des visites

LLaVA-OneVision Distribution géographique des visites

LLaVA-OneVision Sources de trafic

LLaVA-OneVision Alternatives

LLaVA-OneVision — Modèle de transformation performant pour les tâches de vision multimodale

Valley — Modèle multimodal de grande taille, traitant les données textuelles, images et vidéos.

Video-MME — Première référence exhaustive évaluant les performances des grands modèles de langage multimodaux (MLLM) dans l'analyse vidéo.

MouSi — Modèle linguistique visuel multimodal

Inception Labs — Inception Labs lance une nouvelle génération de modèles linguistiques de grande diffusion, offrant une capacité de génération de langage extrêmement rapide, efficace et de haute qualité.

HunyuanVideo-I2V — HunyuanVideo-I2V est un framework de génération d'image à vidéo basé sur HunyuanVideo, lancé par Tencent.

UniTok — UniTok est un tokeniseur visuel unifié pour la génération et la compréhension d'images.

Migician — Migician est un grand modèle linguistique multimodale axé sur la localisation multi-images, capable de réaliser une localisation précise multi-images de forme libre.

Mochii AI — Mochii AI est un écosystème d'intelligence artificielle personnalisé, basé sur des modèles de pointe, qui favorise l'avenir de la collaboration entre l'homme et l'IA.

TheoremExplainAgent — TheoremExplainAgent est un système intelligent permettant de générer des vidéos explicatives multimodales de théorèmes.

ZeroBench — ZeroBench est un benchmark visuel hautement exigeant conçu pour les grands modèles multimodaux contemporains.

VideoRAG — VideoRAG est un framework de génération amélioré par la recherche conçu pour traiter des vidéos à contexte extrêmement long.

OmniHuman-1 — OmniHuman-1 est un cadre multi-modal permettant de générer des vidéos humaines à partir d'une seule image portrait et de signaux de mouvement.

MatAnyone — MatAnyone est un framework de rotoscopie vidéo stable et ciblée, adapté aux arrière-plans complexes.

MILS — Les grands modèles linguistiques (LLM) peuvent voir et entendre sans aucune formation.

Janus-Pro-7B — Janus-Pro-7B est un nouveau framework autorégressif unifiant la compréhension et la génération multimodales.

Le Dernier Examen de l'Humanité — Le Dernier Examen de l'Humanité est un benchmark multimodale destiné à évaluer les capacités des grands modèles de langage.

leapfusion-hunyuan-image2video — Une nouvelle technique d'échantillonnage image-vers-vidéo, basée sur le modèle Hunyuan, permettant la génération de vidéos de haute qualité.

SmolVLM-256M-Instruct — SmolVLM-256M est le plus petit modèle multi-modal au monde, capable de traiter efficacement les entrées image et texte et de générer des sorties textuelles.

UI-TARS — UI-TARS est un modèle d'agent GUI natif de nouvelle génération conçu pour automatiser les interactions avec les interfaces graphiques utilisateur.

MinMo — MinMo est un grand modèle linguistique multimodal conçu pour une interaction vocale transparente.

Moondream AI — Modèle linguistique visuel open source, fonctionnant sur divers appareils.

FitDiT — FitDiT est une nouvelle technologie d'augmentation de la perception vestimentaire pour l'essayage virtuel haute fidélité.

Hallo3 — Technique d'animation d'images de portrait hautement dynamique et réaliste basée sur un réseau de transformateurs de diffusion.

SVFR — SVFR est un framework unifié pour la restauration faciale vidéo.

InternVL2_5-38B-MPO — Série de modèles InternVL2.5-MPO, basée sur InternVL2.5 et l'optimisation des préférences mixtes, démontrant des performances exceptionnelles.

DiffSensei — Modèle de génération de mangas personnalisé, connectant les LLM multimodaux et les modèles de diffusion.

InternVL2_5-4B-MPO-AWQ — Modèle linguistique de grande taille multi-modal, optimisant les capacités d'interaction entre l'image et le texte.

Valley 2.0 — Modèle linguistique de grande taille multimodale améliorant le traitement des données textuelles, images et vidéos.

Idéal Étudiant — Votre assistant intelligent, toujours à vos côtés.