LongVA

Modèle de transformation à long contexte, de la langue à la vision

Produit OrdinaireImageLong contexteModèle visuel

LongVA est un modèle de transformation à long contexte capable de traiter plus de 2000 images ou plus de 200 000 marqueurs visuels. Il affiche des performances de pointe parmi les modèles de 7 milliards de paramètres sur Video-MME. Le modèle a été testé avec CUDA 11.8 et A100-SXM-80G, et peut être rapidement mis en œuvre via la plateforme Hugging Face.

Actualités IA

IA Quotidien

Chronologie de l'IA

Derniers cas

Collection d'images

Collection de vidéos

Collection audio

Collection de contenu

Derniers tutoriels

Classement des produits IA

Classement de la croissance du trafic IA

Classement de la baisse du trafic IA

Classement hebdomadaire de l'IA

États-Unis

Chine

Inde

Brésil

Génération d'images

Assistant personnel

Génération de personnages

Génération de vidéos

Classement des projets IA

Classement de la croissance des projets IA

Classement des développeurs IA

Classement des organisations IA

Deepseek

TTS

LLM

ChatGPT

Aperçu

LongVA

LongVA Dernière situation du trafic

LongVA Tendance des visites

LongVA Distribution géographique des visites

LongVA Sources de trafic

LongVA Alternatives

LongVA — Modèle de transformation à long contexte, de la langue à la vision

ModernBERT-large — Modèle Transformer d'encodage bidirectionnel haute performance

Intégration de Documents — Exploite la puissance de l'IA composite pour traiter les documents en les intégrant directement, surpassant les différences de modalités.

MMAudio — MMAudio génère de l'audio synchronisé à partir d'entrées vidéo et/ou textuelles.

Qwen2.5-Coder-3B-Instruct-GPTQ-Int8 — Modèle d'instruction de 3 milliards de paramètres de la série Qwen2.5-Coder

AI21-Jamba-1.5-Large — Modèle linguistique de base avancé combinant SSM et Transformer.

Gemini Pro — Modèle d'IA multimodal haute performance

Florence-2-base — Modèle de base visuel avancé, prenant en charge diverses tâches de vision et de vision-langage.

Florence-2-large — Modèle de base visuel avancé, prenant en charge plusieurs tâches visuelles et visuelles-linguistiques.

Stable Diffusion 3 : Génération d'images en ligne gratuite — Modèle avancé de génération d'images à partir de texte

Samba — Implémentation officielle d'un modèle linguistique efficace à contexte illimité.

Page Assist - Interface Web pour modèles d'IA locaux — Assiste votre navigation web grâce à vos modèles d'IA locaux.

CuMo — Une architecture avancée pour étendre les grands modèles de langage multimodaux (LLM).

Bunny — Famille de modèles multimodaux légers mais puissants.

Stable Diffusion 3 API — Système avancé de génération d'images à partir de texte

LaVi-Bridge — Connecte différents modèles linguistiques et modèles de génération d'images pour la génération d'images à partir de texte.

VMamba — Modèle d'espace d'état visuel, complexité linéaire, perception globale

AIM — Pré-entraînement d'un modèle d'image autorégressif à grande échelle

Baichuan2-192K — Modèle de langage de grande taille au contexte le plus long au monde

Flash-Décodage — Flash-Décodage pour l'inférence à long contexte