DiTCtrl

Explorer le contrôle de l'attention dans les transformateurs de diffusion multimodaux pour la génération de longues vidéos multi-prompts sans réglage.

Produit OrdinaireVidéoGénération de vidéoMultimodal

Ouvrir le site Web

DiTCtrl est un modèle de génération de vidéo basé sur l'architecture du transformateur de diffusion multimodal (MM-DiT). Il se concentre sur la génération de vidéos de scènes cohérentes avec plusieurs prompts successifs sans entraînement supplémentaire. Le modèle réalise un contrôle sémantique précis et un partage de l'attention entre les différents prompts en analysant le mécanisme d'attention du MM-DiT, générant ainsi des vidéos avec des transitions fluides et un mouvement d'objets cohérent. Les principaux avantages de DiTCtrl incluent l'absence d'entraînement, la capacité de gérer les tâches de génération de vidéos multi-prompts et la capacité de présenter des effets de transition de style cinématographique. De plus, DiTCtrl fournit un nouveau benchmark, MPVBench, spécialement conçu pour évaluer les performances de la génération de vidéos multi-prompts.

Best AI Websites & Tools

DiTCtrl

DiTCtrl Alternatives

DiTCtrl — Explorer le contrôle de l'attention dans les transformateurs de diffusion multimodaux pour la génération de longues vidéos multi-prompts sans réglage.

OmniHuman-1 — OmniHuman-1 est un cadre multi-modal permettant de générer des vidéos humaines à partir d'une seule image portrait et de signaux de mouvement.

Tora — Transformateur de diffusion guidé par trajectoire pour la génération de vidéos

Inception Labs — Inception Labs lance une nouvelle génération de modèles linguistiques de grande diffusion, offrant une capacité de génération de langage extrêmement rapide, efficace et de haute qualité.

EgoLife — EgoLife est un projet d'assistant IA pour la vie quotidienne, à long terme, multimodal et multi-vues, visant à faire progresser la recherche sur la compréhension du contexte à long terme.

UniTok — UniTok est un tokeniseur visuel unifié pour la génération et la compréhension d'images.

ViDoRAG — ViDoRAG est un framework d'agents d'inférence itérative dynamique qui combine la recherche de documents visuels et l'amélioration de la génération.

Migician — Migician est un grand modèle linguistique multimodale axé sur la localisation multi-images, capable de réaliser une localisation précise multi-images de forme libre.

Mochii AI — Mochii AI est un écosystème d'intelligence artificielle personnalisé, basé sur des modèles de pointe, qui favorise l'avenir de la collaboration entre l'homme et l'IA.

M2RAG — Bibliothèque de code de référence pour la génération améliorée par la recherche dans un contexte multimodal.

TheoremExplainAgent — TheoremExplainAgent est un système intelligent permettant de générer des vidéos explicatives multimodales de théorèmes.

Gemini 2.0 Flash-Lite — Gemini 2.0 Flash-Lite est un modèle linguistique efficace, optimisé pour le traitement de longs textes et de nombreux scénarios d'application.

Phi-4-multimodal-instruct — Phi-4-multimodal-instruct est un modèle de base multimédia léger développé par Microsoft, prenant en charge les entrées texte, image et audio.

Magma-8B — Magma-8B est un modèle d'IA multimodale développé par Microsoft, capable de traiter des entrées image et texte et de générer des sorties textuelles.

DeepSeek Japonais — DeepSeek est un modèle linguistique IA avancé, maîtrisant le raisonnement logique, les mathématiques et la programmation, et disponible gratuitement.

ZeroBench — ZeroBench est un benchmark visuel hautement exigeant conçu pour les grands modèles multimodaux contemporains.

Magma — Magma est un modèle fondamental capable de comprendre et d'exécuter des entrées multimodales, utilisable pour des tâches et des environnements complexes.

Grok 3 — Grok 3, le dernier modèle d'IA phare lancé par xAI, offre des capacités de raisonnement et de traitement multimodale exceptionnelles.

CLaMP 3 — CLaMP 3 est un framework unifié pour la recherche d'informations musicales multimodales et multilingues.

VideoRAG — VideoRAG est un framework de génération amélioré par la recherche conçu pour traiter des vidéos à contexte extrêmement long.

Qwen2.5-VL — Qwen2.5-VL est un puissant modèle linguistique visuel capable de comprendre le contenu des images et des vidéos et de générer du texte correspondant.

Gemini 2.0 Family — Gemini 2.0 est le dernier modèle d'IA générative lancé par Google, incluant les versions Flash, Flash-Lite et Pro.

Gemini 2.0 Pro — Gemini Pro est un modèle d'IA haute performance développé par Google DeepMind, spécialisé dans le traitement de tâches complexes et les performances de programmation.

MILS — Les grands modèles linguistiques (LLM) peuvent voir et entendre sans aucune formation.

Application Android MNN pour grands modèles linguistiques — Application Android polyvalente pour grands modèles linguistiques prenant en charge les fonctionnalités multimodales.

Janus-Pro-7B — Janus-Pro-7B est un nouveau framework autorégressif unifiant la compréhension et la génération multimodales.

Janus-Pro-1B — Janus-Pro-1B est un framework autorégressif unifié de compréhension et de génération multimodale.

Le Dernier Examen de l'Humanité — Le Dernier Examen de l'Humanité est un benchmark multimodale destiné à évaluer les capacités des grands modèles de langage.

CUA — CUA est une interface universelle capable d'interagir avec le monde numérique via une interface graphique.

SmolVLM-256M-Instruct — SmolVLM-256M est le plus petit modèle multi-modal au monde, capable de traiter efficacement les entrées image et texte et de générer des sorties textuelles.