UniMuMo

Modèle de génération unifié de texte, musique et mouvement

Produit OrdinaireMusiqueIntelligence artificielleApprentissage automatique

UniMuMo est un modèle multi-modal capable de prendre en entrée des données textuelles, musicales et de mouvement arbitraires pour générer des sorties couvrant les trois modalités. Le modèle relie ces modalités grâce à une architecture de transformateur encodeur-décodeur unifiée, en convertissant la musique, le mouvement et le texte en représentations basées sur des jetons. Il réduit considérablement les besoins en calcul en affinant des modèles pré-entraînés unimodaux existants. UniMuMo obtient des résultats compétitifs sur tous les benchmarks de génération unidirectionnelle pour les modalités musicales, de mouvement et textuelles.

Best AI Websites & Tools

UniMuMo

UniMuMo Dernière situation du trafic

UniMuMo Tendance des visites

UniMuMo Distribution géographique des visites

UniMuMo Sources de trafic

UniMuMo Alternatives

UniMuMo — Modèle de génération unifié de texte, musique et mouvement

InternVL2_5-4B-MPO-AWQ — Modèle linguistique de grande taille multi-modal, optimisant les capacités d'interaction entre l'image et le texte.

Modèle de langage étendu Xi Hu — Un modèle multimodal de grande envergure doté d'une intelligence émotionnelle et intellectuelle exceptionnelles

SEED-Story — Modèle de génération d'histoires longues multimodales

NotaGen — NotaGen est un modèle de génération de musique symbolique, entraîné selon le paradigme des grands modèles de langage, axé sur la génération de partitions classiques de haute qualité.

Inception Labs — Inception Labs lance une nouvelle génération de modèles linguistiques de grande diffusion, offrant une capacité de génération de langage extrêmement rapide, efficace et de haute qualité.

DiffRhythm — DiffRhythm est une technique de génération de morceaux complets de bout en bout basée sur un modèle de diffusion latente, capable de générer en peu de temps des chansons complètes comprenant des voix et un accompagnement.

UniTok — UniTok est un tokeniseur visuel unifié pour la génération et la compréhension d'images.

Migician — Migician est un grand modèle linguistique multimodale axé sur la localisation multi-images, capable de réaliser une localisation précise multi-images de forme libre.

Mochii AI — Mochii AI est un écosystème d'intelligence artificielle personnalisé, basé sur des modèles de pointe, qui favorise l'avenir de la collaboration entre l'homme et l'IA.

TheoremExplainAgent — TheoremExplainAgent est un système intelligent permettant de générer des vidéos explicatives multimodales de théorèmes.

ZeroBench — ZeroBench est un benchmark visuel hautement exigeant conçu pour les grands modèles multimodaux contemporains.

VideoRAG — VideoRAG est un framework de génération amélioré par la recherche conçu pour traiter des vidéos à contexte extrêmement long.

OmniHuman-1 — OmniHuman-1 est un cadre multi-modal permettant de générer des vidéos humaines à partir d'une seule image portrait et de signaux de mouvement.

MILS — Les grands modèles linguistiques (LLM) peuvent voir et entendre sans aucune formation.

Janus-Pro-7B — Janus-Pro-7B est un nouveau framework autorégressif unifiant la compréhension et la génération multimodales.

YuE — YuE est un modèle de base musical open source axé sur la génération de morceaux complets, capable de générer des œuvres musicales complètes à partir de paroles.

Le Dernier Examen de l'Humanité — Le Dernier Examen de l'Humanité est un benchmark multimodale destiné à évaluer les capacités des grands modèles de langage.

UI-TARS — UI-TARS est un modèle d'agent GUI natif de nouvelle génération conçu pour automatiser les interactions avec les interfaces graphiques utilisateur.

MinMo — MinMo est un grand modèle linguistique multimodal conçu pour une interaction vocale transparente.

Moondream AI — Modèle linguistique visuel open source, fonctionnant sur divers appareils.

DiffSensei — Modèle de génération de mangas personnalisé, connectant les LLM multimodaux et les modèles de diffusion.

Valley 2.0 — Modèle linguistique de grande taille multimodale améliorant le traitement des données textuelles, images et vidéos.

Valley — Modèle multimodal de grande taille, traitant les données textuelles, images et vidéos.

FlagAI — Projet open source tout-en-un d'algorithmes, de modèles et d'outils d'optimisation de grands modèles.

Astris AI — Astris AI est une solution d'intelligence artificielle axée sur la sécurité, développée par Lockheed Martin.

Infini-Megrez — Modèle de compréhension multimodale pour périphériques, combinant logiciel et matériel pour libérer l'intelligence périphérique sans limites.

WePOINTS — Le projet WePOINTS fournit un cadre unifié pour les modèles multimodaux.

InternVL 2.5 — Série de grands modèles linguistiques multimodaux open source

OLMo-2-1124-7B-RM — Grand modèle linguistique utilisé pour la génération et la classification de texte