CuMo

Une architecture avancée pour étendre les grands modèles de langage multimodaux (LLM).

Produit OrdinaireProgrammationIAApprentissage multimodale

CuMo est une architecture d'extension pour les grands modèles de langage multimodaux (LLM). Elle améliore l'extensibilité du modèle en intégrant des blocs de mélange d'experts (MoE) Top-K clairsemés dans le codeur visuel et le connecteur MLP, sans augmenter significativement les paramètres d'activation lors de l'inférence. CuMo initialise chaque expert dans les blocs MoE après le pré-entraînement des blocs MLP, et utilise une perte auxiliaire pendant la phase d'adaptation aux instructions visuelles pour assurer une charge équilibrée des experts. CuMo surpasse d'autres modèles similaires sur diverses références VQA et de suivi d'instructions visuelles, et est entièrement entraîné sur des ensembles de données open source.

Best AI Websites & Tools

CuMo

CuMo Dernière situation du trafic

CuMo Tendance des visites

CuMo Distribution géographique des visites

CuMo Sources de trafic

CuMo Alternatives

CuMo — Une architecture avancée pour étendre les grands modèles de langage multimodaux (LLM).

AoT — Atom of Thoughts (AoT) est un framework permettant d'améliorer les performances d'inférence des grands modèles de langage.

NeoBase — NeoBase est un assistant de base de données IA open source qui vous permet d'interagir avec votre base de données en langage naturel.

GibberLink — Deux agents IA conversationnels, après s'être mutuellement identifiés comme IA, basculent vers un protocole de communication de niveau sonore.

SWE-RL — Amélioration des capacités de raisonnement des grands modèles de langage dans l'évolution des logiciels open source grâce à l'apprentissage par renforcement

Wan2.1 — Wan2.1 est un modèle de génération vidéo évolué et open source à grande échelle, prenant en charge plusieurs tâches de génération vidéo.

DeepSeek Japonais — DeepSeek est un modèle linguistique IA avancé, maîtrisant le raisonnement logique, les mathématiques et la programmation, et disponible gratuitement.

bRAG-langchain — Un projet open source pour la construction d'applications de génération augmentée par la recherche (RAG).

Coding-Tutor — Exploration du potentiel des grands modèles de langage comme outils d'aide à la programmation, et proposition d'un workflow Trace-and-Verify.

Bulletin Quotidien de Hacker News — Projet de podcast chinois sur Hacker News basé sur l'IA, récupérant automatiquement chaque jour les articles populaires de Hacker News et générant un résumé en chinois.

Meetily — Assistant de réunion IA privilégiant la confidentialité, enregistrant automatiquement les notes de réunion et améliorant l'efficacité des réunions.

Modèle de chatbot Next.js — Un modèle de chatbot IA open source, construit avec Next.js et le SDK IA de Vercel.

Xyne — Xyne est un moteur de recherche et de réponse à base d'IA, open source et conçu pour les environnements professionnels.

Sora sur appareil — Sora sur appareil est un projet de génération de vidéo à partir de texte sur appareil mobile, basé sur un modèle de diffusion.

Kolosal AI — Outil d'entraînement et de déploiement de modèles d'IA en local, prenant en charge l'entraînement personnalisé et l'utilisation multiplateforme.

DeepClaude — API et interface de chat unifiés combinant les capacités de raisonnement de DeepSeek R1 et la créativité et la génération de code de Claude.

Application de Chat Exa & Deepseek — Une application de chat open source utilisant l'API Exa pour la recherche sur le web et Deepseek R1 pour le raisonnement.

Go with the Flow — Une méthode efficace pour contrôler les modes de mouvement des modèles de diffusion vidéo, prenant en charge la personnalisation et le transfert des modes de mouvement.

node-DeepResearch — Recherche et lecture continues de pages web jusqu'à ce que la réponse soit trouvée (ou jusqu'à épuisement du budget de jetons).

Kokoro TTS — Modèle avancé de synthèse vocale IA basé sur l'architecture StyleTTS 2, doté de 82 millions de paramètres, offrant une synthèse vocale naturelle de haute qualité.

Inferable — Inferable est une plateforme open source conçue pour créer des agents conversationnels IA destinés à l'exploitation interne.

Kit de démarrage vidéo IA — Un projet open source permettant de démontrer des modèles de génération de vidéos IA dans un navigateur.

Builder.io — Plateforme de développement visuel alimentée par l'IA qui accélère la conception à code, l'édition visuelle et le CMS d'entreprise pour les équipes numériques.

BaïLing — BaïLing est un robot conversationnel vocal similaire à GPT-4, fonctionnant grâce à une combinaison ASR + LLM + TTS. Il peut fonctionner même sur des configurations basiques et supporte les interruptions.

OpenLIT — OpenLIT est une plateforme open source d'observabilité pour les applications GenAI et LLM.

Ingrédients — Projet permettant de fusionner des photos personnalisées avec des vidéos grâce à un transformateur de diffusion vidéo.

Amurex — Amurex est un outil d'assistance aux réunions basé sur l'IA, offrant des suggestions en temps réel, la transcription des réunions et la synthèse des points clés.

fixa — Plateforme de test et d'observabilité pour les agents vocaux IA

Bakery — Une plateforme en ligne open source d'ajustement fin et de monétisation de modèles d'IA, destinée aux startups d'IA, aux ingénieurs en apprentissage automatique et aux chercheurs.

Open Deep Research — Outil open source générant des rapports IA à partir de résultats de recherche.