Modèle linguistique Spirit LM

Modèle linguistique multi-modal intégrant texte et voix

Produit OrdinaireProductivitéMultimodalModèle linguistique

Spirit LM est un modèle linguistique multi-modal de base capable de combiner librement texte et voix. Ce modèle repose sur un modèle linguistique textuel pré-entraîné de 7 milliards de paramètres, étendu aux données vocales grâce à un entraînement continu sur des unités textuelles et vocales. Les séquences vocales et textuelles sont concaténées en un seul flux de jetons et entraînées à l'aide d'un petit corpus parallèle parole-texte auto-curé, en utilisant une méthode d'entrelacement au niveau des mots. Spirit LM existe en deux versions : une version de base utilisant des unités phonétiques vocales (HuBERT), et une version expressive qui, outre les unités phonétiques, utilise également des unités de hauteur et de style pour simuler l'expressivité. Pour les deux versions, le texte est encodé à l'aide de jetons sous-mots BPE. Le modèle démontre non seulement les capacités sémantiques d'un modèle textuel, mais aussi les capacités expressives d'un modèle vocal. De plus, nous montrons que Spirit LM est capable d'apprendre de nouvelles tâches inter-modales (comme la reconnaissance automatique de la parole (ASR), la synthèse vocale (TTS) et la classification vocale) avec un nombre réduit d'exemples.

Actualités IA

IA Quotidien

Chronologie de l'IA

Al hardware

Derniers cas

Collection d'images

Collection de vidéos

Collection audio

Collection de contenu

Derniers tutoriels

Classement des produits IA

Classement de la croissance du trafic IA

Classement de la baisse du trafic IA

Classement hebdomadaire de l'IA

États-Unis

Chine

Inde

Brésil

Génération d'images

Assistant personnel

Génération de personnages

Génération de vidéos

Classement des projets IA

Classement de la croissance des projets IA

Classement des développeurs IA

Classement des organisations IA

Deepseek

TTS

LLM

ChatGPT

Aperçu

Modèle linguistique Spirit LM

Modèle linguistique Spirit LM Dernière situation du trafic

Modèle linguistique Spirit LM Tendance des visites

Modèle linguistique Spirit LM Distribution géographique des visites

Modèle linguistique Spirit LM Sources de trafic

Modèle linguistique Spirit LM Alternatives

Modèle linguistique Spirit LM — Modèle linguistique multi-modal intégrant texte et voix

Inception Labs — Inception Labs lance une nouvelle génération de modèles linguistiques de grande diffusion, offrant une capacité de génération de langage extrêmement rapide, efficace et de haute qualité.

Gemini 2.0 Flash-Lite — Gemini 2.0 Flash-Lite est un modèle linguistique efficace, optimisé pour le traitement de longs textes et de nombreux scénarios d'application.

Phi-4-multimodal-instruct — Phi-4-multimodal-instruct est un modèle de base multimédia léger développé par Microsoft, prenant en charge les entrées texte, image et audio.

DeepSeek Japonais — DeepSeek est un modèle linguistique IA avancé, maîtrisant le raisonnement logique, les mathématiques et la programmation, et disponible gratuitement.

MiniCPM-o — MiniCPM-o 2.6 : un MLLM (Modèle Linguistique Multimodal) de niveau GPT-4o, capable de réaliser des diffusions en direct visuelles, vocales et multimodales sur un téléphone portable.

Le Langage du Mouvement — Modèle unifié de langage verbal et non verbal pour les mouvements corporels 3D

ultravox-v0_4_1-llama-3_1-70b — Modèle linguistique large multi-modal vocal

EMOVA — Modèle linguistique multimodale riche en émotions

ell — Bibliothèque de programmation de modèle linguistique léger, traitant les invites comme des fonctions.

Enchanted — Application iOS/macOS pour dialoguer avec des modèles linguistiques privés et auto-hébergés.

GPT4o.so — Technologie IA révolutionnaire, interaction intelligente multimodale

VideoLLaMA2-7B — Grand modèle linguistique vidéo, offrant des fonctionnalités de question-réponse visuelle et de génération de sous-titres vidéo.

Gemini 1.5 Flash — Modèle d'IA léger et performant de Google, conçu pour les tâches à haute fréquence et grande échelle.

Any GPT — Modèle linguistique de grande taille multimodale

Qwen-VL — Modèle linguistique visuel polyvalent

imp-v1-3b — Un puissant modèle linguistique multimodal de petite taille

SpeechGPT — Modèle linguistique multimodal

Honeybee — Prédicteur d'amélioration locale pour les modèles linguistiques multimodaux

TinyGPT-V — Modèle linguistique large multimodal performant

ml-ferret — Modèle linguistique de machine (MLLM) de bout en bout, permettant une citation et une localisation précises.

CLoT — Découvrez le potentiel créatif et humoristique des LLM

DreamLLM — Compréhension et création multimodales intégrées

JinaChat — Multimodalités, mémoire étendue, coût réduit

Liquid — Un modèle de génération multimodale intégrant la compréhension et la génération d'images.

InternVL3 — InternVL3 open source : 7 tailles couvrant le traitement de texte, d'images et de vidéos, capacités multimodales étendues à l'analyse d'images industrielles

Kimi-VL — Modèle linguistique visuel hybride open source et expert, hautement efficace, doté de capacités de raisonnement multimodales.

Llama 3.1 Nemotron Ultra 253B — Un modèle linguistique large efficace pour le raisonnement et la conversation.

DreamActor-M1 — Un framework d'animation d'images humaines basé sur DiT, permettant un contrôle précis et une cohérence à long terme.

Gemini 2.5 — O Gemini 2.5 é o modelo de IA mais inteligente do Google, com capacidade de raciocínio.