Llasa-1B

Llasa-1B est un modèle de synthèse vocale (TTS) basé sur LLaMA, prenant en charge la synthèse vocale en chinois et en anglais.

Produit OrdinaireAutreTexte-à-paroleSynthèse vocale

Ouvrir le site Web

Llasa-1B est un modèle de synthèse vocale développé par le laboratoire audio de l'Université de Science et Technologie de Hong Kong. Basé sur l'architecture LLaMA et intégrant les marqueurs vocaux du codebook XCodec2, il convertit le texte en parole naturelle et fluide. Entraîné sur 250 000 heures de données vocales en chinois et en anglais, ce modèle permet de générer de la parole à partir de texte brut ou d'utiliser des invites vocales pour une synthèse plus précise. Ses principaux avantages sont la génération de parole multilingue de haute qualité, adaptée à divers contextes tels que les livres audio et les assistants vocaux. Ce modèle est sous licence CC BY-NC-ND 4.0 et son utilisation commerciale est interdite.

Best AI Websites & Tools

Llasa-1B

Llasa-1B Dernière situation du trafic

Llasa-1B Tendance des visites

Llasa-1B Distribution géographique des visites

Llasa-1B Sources de trafic

Llasa-1B Alternatives

Llasa-1B — Llasa-1B est un modèle de synthèse vocale (TTS) basé sur LLaMA, prenant en charge la synthèse vocale en chinois et en anglais.

Llasa-3B — Llasa-3B est un modèle de synthèse vocale texte-à-parole basé sur LLaMA, prenant en charge la génération vocale en chinois et en anglais.

Kokoro-82M — Modèle texte-à-parole (TTS) de pointe disposant de 82 millions de paramètres.

VALL-E 2 — Technologie de synthèse vocale développée par le Microsoft Research Asia

HunyuanVideo-I2V — HunyuanVideo-I2V est un framework de génération d'image à vidéo basé sur HunyuanVideo, lancé par Tencent.

Llasa — Modèle de base TTS basé sur le framework Llama, compatible avec 160 000 heures de données vocales tokenisées.

Octave TTS — Octave TTS est le premier modèle de synthèse vocale capable de comprendre le sens du texte et de générer une voix expressive et stylée.

IndexTTS — Système texte-parole zéro-shot industriel, contrôlable et efficace

Wan — Wan est un modèle de génération d'images avancé développé par Alibaba Cloud Tongyi Lab, capable de générer des vidéos à partir de texte, d'images et plus encore.

SkyReels-V1-Hunyuan-I2V — SkyReels V1 est un modèle de base vidéo open source centré sur l'humain, axé sur la génération de vidéos de qualité cinématographique.

SkyReels-V1 — SkyReels-V1 est le premier modèle de base vidéo open source centré sur l'humain, axé sur la génération de vidéos de haute qualité.

DeepScaleR-1.5B-Preview — Un grand modèle linguistique optimisé par apprentissage par renforcement, axé sur l'amélioration de la résolution de problèmes mathématiques.

Lumina-Video — Lumina-Video est un projet initial de génération vidéo, prenant en charge la génération de vidéo à partir de texte.

Zonos-v0.1 — Zonos-v0.1 est un modèle de synthèse vocale (TTS) en temps réel doté d'une fonction de clonage vocal haute fidélité.

TurboTTS — TurboTTS est un outil de synthèse vocale en ligne gratuit offrant une synthèse vocale de haute qualité et réaliste.

Sonofa — Transformez vos pages web, PDF ou images en podcasts captivants, pour une écoute facile où que vous soyez, quand vous le souhaitez.

YuE — YuE est un modèle de base musical open source axé sur la génération de morceaux complets, capable de générer des œuvres musicales complètes à partir de paroles.

CosyVoice Générateur de Voix 2.0 - 0.5B — Modèle de synthèse vocale performant et multilingue

Allegro-TI2V — Modèle de génération de vidéo à partir de texte et d'image

OuteTTS-0.2-500M — Modèle de synthèse vocale haute performance

OuteTTS-0.1-350M — Modèle de synthèse vocale texte-à-parole basé sur un modèle linguistique pur.

hertz-dev — Modèle de base de génération audio full-duplex open source

CogView3-Plus-3B — Modèle de génération d'images à partir de texte, prenant en charge la génération d'images haute résolution.

F5-TTS — Modèle de synthèse vocale (TTS) de haute qualité basé sur l'apprentissage profond

Llama 3.2 3b Voice — Outil de synthèse vocale utilisant le modèle Llama.

pdf-à-podcast — Convertit n'importe quel document PDF en émission de podcast.

Qwen2.5 — Modèle linguistique de grande taille open source, prenant en charge les applications multilingues et professionnelles.

g1 — Création d'une chaîne de raisonnement similaire à o1 sur Groq en utilisant le modèle open source Llama-3.1 70b

OptiSpeech — Modèle texte-à-parole léger et de bout en bout

CogVideoX — Modèle de génération de vidéo à partir de texte