FunAudioLLM

Modèle de base pour la compréhension et la génération de la parole en interaction naturelle

Produit OrdinaireAutreReconnaissance vocaleSynthèse vocale

FunAudioLLM est un framework visant à améliorer l'interaction vocale naturelle entre les humains et les grands modèles de langage (LLM). Il intègre deux modèles innovants : SenseVoice, responsable de la reconnaissance vocale multilingue haute précision, de la reconnaissance des émotions et de la détection d'événements audio ; et CosyVoice, responsable de la génération vocale naturelle, prenant en charge le multilinguisme, le contrôle de la voix et des émotions. SenseVoice prend en charge plus de 50 langues avec une latence extrêmement faible ; CosyVoice excelle dans la génération vocale multilingue, la génération contextuelle zéro-shot, le clonage vocal interlinguistique et la capacité à suivre les instructions. Les modèles associés sont open source sur Modelscope et Huggingface, et le code d'entraînement, d'inférence et d'ajustement fin est disponible sur GitHub.

Best AI Websites & Tools

FunAudioLLM

FunAudioLLM Dernière situation du trafic

FunAudioLLM Tendance des visites

FunAudioLLM Distribution géographique des visites

FunAudioLLM Sources de trafic

FunAudioLLM Alternatives

FunAudioLLM — Modèle de base pour la compréhension et la génération de la parole en interaction naturelle

FireRedASR-AED-L — Modèle de reconnaissance automatique de la parole (RAP) industriel open source, prenant en charge le mandarin, les dialectes chinois et l'anglais, aux performances exceptionnelles.

ElevenLabs Conversational AI — Déploiement rapide d'agents conversationnels IA

Mini-Omni — Modèle linguistique large multimodale open source, prenant en charge la saisie vocale en temps réel et la sortie audio en streaming.

OpenVoiceChat — Conversation vocale naturelle avec un grand modèle linguistique.

parole-à-parole — Module de conversion parole-à-parole open source

ChatTTS.com — Modèle de synthèse vocale pour les scénarios de conversation naturelle

Aya Vision 32B — Aya Vision 32B est un modèle de langage visuel multilingue adapté à de multiples usages, tels que l'OCR, la description d'images et le raisonnement visuel.

Aya Vision 8B — Modèle de langage visuel multilingue à 800 millions de paramètres, prenant en charge l'OCR, la description d'images et le raisonnement visuel.

Encre sonore — Encre sonore est un outil de transcription audio et vidéo rapide, précis et fluide.

Llasa — Modèle de base TTS basé sur le framework Llama, compatible avec 160 000 heures de données vocales tokenisées.

ElevenLabs Scribe — Scribe est le modèle de transcription audio le plus précis au monde, prenant en charge 99 langues.

IndexTTS — Système texte-parole zéro-shot industriel, contrôlable et efficace

Phi-4-multimodal-instruct — Phi-4-multimodal-instruct est un modèle de base multimédia léger développé par Microsoft, prenant en charge les entrées texte, image et audio.

FireRedASR — Modèle de reconnaissance automatique de la parole (RAP) en mandarin standard industriel open source, compatible avec de multiples scénarios d'application.

Zonos-v0.1-hybride — Zonos-v0.1-hybride est un modèle open source de texte à parole de pointe, capable de fournir des services de synthèse vocale de haute qualité.

Orate — Orate est une boîte à outils d'IA axée sur la voix, prenant en charge la synthèse vocale (TTS) et la reconnaissance vocale (STT).

Mistral-Small-24B-Instruct-2501 — Mistral Small 24B est un grand modèle linguistique multi-langue, haute performance et fin-tuning pour les instructions, adapté à de nombreux contextes d'application.

PengChengStarling — PengChengStarling est une boîte à outils de développement de modèles de reconnaissance automatique de la parole (ASR) multilingues, basée sur le projet icefall.

YuE-s1-7B-anneal-en-cot — YuE est un modèle de génération musicale open source capable de transformer des paroles en chansons complètes.

Kokoro TTS — Modèle avancé de synthèse vocale IA basé sur l'architecture StyleTTS 2, doté de 82 millions de paramètres, offrant une synthèse vocale naturelle de haute qualité.

DeepSeek-R1-Distill-Llama-8B — DeepSeek-R1-Distill-Llama-8B est un modèle linguistique open source haute performance, adapté à la génération de texte et aux tâches d'inférence.

Reactive Resume — Générateur de CV gratuit et open source, simplifiant la création, la mise à jour et le partage de CV.

Whisper Turbo.online — Whisper Turbo est un outil de reconnaissance vocale gratuit, rapide et précis, disponible en ligne.

QwQ-32B-Preview-gptqmodel-4bit-vortex-v3 — Il s'agit d'une version quantifiée sur 4 bits du modèle Qwen2.5-32B, conçue pour une inférence efficace et un déploiement nécessitant peu de ressources.

kokoro-onnx — Projet de synthèse vocale (TTS) basé sur le runtime Kokoro et ONNX.

RealtimeSTT — Une bibliothèque robuste, efficace et à faible latence de conversion de la parole en texte, dotée d'une détection avancée d'activité vocale, d'une activation par mot de veille et d'une transcription instantanée.

Audiblez — Outil de conversion de livres électroniques en livres audio.

xiaozhi-esp32 — Projet de chatbot IA basé sur ESP32, capable de conversations multilingues et de reconnaissance vocale.

opensource_notebooklm — Une implémentation open source de NotebookLM, utilisant les technologies Deepseek-V3 et PlayHT TTS.