FireRedASR-AED-L

Modèle de reconnaissance automatique de la parole (RAP) industriel open source, prenant en charge le mandarin, les dialectes chinois et l'anglais, aux performances exceptionnelles.

Produit OrdinaireProductivitéReconnaissance vocaleOpen source

Ouvrir le site Web

FireRedASR-AED-L est un modèle de reconnaissance automatique de la parole (RAP) industriel open source, conçu pour répondre aux besoins de reconnaissance vocale haute performance et haute efficacité. Ce modèle utilise une architecture encodeur-décodeur basée sur l'attention, et prend en charge plusieurs langues, notamment le mandarin, les dialectes chinois et l'anglais. Il a atteint de nouveaux sommets lors de tests de référence de reconnaissance vocale en mandarin standard, et offre d'excellentes performances dans la reconnaissance des paroles de chansons. Ses principaux avantages incluent des performances élevées, une faible latence et une large applicabilité, le rendant adapté à divers scénarios d'interaction vocale. Son caractère open source permet aux développeurs d'utiliser et de modifier librement le code, stimulant ainsi le développement de la technologie de reconnaissance vocale.

Actualités IA

IA Quotidien

Chronologie de l'IA

Derniers cas

Collection d'images

Collection de vidéos

Collection audio

Collection de contenu

Derniers tutoriels

Classement des produits IA

Classement de la croissance du trafic IA

Classement de la baisse du trafic IA

Classement hebdomadaire de l'IA

États-Unis

Chine

Inde

Brésil

Génération d'images

Assistant personnel

Génération de personnages

Génération de vidéos

Classement des projets IA

Classement de la croissance des projets IA

Classement des développeurs IA

Classement des organisations IA

Deepseek

TTS

LLM

ChatGPT

Aperçu

FireRedASR-AED-L

FireRedASR-AED-L Dernière situation du trafic

FireRedASR-AED-L Tendance des visites

FireRedASR-AED-L Distribution géographique des visites

FireRedASR-AED-L Sources de trafic

FireRedASR-AED-L Alternatives

FireRedASR-AED-L — Modèle de reconnaissance automatique de la parole (RAP) industriel open source, prenant en charge le mandarin, les dialectes chinois et l'anglais, aux performances exceptionnelles.

FunAudioLLM — Modèle de base pour la compréhension et la génération de la parole en interaction naturelle

Aya Vision 32B — Aya Vision 32B est un modèle de langage visuel multilingue adapté à de multiples usages, tels que l'OCR, la description d'images et le raisonnement visuel.

Aya Vision 8B — Modèle de langage visuel multilingue à 800 millions de paramètres, prenant en charge l'OCR, la description d'images et le raisonnement visuel.

Encre sonore — Encre sonore est un outil de transcription audio et vidéo rapide, précis et fluide.

ElevenLabs Scribe — Scribe est le modèle de transcription audio le plus précis au monde, prenant en charge 99 langues.

Phi-4-multimodal-instruct — Phi-4-multimodal-instruct est un modèle de base multimédia léger développé par Microsoft, prenant en charge les entrées texte, image et audio.

FireRedASR — Modèle de reconnaissance automatique de la parole (RAP) en mandarin standard industriel open source, compatible avec de multiples scénarios d'application.

Mistral-Small-24B-Instruct-2501 — Mistral Small 24B est un grand modèle linguistique multi-langue, haute performance et fin-tuning pour les instructions, adapté à de nombreux contextes d'application.

PengChengStarling — PengChengStarling est une boîte à outils de développement de modèles de reconnaissance automatique de la parole (ASR) multilingues, basée sur le projet icefall.

YuE-s1-7B-anneal-en-cot — YuE est un modèle de génération musicale open source capable de transformer des paroles en chansons complètes.

Kokoro TTS — Modèle avancé de synthèse vocale IA basé sur l'architecture StyleTTS 2, doté de 82 millions de paramètres, offrant une synthèse vocale naturelle de haute qualité.

DeepSeek-R1-Distill-Llama-8B — DeepSeek-R1-Distill-Llama-8B est un modèle linguistique open source haute performance, adapté à la génération de texte et aux tâches d'inférence.

Reactive Resume — Générateur de CV gratuit et open source, simplifiant la création, la mise à jour et le partage de CV.

Whisper Turbo.online — Whisper Turbo est un outil de reconnaissance vocale gratuit, rapide et précis, disponible en ligne.

QwQ-32B-Preview-gptqmodel-4bit-vortex-v3 — Il s'agit d'une version quantifiée sur 4 bits du modèle Qwen2.5-32B, conçue pour une inférence efficace et un déploiement nécessitant peu de ressources.

RealtimeSTT — Une bibliothèque robuste, efficace et à faible latence de conversion de la parole en texte, dotée d'une détection avancée d'activité vocale, d'une activation par mot de veille et d'une transcription instantanée.

xiaozhi-esp32 — Projet de chatbot IA basé sur ESP32, capable de conversations multilingues et de reconnaissance vocale.

Moonshine Web — Application de reconnaissance vocale en temps réel dans le navigateur

RWKV-6 Finch 7B World 3 — Modèle d'IA open source, doté de 7 milliards de paramètres et entraîné sur 3,1 billions de jetons multilingues.

ElevenLabs Conversational AI — Déploiement rapide d'agents conversationnels IA

Transcribro — Clavier et service de transcription vocale privés et locaux pour Android.

Reverb — Code d'inférence de modèles de reconnaissance vocale et de séparation de locuteurs open source.

OmniSenseVoice — Reconnaissance vocale ultrarapide, horodatage précis

EVI 2 — Nouveau modèle linguistique de base voix-à-voix, offrant une expérience de conversation humaine.

Mini-Omni — Modèle linguistique large multimodale open source, prenant en charge la saisie vocale en temps réel et la sortie audio en streaming.

OpenVoiceChat — Conversation vocale naturelle avec un grand modèle linguistique.

parole-à-parole — Module de conversion parole-à-parole open source

WeST — Transcription vocale basée sur un LLM, implémentée en 300 lignes de code.

Llama 3.1 — Modèle d'IA open source de pointe, prenant en charge plusieurs langues et des fonctionnalités avancées.