WeST

Transcription vocale basée sur un LLM, implémentée en 300 lignes de code.

Produit OrdinaireProgrammationReconnaissance vocaleTraitement du langage naturel

WeST est un modèle open source de transcription vocale qui convertit la parole en texte grâce à un grand modèle linguistique (LLM), le tout en seulement 300 lignes de code. Il se compose d'un grand modèle linguistique, d'un encodeur vocal et d'un projecteur ; seule la partie du projecteur est entraînable. Inspiré de SLAM-ASR et LLaMA 3.1, WeST vise à fournir une solution efficace de reconnaissance vocale via un code simplifié.

Best AI Websites & Tools

WeST

WeST Dernière situation du trafic

WeST Tendance des visites

WeST Distribution géographique des visites

WeST Sources de trafic

WeST Alternatives

WeST — Transcription vocale basée sur un LLM, implémentée en 300 lignes de code.

Q-RWKV-6 32B Instruct - Aperçu — Variante de modèle RWKV la plus puissante, surpassant plusieurs benchmarks en anglais.

Llama-3.1-Tulu-3-8B-DPO — Modèle de génération de texte avancé, prenant en charge diverses tâches

SLM_Survey — Étude, mesure et analyse des petits modèles linguistiques

Reflection Llama-3.1 70B — Modèle linguistique de grande taille (LLM) open source parmi les meilleurs au monde

Aixploria — Répertoire d'outils IA, découvrez les meilleurs outils IA

OpenVoiceChat — Conversation vocale naturelle avec un grand modèle linguistique.

Llama3-s v0.2 — Dernier point de contrôle multimodal, améliorant la compréhension de la parole.

1.5-Pints — Modèle linguistique de grande taille compact pré-entraîné en 9 jours

parole-à-parole — Module de conversion parole-à-parole open source

Agents 2.0 — Framework open source, prenant en charge les agents linguistiques adaptatifs pilotés par les données.

Gemini 1.5 Flash — Modèle d'IA léger et performant de Google, conçu pour les tâches à haute fréquence et grande échelle.

MAP-NEO — Un grand modèle linguistique entièrement open source, offrant des capacités avancées de traitement du langage naturel.

Cognita — Framework open source pour la construction d'applications modulaires de production.

Qwen1.5-110B — Premier modèle open source de la série Qwen1.5 avec 110 milliards de paramètres, prenant en charge plusieurs langues et doté d'une architecture de décodeur Transformer efficace.

Snowflake Arctic — Modèle d'IA d'entreprise performant, permettant la création de modèles personnalisés de haute qualité à faible coût.

OpenELM — OpenELM est une famille de modèles linguistiques performants, dotée d'un framework open source pour l'entraînement et l'inférence.

Docker GenAI Stack — Solution de développement d'applications d'intelligence artificielle lancée par Docker

NeoBase — NeoBase est un assistant de base de données IA open source qui vous permet d'interagir avec votre base de données en langage naturel.

Instella — Instella est un modèle linguistique open source haute performance développé par AMD, conçu pour accélérer le développement des modèles linguistiques open source.

Migician — Migician est un grand modèle linguistique multimodale axé sur la localisation multi-images, capable de réaliser une localisation précise multi-images de forme libre.

IndexTTS — Système texte-parole zéro-shot industriel, contrôlable et efficace

bRAG-langchain — Un projet open source pour la construction d'applications de génération augmentée par la recherche (RAG).

Moonlight — Moonlight est un modèle d'expert mixte de 16 milliards de paramètres, entraîné avec l'optimiseur Muon, et offrant des performances exceptionnelles.

Le Manuel des Systèmes Ultra-Scalables — Un outil dédié à la conception et à l'optimisation de systèmes ultra-scalables, offrant des solutions performantes.

FireRedASR-AED-L — Modèle de reconnaissance automatique de la parole (RAP) industriel open source, prenant en charge le mandarin, les dialectes chinois et l'anglais, aux performances exceptionnelles.

FireRedASR — Modèle de reconnaissance automatique de la parole (RAP) en mandarin standard industriel open source, compatible avec de multiples scénarios d'application.

RAG-FiT — RAG-FiT est une bibliothèque conçue pour améliorer la capacité des grands modèles de langage (LLM) à exploiter des informations externes, en affinant les modèles sur un ensemble de données spécialement créé pour l'augmentation RAG.

s1-32B — s1 est un modèle d'inférence basé sur Qwen2.5-32B-Instruct, entraîné avec seulement 1000 exemples.

node-DeepResearch — Recherche et lecture continues de pages web jusqu'à ce que la réponse soit trouvée (ou jusqu'à épuisement du budget de jetons).