Light-R1-14B-DS

Modèle mathématique open source de 14 milliards de paramètres, entraîné par apprentissage par renforcement, aux performances exceptionnelles.

Produit OrdinaireProductivitéApprentissage par renforcementModèle mathématique

Ouvrir le site Web

Light-R1-14B-DS est un modèle mathématique open source développé par Beijing Qihu Technology Co., Ltd. Ce modèle est entraîné par apprentissage par renforcement basé sur DeepSeek-R1-Distill-Qwen-14B. Il a obtenu des scores élevés de 74,0 et 60,2 respectivement aux tests de référence des concours mathématiques AIME24 et AIME25, surpassant de nombreux modèles de 32 milliards de paramètres. Il a réussi à mettre en œuvre une tentative d'apprentissage par renforcement sur un modèle déjà finement réglé pour l'inférence de longues chaînes avec un budget léger, fournissant ainsi à la communauté open source un outil puissant pour les modèles mathématiques. L'open source de ce modèle contribue à promouvoir l'application du traitement du langage naturel dans le domaine de l'éducation, en particulier pour la résolution de problèmes mathématiques, offrant aux chercheurs et développeurs une base de recherche et des outils pratiques précieux.

Actualités IA

IA Quotidien

Chronologie de l'IA

Al hardware

Derniers cas

Collection d'images

Collection de vidéos

Collection audio

Collection de contenu

Derniers tutoriels

Classement des produits IA

Classement de la croissance du trafic IA

Classement de la baisse du trafic IA

Classement hebdomadaire de l'IA

États-Unis

Chine

Inde

Brésil

Génération d'images

Assistant personnel

Génération de personnages

Génération de vidéos

Classement des projets IA

Classement de la croissance des projets IA

Classement des développeurs IA

Classement des organisations IA

Deepseek

TTS

LLM

ChatGPT

Aperçu

Light-R1-14B-DS

Light-R1-14B-DS Dernière situation du trafic

Light-R1-14B-DS Tendance des visites

Light-R1-14B-DS Distribution géographique des visites

Light-R1-14B-DS Sources de trafic

Light-R1-14B-DS Alternatives

Light-R1-14B-DS — Modèle mathématique open source de 14 milliards de paramètres, entraîné par apprentissage par renforcement, aux performances exceptionnelles.

Light-R1 — Light-R1 est un projet open source axé sur l'inférence à longues chaînes (Long COT), qui fournit une méthode d'entraînement complète, de zéro, via SFT, DPO et RL.

DeepCoder — Un modèle de programmation open source de 14 milliards de paramètres, doté de capacités de raisonnement de code efficaces.

Steiner-32b-preview — Steiner est un modèle d'inférence entraîné sur des données synthétiques, conçu pour explorer plusieurs chemins d'inférence et s'auto-vérifier.

SWE-RL — Amélioration des capacités de raisonnement des grands modèles de langage dans l'évolution des logiciels open source grâce à l'apprentissage par renforcement

R1-V — Améliore la capacité de généralisation des modèles linguistiques visuels renforcés à faible coût, pour moins de 3 dollars.

Tülu 3 405B — Tülu 3 405B est un modèle linguistique de grande envergure, open source, dont les performances ont été améliorées par apprentissage par renforcement.

DeepSeek-R1-Distill-Qwen-1.5B — DeepSeek-R1-Distill-Qwen-1.5B est un modèle linguistique open source performant pour l'inférence, adapté à diverses tâches de traitement du langage naturel.

DeepSeek-R1-Distill-Qwen-7B — DeepSeek-R1-Distill-Qwen-7B est un modèle d'inférence open source spécialisé dans les mathématiques, le code et les tâches de raisonnement.

DeepSeek-R1-Distill-Llama-8B — DeepSeek-R1-Distill-Llama-8B est un modèle linguistique open source haute performance, adapté à la génération de texte et aux tâches d'inférence.

DeepSeek-R1-Distill-Qwen-32B — DeepSeek-R1-Distill-Qwen-32B est un modèle linguistique open source haute performance, adapté à diverses tâches de génération de texte.

DeepSeek-R1-Zero — DeepSeek-R1-Zero est un modèle d'inférence entraîné par apprentissage par renforcement à grande échelle, capable de réaliser des inférences exceptionnelles sans nécessiter d'ajustement fin supervisé.

DeepSeek-R1 — DeepSeek-R1 est un modèle d'inférence haute performance, prenant en charge plusieurs langues et tâches, adapté à la recherche et aux applications commerciales.

Modèles linguistiques de grande taille auto-adaptatifs — Un framework de modèles linguistiques de grande taille (LLM) auto-adaptatif s'ajustant en temps réel aux tâches inconnues.

PRIME-RL — PRIME améliore l'apprentissage par renforcement en ligne grâce à des récompenses implicites, augmentant ainsi les capacités de raisonnement des modèles linguistiques.

HuatuoGPT-o1 — Grand modèle linguistique pour le raisonnement médical complexe

Unitree RL GYM — Plateforme robotique Unitree pour l'apprentissage par renforcement

Tülu 3 — Framework d'entraînement postérieur de modèle linguistique avancé open source

agibot_x1_train — Robot humanoïde modulaire, destiné à l'entraînement par apprentissage par renforcement

Qwen2.5-Math — Modèle linguistique large open source leader mondial en mathématiques

MuKoe — Implémentation open source de MuZero, framework d'IA distribué

automcp — Transformez facilement les outils, les agents et les planificateurs des frameworks d'agents existants en serveur MCP.

Images impressionnantes GPT-4o — Présentation sélectionnée d'images d'art IA diversifiées et d'invites générées par OpenAI GPT-4o.

Skywork-OR1 — Modèle d'inférence de code mathématique haute performance open source de Kunlun Wanwei, aux performances exceptionnelles.

mcp-use — mcp-use est le moyen le plus simple d'interagir avec les outils MCP, prenant en charge les agents personnalisés.

Pusa — Pusa est un nouveau modèle de diffusion vidéo prenant en charge plusieurs tâches de génération vidéo.

UNO — Un outil qui améliore la cohérence de la génération d'images grâce à un modèle génératif.

BabelDOC — Une bibliothèque pour la traduction d'articles scientifiques PDF et la comparaison bilingue.

AGI News — Une newsletter quotidienne sur l'IA fournie par un agent IA autonome.

pdf-document-layout-analysis — Ein leistungsstarker Dienst zur Layoutanalyse von PDF-Dokumenten.