DeepScaleR-1.5B-Preview

一个基于强化学习优化的大型语言模型，专注于数学问题解决能力的提升。

普通产品生产力强化学习数学教育

DeepScaleR-1.5B-Preview 是一个经过强化学习优化的大型语言模型，专注于提升数学问题解决能力。该模型通过分布式强化学习算法，显著提高了在长文本推理场景下的准确率。其主要优点包括高效的训练策略、显著的性能提升以及开源的灵活性。该模型由加州大学伯克利分校的 Sky Computing Lab 和 Berkeley AI Research 团队开发，旨在推动人工智能在教育领域的应用，尤其是在数学教育和竞赛数学领域。模型采用 MIT 开源许可，完全免费供研究人员和开发者使用。

AI资讯

AI日报

AI时间线

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图

DeepScaleR-1.5B-Preview

DeepScaleR-1.5B-Preview 最新流量情况

DeepScaleR-1.5B-Preview 访问量趋势

DeepScaleR-1.5B-Preview 访问地理位置分布

DeepScaleR-1.5B-Preview 流量来源

DeepScaleR-1.5B-Preview 替代品

DeepScaleR-1.5B-Preview — 一个基于强化学习优化的大型语言模型，专注于数学问题解决能力的提升。

混元T1 — 业界首个超大规模混合 Mamba 推理模型，强推理能力。

Light-R1 — Light-R1 是一个专注于长链推理（Long COT）的开源项目，通过课程式 SFT、DPO 和 RL 提供从零开始的训练方法。

NotaGen — NotaGen 是一个用于符号音乐生成的模型，采用大语言模型训练范式，专注于生成高质量古典乐谱。

NovaSky — NovaSky 是一个专注于代码生成和推理模型优化的人工智能技术平台。

Tülu 3 405B — Tülu 3 405B 是一个大规模开源语言模型，通过强化学习提升性能。

PaSa — PaSa 是一个由大语言模型驱动的先进学术论文搜索代理，能够自主决策并获取准确结果。

DeepSeek-R1 — DeepSeek-R1 是一款高性能推理模型，支持多种语言和任务，适用于研究和商业应用。

RLLoggingBoard — 一个用于强化学习人类反馈训练过程可视化的工具，帮助深度理解与调试。

self-adaptive-llms — 一个实时适应未见任务的自适应大型语言模型框架。

Meta Motivo — 首款基于行为基础模型的虚拟物理人形代理控制工具

DeepMind — 谷歌旗下领先的人工智能研究公司

DIAMOND — 扩散世界模型中训练的强化学习代理

OpenAI Universe — 用于测量和训练 AI 通用智能的软件平台

ReFT — 增强LLM推理能力的ReFT

Motif — 从人工智能反馈中获得内在动机

AccVideo — 加速视频扩散模型，生成速度提升 8.5 倍。

Video-T1 — 通过测试时间缩放显著提升视频生成质量。

Gemini 2.5 — Gemini 2.5 是谷歌最智能的 AI 模型，具备推理能力。

Fin-R1 — 通过强化学习驱动的金融推理大模型。

Reka Flash 3 — 一款 21B 通用推理模型，适合低延迟应用。

o1-pro — o1-pro 模型通过强化学习提升复杂推理能力，提供更优答案。

Orpheus TTS — 一个开源文本转语音系统，致力于实现人类语音的自然化。

Mistral Small 3.1 — 增强文本与视觉任务处理能力的开源模型。

Cohere Command — Cohere Command 是专为企业设计的高效能语言模型。

OpenJobs AI — 一个帮助用户寻找工作的智能平台。

Cal AI APP — 通过拍照轻松追踪卡路里。

Light-R1-14B-DS — 一款开源的14B参数量的数学模型，通过强化学习训练，性能卓越。

Gemini Robotics — 基于Gemini 2.0的机器人模型，将AI带入物理世界，具备视觉、语言和动作能力。

AITattoo — AI Tattoo Generator 是一款利用人工智能技术快速生成个性化纹身设计的在线工具。