ReFT

增强LLM推理能力的ReFT

普通产品生产力推理微调

ReFT是一种增强大型语言模型（LLMs）推理能力的简单而有效的方法。它首先通过监督微调（SFT）对模型进行预热，然后使用在线强化学习，具体来说是本文中的PPO算法，进一步微调模型。ReFT通过自动对给定问题进行大量推理路径的采样，并从真实答案中自然地得出奖励，从而显著优于SFT。ReFT的性能可能通过结合推理时策略（如多数投票和重新排名）进一步提升。需要注意的是，ReFT通过学习与SFT相同的训练问题而获得改进，而无需依赖额外或增强的训练问题。这表明ReFT具有更强的泛化能力。

Best AI Websites & Tools

ReFT

ReFT 最新流量情况

ReFT 访问量趋势

ReFT 访问地理位置分布

ReFT 流量来源

ReFT 替代品

ReFT — 增强LLM推理能力的ReFT

NotaGen — NotaGen 是一个用于符号音乐生成的模型，采用大语言模型训练范式，专注于生成高质量古典乐谱。

QwQ-Max-Preview — QwQ-Max-Preview 是 Qwen 系列的最新成果，基于 Qwen2.5-Max 构建，具备强大的推理和多领域应用能力。

Claude 3.7 Sonnet — Claude 3.7 Sonnet 是 Anthropic 推出的最新智能模型，支持快速响应和深度推理。

NovaSky — NovaSky 是一个专注于代码生成和推理模型优化的人工智能技术平台。

DeepScaleR-1.5B-Preview — 一个基于强化学习优化的大型语言模型，专注于数学问题解决能力的提升。

Huginn-0125 — Huginn-0125是一个35亿参数的潜变量循环深度模型，擅长推理和代码生成。

Tülu 3 405B — Tülu 3 405B 是一个大规模开源语言模型，通过强化学习提升性能。

UI-TARS — UI-TARS 是一个用于自动化图形用户界面交互的下一代原生 GUI 代理模型。

DeepSeek-R1-Distill-Llama-8B — DeepSeek-R1-Distill-Llama-8B 是一个高性能的开源语言模型，适用于文本生成和推理任务。

DeepSeek-R1-Distill-Qwen-14B — DeepSeek-R1-Distill-Qwen-14B 是一款高性能的文本生成模型，适用于多种推理和生成任务。

DeepSeek-R1-Distill-Llama-70B — DeepSeek-R1-Distill-Llama-70B 是一款基于强化学习优化的大型语言模型，专注于推理和对话能力。

PaSa — PaSa 是一个由大语言模型驱动的先进学术论文搜索代理，能够自主决策并获取准确结果。

Kimi k1.5 — Kimi k1.5 是一个通过强化学习扩展的多模态语言模型，专注于提升推理和逻辑能力。

DeepSeek-R1 — DeepSeek-R1 是一款高性能推理模型，支持多种语言和任务，适用于研究和商业应用。

RLLoggingBoard — 一个用于强化学习人类反馈训练过程可视化的工具，帮助深度理解与调试。

self-adaptive-llms — 一个实时适应未见任务的自适应大型语言模型框架。

llm-datasets — 高质量的数据集、工具和概念，用于大型语言模型的微调。

Eurus-2-7B-SFT — Eurus-2-7B-SFT是一个经过数学能力优化的大型语言模型，专注于推理和问题解决.

Meta Motivo — 首款基于行为基础模型的虚拟物理人形代理控制工具

DeepMind — 谷歌旗下领先的人工智能研究公司

Phi-3.5-mini-instruct — 轻量级、多语言的先进文本生成模型

Meta-Llama-3.1-8B-Instruct — 多语言对话生成模型

OpenVLA — 开源视觉-语言-动作模型，推动机器人操作技术发展。

Higgs-Llama-3-70B — 专为角色扮演优化的大型语言模型

DIAMOND — 扩散世界模型中训练的强化学习代理

OpenAI Universe — 用于测量和训练 AI 通用智能的软件平台

ReadAgent — 人类启发式阅读代理,具有非常长上下文的要点记忆

ASPIRE — 提高LLM选择性预测能力的框架

WindowsAI Studio — Windows AI Studio 简化生成式 AI 应用程序开发