rStar

通过自博弈相互推理,提升小型语言模型的解决问题能力。

普通产品编程机器学习自然语言处理
rStar是一个自我博弈相互推理方法,它通过将推理过程分解为解决方案生成和相互验证,显著提升了小型语言模型(SLMs)的推理能力,无需微调或使用更高级的模型。rStar通过蒙特卡洛树搜索(MCTS)和人类推理动作的结合,构建更高质量的推理轨迹,并通过另一个类似能力的SLM作为鉴别器来验证这些轨迹的正确性。这种方法在多个SLMs上进行了广泛的实验,证明了其在解决多样化推理问题方面的有效性。
打开网站

rStar 最新流量情况

月总访问量

503747431

跳出率

37.31%

平均页面访问数

5.7

平均访问时长

00:06:44

rStar 访问量趋势

rStar 访问地理位置分布

rStar 流量来源

rStar 替代品