Motif
从人工智能反馈中获得内在动机
普通产品生产力强化学习奖励函数
Motif 是一个基于 PyTorch 的项目,通过从 LLM(大型语言模型)的偏好中获取奖励函数,训练 AI 代理在 NetHack 上进行。它可以生成与人类行为直觉一致的行为,并且可以通过提示修改进行引导。
Motif 最新流量情况
月总访问量
494758773
跳出率
37.69%
平均页面访问数
5.7
平均访问时长
00:06:29
从人工智能反馈中获得内在动机
月总访问量
494758773
跳出率
37.69%
平均页面访问数
5.7
平均访问时长
00:06:29