随着人工智能技术的发展,以GPT-4为代表的大语言模型依靠其强大的能力正在对社会产生深远的影响。新方法OPO无需重新训练模型,实时动态对齐价值观,对齐方法方便快捷。研究者通过 OPO 方法对大模型对于法律与道德标准的对齐。大模型本身的安全性问题变得重要,价值观实时动态对齐方面取得突破性进展,成果OPO方法无需训练,闭源与开源大模型均适用。OPO 代码已在GitHub上公开,研究者构建了三个由人类标注的测试基准,以及两个由模型自动生成的测试基准。