微软对大语言模型的道德推理能力进行了测试,结果发现在电车问题中,尺寸较大的模型表现反而较差。然而,最强大的语言模型 GPT-4 的道德得分仍然是最高的。这一发现与研究人员最初的假设相反。