マイクロソフトは大規模言語モデルの倫理的推論能力をテストしました。電車問題において、大規模モデルは小規模モデルよりも低い倫理的判断を示しました。最も強力な言語モデルであるGPT-4は依然として最高の倫理スコアを記録しましたが。