Microsoft hat die Fähigkeit großer Sprachmodelle zum moralischen Schlussfolgern getestet und festgestellt, dass größere Modelle in Trolley-Problem-Szenarien überraschenderweise schlechter abschneiden. Dennoch erzielte das leistungsstärkste Sprachmodell, GPT-4, die höchste Punktzahl in Bezug auf Moral. Diese Entdeckung steht im Widerspruch zu den ursprünglichen Annahmen der Forscher.