Microsoft hat die Fähigkeit großer Sprachmodelle zum moralischen Schlussfolgern getestet und festgestellt, dass größere Modelle in Trolley-Problem-Szenarien überraschenderweise schlechter abschneiden. Dennoch erzielte das leistungsstärkste Sprachmodell, GPT-4, die höchste Punktzahl in Bezug auf Moral. Diese Entdeckung steht im Widerspruch zu den ursprünglichen Annahmen der Forscher.
ChatGPT/GPT-4/Llama-Dilemma des fahrenden Wagens im großen Vergleich! Überraschend: Kleinere Modelle zeigen höhere Moral?
