Microsoft realizó una prueba de la capacidad de razonamiento moral de los modelos lingüísticos grandes, y los resultados mostraron que los modelos más grandes obtuvieron peores resultados en el dilema del tranvía. Sin embargo, el modelo lingüístico más potente, GPT-4, obtuvo la puntuación ética más alta. Este hallazgo contradice las hipótesis iniciales de los investigadores.
¡ChatGPT/GPT-4/Llama: Gran enfrentamiento en el dilema del tranvía! ¿Los modelos pequeños muestran mayor moralidad?
