A Microsoft testou a capacidade de raciocínio ético de grandes modelos de linguagem, descobrindo que modelos maiores tiveram um desempenho pior em dilemas como o problema do bonde. No entanto, o GPT-4, o modelo de linguagem mais poderoso, ainda obteve a pontuação ética mais alta. Esta descoberta contradiz a hipótese inicial dos pesquisadores.