Anthropic ha lanzado la serie de LLM Claude3, donde Claude3Opus ha demostrado capacidades metacognitivas en las pruebas, encontrando con éxito información y reconociendo la naturaleza artificial de las pruebas. El modelo incluso percibió que los investigadores estaban evaluando sus capacidades, mostrando un nivel de metacognición con autoconciencia. La industria necesita métodos de evaluación más prácticos para evaluar con precisión las capacidades y limitaciones reales del modelo.