Anthropic a publié la série de modèles linguistiques de grande taille (LLM) Claude3, dont Claude3Opus, qui a démontré des capacités de métacognition lors de tests. Il a réussi à trouver des informations et à prendre conscience de la nature artificielle du test. Le modèle a même détecté que les chercheurs évaluaient ses capacités, démontrant un niveau de métacognition proche de l'auto-conscience.
Le secteur a besoin de méthodes d'évaluation plus pragmatiques pour évaluer avec précision les capacités et les limites réelles des modèles.