Anthropic发布了新一代大模型系列Claude 3,表现出自我认知能力,引起AI社区轰动。此举引发AI领域对于评估模型真实能力和局限性的思考。分析表明Claude 3 Opus在多项基准测试中超越GPT-4和Gemini 1.0 Ultra,展现出强大性能。在长文本处理、中英互译、逻辑推理、数学理解、编程等方面进行深度测评,展现出综合能力。