人工智能公司Poe日前与SurgeAI合作,从推理、写作、创造力和非英语语言能力4个维度对主流大模型包括GPT-4、Google PaLM、Claude 2、Llama 2 70b等进行了系统评估。结果显示,GPT-4在各个维度上的表现均最突出,尤其在英语语言任务上明显领先其他模型。Google的语言模型PaLM在非英语语言处理能力方面表现强劲,支持最广泛的语言。此外,Claude 2的推理能力仅次于GPT-4,Llama 2 70b的写作和创造力位居第三。Poe表示,此次评估采用了行业基准测试、专家评估、Elo评分等多种考量模型优劣的方式。各模型的具体得分和强项已公开发布,以便更深入地理解当前大模型的能力格局。业内人士认为,各大模型均有独特优势,开发者应当根据具体需求进行选择。