谷歌DeepMind最新推出的Gemini实验版本(Exp1114)在Chatbot Arena平台上取得了令人瞩目的成绩。经过一周多的社区测试,累计超过6000票的数据显示,这款新模型以显著优势超越竞品,在多个关键领域展现出惊人实力。

QQ20241115-094934.jpg

在总体评分上,Gemini-Exp-1114以超出40分的优异成绩与GPT-4-latest并列第一,超越了此前领先的GPT-4-preview版本。更令人惊叹的是,该模型在数学、复杂提示和创意写作等核心领域全面登顶,展现出极强的综合实力。

具体来看,Gemini-Exp-1114的进步令人印象深刻:

在总排名中从第3名一举跃升至榜首

数学能力评测从第3名升至第1名

复杂提示处理从第4名攀升至第1名

创意写作表现从第2名进步到第1名

视觉处理能力同样位居榜首

编程水平也从第5名提升至第3名

Google AI Studio已正式上线这一新版本,供用户实际体验。不过,社区也对一些具体问题表示关注,比如1000个token的限制是否仍然存在,以及如何处理超长文本输出等实际应用问题。

QQ20241115-094642.jpg

业内分析认为,这次突破性进展显示出谷歌在AI领域的长期投入开始收获成果。有趣的是,模型在风格控制方面维持第4名的排名,这可能暗示开发团队主要采用了新的后训练方法,而非对预训练模型进行改动。

这一重大突破也引发了对行业格局的讨论。OpenAI此前常在竞争对手发布重要更新时推出新产品,但这次谷歌的进步幅度之大,令业界为之侧目。有观点认为,这可能预示着Gemini2的到来,谷歌在大模型领域的竞争力正在显著提升。