最近有研究发现,GPT-4在一项视觉识别挑战任务中表现不佳,原因可能是该任务中的图片在训练集中过于常见,GPT-4是利用记忆而不是真正的视觉识别能力来解答的。这说明了即使大模型在某些任务中表现突出,也需要谨慎看待,不能因为在训练集上的成功就高估模型的泛化能力。继续提升模型的泛化性和对抗样本的鲁棒性是当前的重点研究方向之一。同时也需要警惕只在训练集上测试模型的问题,要在更广泛的样本上考察模型的泛化能力,才能更好地评估模型性能。
最近有研究发现,GPT-4在一项视觉识别挑战任务中表现不佳,原因可能是该任务中的图片在训练集中过于常见,GPT-4是利用记忆而不是真正的视觉识别能力来解答的。这说明了即使大模型在某些任务中表现突出,也需要谨慎看待,不能因为在训练集上的成功就高估模型的泛化能力。继续提升模型的泛化性和对抗样本的鲁棒性是当前的重点研究方向之一。同时也需要警惕只在训练集上测试模型的问题,要在更广泛的样本上考察模型的泛化能力,才能更好地评估模型性能。
近日,谷歌和 OpenAI 之间的竞争再次升温。在新版 GPT-4o 刚刚登顶 AI 竞技榜后仅一天,谷歌便推出了最新的试验版模型 Gemini-Exp-1121,迅速夺回了冠军宝座。就在一周前,谷歌刚发布了 Gemini-Exp-1114,这似乎表明谷歌对 OpenAI 的动态反应非常迅速。谷歌 DeepMind 的首席科学家 Jack Rae 对此表示,这是一场 “闪电战”,暗示着后期训练的迭代速度比预训练更为迅速。根据官方信息,Gemini-Exp-1121在多个方面进行了显著提升,主要体现在代码能力、推理能力和视觉理解能力的增强。此外,该模型在复杂
OpenAI 为其 ChatGPT Plus 订阅用户推出了最新的大型语言模型(LLM)升级——ChatGPT-4o 的“创意写作”功能。据 OpenAI 在 X(原 Twitter)上的简短声明,升级后的模型写作能力更自然、更引人入胜,并可根据用户需求进行定制,提高内容的相关性和可读性。此次升级后,ChatGPT-4o 被认为在创意写作领域达到了新的高度。一些用户甚至形容它的说唱歌词创作能力可媲美 Eminem。一位名为 Kyle 的用户表示:“两年来,我一直测试语言模型创作风格复杂的说唱歌词。现在的 ChatGPT-4o 首次完美捕捉到了复杂的内
OpenAI 宣布对其旗舰模型 GPT-4o 进行了重大升级,进一步提升了其在推理、跨媒体和对话能力等方面的表现。此次更新被称为 ChatGPT-4o(20241120),旨在为用户提供更自然、引人入胜的文本生成体验。在升级之前,OpenAI 对 GPT-4o 进行了严格的性能测试,这一过程在一个名为 “Chatbot Arena” 的大型语言模型(LLM)评估平台上进行。通过与其他模型进行对比,用户们在不知道模型名称的情况下,使用两个模型进行对话,最终 GPT-4o 在各项指标中脱颖而出,位列第一,超越了 Gemini-Exp-1114。此外,Open
近年来,人工智能在医疗领域的应用不断扩大。最近,一项研究显示,OpenAI 开发的聊天机器人 ChatGPT-4在诊断准确性方面竟超越了医生,引发了广泛的讨论和关注。该研究发表于《JAMA 网络开放》期刊,测试了50位医生在六个复杂病例上的表现。结果显示,使用 ChatGPT 辅助的医生平均得分为76%,而未使用该工具的医生仅为74%。令人震惊的是,ChatGPT 单独进行诊断时的准确率达到了90%。图源备注:图片由AI生成,图片授权服务商Midjourney研究者为了避免参与者或 AI 模型的先验知识,使用了真实的、