「深呼吸」让大模型表现更佳！谷歌DeepMind利用大语言模型生成Prompt，还是AI更懂AI

新智元

发布于AI新闻资讯 · 1 分钟阅读 · 2023年9月20号 13:42

谷歌DeepMind提出了OPRO框架，使用大语言模型（LLM）进行优化，利用自然语言描述解决方案。其中「深呼吸」成为最佳Prompt提示词，提高模型性能。OPRO还在数学问题中表现出潜力，验证了提示优化在不同任务上的有效性，具有广泛应用前景。这项研究开拓了使用大语言模型进行优化任务的新方向，具有重要意义。

阿里国际开源Ovis2系列多模态大语言模型共有六个版本

Ovis2 是阿里巴巴国际化团队提出的Ovis系列模型的最新版本。与前序1. 6 版本相比，Ovis2 在数据构造和训练方法上都有显著改进。它不仅强化了小规模模型的能力密度，还通过指令微调和偏好学习大幅提升了思维链（CoT）推理能力。此外，Ovis2 引入了视频和多图像处理能力，并增强了多语言能力和复杂场景下的OCR能力，显著提升了模型的实用性。

谷歌DeepMind高管：AI 应助力人类能力，而非取代

在近期于班加罗尔举办的 “投资卡纳塔克2025” 会议上，众多科技行业的领导者聚集一堂，探讨人工智能在印度的变革潜力及其影响。谷歌DeepMind的高级董事马尼什・古普塔（Manish Gupta）在会上发表了重要讲话，强调在推动技术创新的同时，应建立相应的规章制度，以确保负责任的发展。图源备注：图片由AI生成，图片授权服务商Midjourney古普塔指出，随着印度在构建基础性人工智能模型方面取得显著进展，大家都在关注人工智能对就业市场的影响。他表示，科技行业的责任在于开发可以增

AI大语言模型幻觉排行榜：Gemini 2.0 Flash幻觉最低

近日，Vectara 发布了一份名为 “幻觉排行榜” 的报告，比较了不同大型语言模型（LLM）在总结短文档时产生幻觉的表现。这份排行榜利用了 Vectara 的 Hughes 幻觉评估模型(HHEM-2.1)，该模型定期更新，旨在评估这些模型在摘要中引入虚假信息的频率。根据最新数据，报告指出了一系列流行模型的幻觉率、事实一致性率、应答率以及平均摘要长度等关键指标。在最新的排行榜中，谷歌的 Gemini2.0系列表现出色，尤其是 Gemini-2.0-Flash-001，以0.7% 的低幻觉率位居榜首，显示出其在处理文档时几乎没有引