谷歌研究:大型语言模型难以自我纠正推理错误

站长之家

发布于AI新闻资讯 · 1 分钟阅读 · 2023年10月19号 9:30

谷歌DeepMind最新研究表明,大型语言模型在没有外部指导的情况下,难以自我纠正推理错误。研究人员发现,模型仅依靠自身想法来纠正最初反应时,经常会出错。研究还发现,通过多个模型投票达成一致虽可实现自我一致,但这与真正的自我纠正还有差距。研究者表示,这项研究结果对开发需要更高安全性的应用具有重要意义。他们呼吁在认识自我纠正潜力与局限性的基础上,继续努力改进现有语言模型。

英语文学毕业生开发AI工具，轻松解读Twitter个人简介

在当今数字化的世界里，短文本的使用已成为在线交流的核心。然而，由于这些文本往往缺乏共同的词汇或背景，使得人工智能（AI）在分析时面临诸多挑战。对此，悉尼大学的一名英语文学研究生兼数据科学家贾斯汀・米勒(Justin Miller)提出了一种新方法，利用大型语言模型(LLMs)对短文本进行深入理解和分析。米勒的研究重点在于如何将大量短文本，如社交媒体个人资料、顾客反馈或与灾难事件相关的在线评论，进行有效的分类。他开发的 AI 工具可以将数以万计的 Twitter 用户个人简介聚类

国产大模型再突破！DeepSeek R1开源，性能直逼OpenAI，开启AI平权新时代

DeepSeek近日正式发布并开源了其最新研发的大型语言模型R1，该模型在性能上表现出色，被认为可与OpenAI的o1正式版相媲美。这一举措不仅标志着国产AI技术的又一次重大突破，也为全球AI开发者带来了新的选择。DeepSeek R1在后训练阶段大规模应用了强化学习技术，即便是在极少标注数据的情况下，也显著提升了模型的推理能力。在数学、代码、自然语言推理等关键任务上，DeepSeek R1的性能均能与OpenAI o1正式版平分秋色，展示了其强大的实力。为了回馈开源社区，DeepSeek同时开源了DeepSeek-R1和De

大模型新突破：从教学视频中提炼高质量多模态教科书

近日，浙江大学与阿里巴巴达摩院联合发布了一项引人瞩目的研究，旨在通过教学视频创建高质量的多模态教科书。这一创新的研究成果不仅为大规模语言模型（VLMs）的训练提供了新的思路，也可能改变教育资源的利用方式。随着人工智能技术的迅猛发展，VLMs 的预训练语料主要依赖图文对数据与图文交织语料。然而，当前的这些数据多来自网页，文本与图像的关联性较弱，知识密度也相对较低，无法有效支持复杂的视觉推理。为了应对这一挑战，研究团队决定从互联网上海量的教学视频

AI 在高级历史考试中表现不佳：GPT-4 Turbo 准确率仅 46%

近日，一项由奥地利复杂科学研究所（CSH）主导的研究显示，尽管大型语言模型(LLMs)在多项任务中表现优异，但在应对高级历史问题时却暴露了短板。研究团队针对三大顶尖模型进行测试，包括 OpenAI 的 GPT-4、Meta 的 Llama 和谷歌的 Gemini，结果让人失望。图源备注：图片由AI生成，图片授权服务商Midjourney为了评估这些模型在历史知识上的表现，研究者们开发了一个名为 “Hist-LLM” 的基准测试工具。该工具依据 Seshat 全球历史数据库，旨在验证 AI 回答历史问题的准确性。研究结果在知名人工智

AI新闻资讯