AI语音转录工具Whisper被曝存在严重“幻觉” ，时常瞎编胡造

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年10月28号 9:55

164

最近，一款由 OpenAI 的 Whisper 技术驱动的 AI 转录工具在医疗行业广受欢迎。许多医生和医疗机构都在使用这个工具来记录和总结与患者的会面。

根据 ABC 新闻的报道，研究人员却发现这款工具在某些情况下会出现 “幻觉” 现象，有时甚至会完全编造内容。

这款由名为 Nabla 的公司开发的转录工具，已经成功转录了超过700万次医学对话，目前有超过3万名临床医生和40个健康系统在使用它。尽管如此，Nabla 公司也意识到了 Whisper 会产生幻觉的可能性，并表示正在努力解决这个问题。

一组来自康奈尔大学、华盛顿大学等机构的研究人员进行了一项研究，发现 Whisper 在大约1% 的转录中会出现幻觉。在这些情况下，工具会在录音的沉默时段内随机生成一些毫无意义的短语，甚至有时候表达出暴力情绪。这些研究人员从 TalkBank 的 AphasiaBank 中收集了音频样本，并指出，当语言障碍患者说话时，沉默的现象尤为常见。

康奈尔大学的研究员艾莉森・科内克（Allison Koenecke）在社交媒体上分享了一些示例，展示了 Whisper 生成的幻觉内容。研究人员发现，工具所生成的内容中还包括一些虚构的医学术语，甚至是类似于 “感谢观看!” 这样的短语，这些句子听起来就像是 YouTube 视频中的话语。

这项研究于6月在巴西的计算机协会 FAccT 会议上进行展示，但目前尚不清楚是否经过同行评审。对于这一问题，OpenAI 的发言人 Taya Christianson 在接受《The Verge》采访时表示，他们非常重视这个问题，并会持续努力改善，尤其是在减少幻觉方面。同时，她提到，在他们的 API 平台上使用 Whisper 时，有明确的使用政策禁止在某些高风险决策环境中使用该工具。

划重点:
🌟 Whisper 转录工具在医疗行业使用广泛，已记录700万次医学对话。
⚠️ 研究发现 Whisper 在约1% 的转录中会出现 “幻觉”，有时会生成毫无意义的内容。
🔍 OpenAI 表示正在努力改善工具性能，特别是在减少幻觉现象方面。

西北工业大学开源语音理解模型OSUM，结合Whisper和Qwen2，支持8种语音理解任务

在人工智能领域，语言模型的快速发展引发了语音理解语言模型（SULMs）的广泛关注。近日，西北工业大学 ASLP 实验室发布了开放语音理解模型 OSUM，旨在探索在学术资源有限的情况下，如何有效训练和利用语音理解模型，以推动学术界的研究与创新。OSUM 模型融合了 Whisper 编码器与 Qwen2语言模型，支持8种语音任务，包括语音识别（ASR）、带时间戳的语音识别(SRWT)、语音事件检测(VED)、语音情感识别(SER)、说话风格识别(SSR)、说话人性别分类(SGC)、说话人年龄预测(SAP)及语音转文本聊天(STTC)。

OpenAI CEO在社交平台征询用户意见，或暗示重返开源之路

OpenAI 的首席执行官 Sam Altman 近日在社交媒体平台 X 上发起了一项调查，询问用户对公司下一步开源开发方向的看法。这一举动发生在 OpenAI 正在经历重大转型的背景下，公司正将其营利部门转变为公益公司。自从获得微软投资以来，OpenAI 与开源的关系发生了显著变化。尤其是在 GPT-4发布后，OpenAI 逐渐减少了开源贡献，专注于更小规模的项目，如 Whisper。Altman 当时提到出于安全考虑而暂停开源，但他最近承认这种策略可能是错误的，因为像 Deepseek 等竞争对手已经发布了他们的 V3和 R1模型。

谷歌AI概览引用YouTube视频激增25%，医疗行业表现突出

近日，来自企业 SEO 平台 BrightEdge 的一项最新研究显示，自2023年1月1日以来，谷歌 AI 概览中引用 YouTube 的数量增长了25.21%。这一增长在医疗行业尤为显著，引起了业内的广泛关注。研究表明，YouTube 在谷歌 AI 概览中之所以受到青睐，主要是因为其提供了丰富的教学内容、视觉演示、验证示例以及时事新闻。尽管谷歌的一位律师曾指出，YouTube 视频的观看量中，来自搜索引擎的流量不足1%，但谷歌仍然倾向于优先推荐自家平台的内容，尤其是在需要视觉呈现的情况下，如步骤教程和产品比较等

Qventus 融资 1.05 亿美元，推动医疗行业的 AI 创新发展

在医疗行业，人工智能（AI）正成为一种颇具吸引力的解决方案，以加速临床、研究和行政工作的效率。最近，医疗科技初创公司 Qventus 成功完成了1.05亿美元的 D 轮融资，进一步巩固了其在 AI 医疗领域的地位。这轮融资由 KKR 领投，包括8500万美元的股权融资和2000万美元的可选债务。Qventus 的首席执行官兼联合创始人穆迪特・加尔（Mudit Garg）表示:“我们并不急需这笔资金，但这是一个绝佳的机会。” 这笔资金将用于开发更多的 “AI 助手”，扩展到更广泛的医疗应用场景，超越了其以往在

AI新闻资讯

AI语音转录工具Whisper被曝存在严重“幻觉” ，时常瞎编胡造

AIbase基地

相关AI新闻推荐

西北工业大学开源语音理解模型OSUM，结合Whisper和Qwen2，支持8种语音理解任务

​OpenAI CEO在社交平台征询用户意见，或暗示重返开源之路

​谷歌AI概览引用YouTube视频激增25%，医疗行业表现突出

Qventus 融资 1.05 亿美元，推动医疗行业的 AI 创新发展

OpenAI CEO在社交平台征询用户意见，或暗示重返开源之路

谷歌AI概览引用YouTube视频激增25%，医疗行业表现突出