SALMONN框架：拓展大型语言模型通用听觉能力

站长之家

发布于AI新闻资讯 · 1 分钟阅读 · 2023年11月29号 10:58

SALMONN框架通过整合不同听觉编码器和激活调整阶段，取得了竞争性的通用听觉性能。其多模态架构为大型语言模型提供了直接理解和处理通用音频输入的能力，展示了在多种任务中的竞争性性能。

智谱GLM-PC开放体验自主操作电脑的多模态Agent升级

北京智谱华章科技有限公司近日宣布其旗下的智谱 GLM-PC 智能体已进行升级，并正式向公众开放体验。作为全球首个可以自主操作计算机的多模态智能体，GLM-PC 的技术基础是智谱的多模态大模型 CogAgent。用户只需简单的回车操作，即可体验这一革新性的电脑智能助手。自2024年11月29日 GLM-PC v1.0发布以来，它就一直处于内测阶段。这一版本带来了 “深度思考” 模式，新增了逻辑推理和代码生成功能，同时也对 Windows 系统进行了支持。GLM-PC 的能力涵盖了代码生成、逻辑执行、图形用户界面（

月之暗面发布新一代SOTA模型 k1.5：多模态推理能力再升级

月之暗面公司隆重推出其全新的 SOTA（state-of-the-art）模型 ——k1.5多模态思考模型，标志着在多模态推理和通用推理领域的重大突破。该模型不仅具备出色的多模态处理能力，还展示了卓越的通用推理能力，能够有效应对各类复杂任务。k1.5模型的最大亮点在于其多模态推理能力。它可以同时处理来自文本、图像、声音等不同模态的信息，进而提供更加全面和准确的理解。这一特性使其在视觉问答、视觉常识推理及视觉语言导航等任务中表现尤为出色。举例来说，用户可以通过图像和文本结

Kimi 发布全新 SOTA 模型： k1.5 多模态思考模型登场

近日，北京月之暗面科技有限公司宣布其旗下智能助手 Kimi 迎来了重大技术升级，推出了全新的 k1.5多模态思考模型。这一模型在多模态推理和通用推理能力上达到了行业领先水平，标志着 Kimi 在人工智能领域的又一次突破性进展。

大模型新突破：从教学视频中提炼高质量多模态教科书

近日，浙江大学与阿里巴巴达摩院联合发布了一项引人瞩目的研究，旨在通过教学视频创建高质量的多模态教科书。这一创新的研究成果不仅为大规模语言模型（VLMs）的训练提供了新的思路，也可能改变教育资源的利用方式。随着人工智能技术的迅猛发展，VLMs 的预训练语料主要依赖图文对数据与图文交织语料。然而，当前的这些数据多来自网页，文本与图像的关联性较弱，知识密度也相对较低，无法有效支持复杂的视觉推理。为了应对这一挑战，研究团队决定从互联网上海量的教学视频

AI新闻资讯