在4月10日的商汤技术交流日上,商汤科技发布了其最新的多模态融合大模型 “商汤日日新 SenseNova V6” 及 “商汤大装置 SenseCore2.0” 体系。这一新版本大模型旨在整合文本、图像和视频等多种信息形式,为用户提供更为自然和丰富的交互体验。
此次推出的 SenseNova V6系列包含四个版本,其中最引人注目的是 SenseNova V6Pro,它采用了6200亿参数的混合专家架构,展现了强大的多模态融合能力。SenseNova V6Reasoner Pro 则在此基础上增强了多模态推理能力,能够进行更深入的逻辑分析。此外,SenseNova V6Video 专注于视频理解,能够有效总结视频内容并进行深度分析,而 SenseNova V6Omni 则是一个轻量级的全模态交互模型,结合语言、语音和视频,提供实时交互。
在现场演示中,SenseNova V6展现了其独特的多模态能力。用户可以通过手写数学题的照片与模型互动,模型不仅能够解题,还能分析用户的答案,并通过语音引导用户逐步理解解题思路,甚至在用户遇到问题时提供实时答疑。这一特性使得 SenseNova V6更像是一个私人辅导老师。
商汤科技联合创始人林达华表示,未来的交互必将是多模态的,商汤的目标是掌握未来交互的核心技术。他指出,当前国内企业在多模态推理与交互能力的研发上相对较少,商汤希望通过在计算机视觉领域的优势,提前布局多模态大模型的市场。
此外,商汤的 SenseNova V6Pro 具备的多模态能力已经能够与国际主流模型如 Gemini2.0Pro 和 GPT-4.5相抗衡。商汤还强调,强推理、强交互和长记忆是其技术能力的三大关键突破。这些能力不仅能让模型更好地理解人类的意图,还能与用户建立更为亲切的互动关系。
商汤科技计划将 SenseNova V6嵌入真实业务场景中,满足用户在不同领域的需求。新的应用场景涵盖教学、翻译、旅游等多个方向,同时商汤也与具身智能企业傅利叶展开合作,赋予机器人更强的环境理解和人机交互能力,真正实现智能化的未来。