阿里巴巴达摩院近日推出了一款名为Valley2的多模态大型语言模型,该模型基于电商场景设计,旨在通过可扩展的视觉-语言架构,提升各领域性能并拓展电商与短视频场景的应用边界。Valley2采用了Qwen2.5作为LLM主干,搭配SigLIP-384视觉编码器,结合MLP层和卷积进行高效特征转换。
近日,前微软亚洲研究院的视觉计算组首席研究员胡瀚正式加盟腾讯,负责混元多模态大模型的研发工作。这一消息引发了业内的广泛关注,胡瀚的加入被认为将为腾讯的人工智能事业注入新的活力。胡瀚于2008年在清华大学获得本科学位,2014年获得博士学位,师从著名教授周杰。他的博士论文于2016年获得中国人工智能学会的优秀博士论文奖,这足以显示他的学术造诣。2012年,胡瀚曾在宾夕法尼亚大学的 GRASP 实验室进行访问研究,之后加入了百度深度学习研究所(IDL),成为了该领域的
前微软亚洲研究院视觉计算组的首席研究员胡瀚已正式加入腾讯,接替已离职的前腾讯混元大模型技术负责人刘威,承担起多模态大模型的研发任务。这一消息引起了业界的广泛关注。胡瀚的学术背景十分扎实。2008年,他从清华大学获得本科学位,并于2014年获得博士学位,师从著名教授周杰。他的博士论文在2016年获得了中国人工智能学会的优秀博士论文奖。2012年,胡瀚曾在宾夕法尼亚大学的 GRASP 实验室进行访问研究,师从史建波教授。此后,他加入了百度深度学习研究所,成为该研究
12月30日,支付宝推出新一代AI视觉搜索产品“探一下”,基于自研的多模态大模型技术,可“用AI之眼探索万物”,提供更快速、有用、趣味的生成式搜索服务。用户遇到感兴趣的事物,就能让AI通过摄像头,识别花草宠物和潮玩、做旅游的随身讲解、查询商品药品详情等,还能趣味解读萌宠照、宝宝照等,晒图不愁配文案。目前该产品已上线支付宝,在首页点击“扫一扫”后左划即可找到它,在支小宝App也能快速访问。2024年以来,支付宝接连发布“支小宝”等AI独立应用及智能体开发平台