通义千问能看图了!阿里云开源视觉语言大模型Qwen-VL ,支持图文双模态输入

AI前线

发布于AI新闻资讯 · 1 分钟阅读 · 2023年8月25号 14:08

阿里云开源了视觉语言模型Qwen-VL,这是继8月开源通用模型Qwen-7B和对话模型Qwen-7B-Chat之后,又一个开源的大模型。Qwen-VL支持中英文,可以进行知识问答、图像标题生成、图像问答等多种应用。相比其他模型,Qwen-VL可以进行中文开放域定位,在图像中准确标注检测框。Qwen-VL基于Qwen-7B研发,引入视觉编码器,支持图像输入。Qwen-VL在多项视觉语言任务中的测试中,取得了同等模型最好的效果。Qwen-VL已在ModelScope等平台开源。多模态是大模型发展的重要方向,仍面临一定技术挑战。

阿里国际开源Ovis2系列多模态大语言模型共有六个版本

Ovis2 是阿里巴巴国际化团队提出的Ovis系列模型的最新版本。与前序1. 6 版本相比，Ovis2 在数据构造和训练方法上都有显著改进。它不仅强化了小规模模型的能力密度，还通过指令微调和偏好学习大幅提升了思维链（CoT）推理能力。此外，Ovis2 引入了视频和多图像处理能力，并增强了多语言能力和复杂场景下的OCR能力，显著提升了模型的实用性。

阿里云魔搭首发上线阶跃星辰最新开源的两款多模态模型

全球开发者目光再次聚焦中国!在备受瞩目的全球开发者大会（GDC）上，阿里云魔搭社区重磅宣布，首发上线阶跃星辰最新开源的两款多模态模型，包括全球参数量最大的开源视频生成模型 Step-Video-T2V，以及业界首款产品级开源语音交互模型 Step-Audio。这一消息瞬间引爆全球AI开源社区，再次彰显中国在人工智能领域的强劲创新实力。作为中国最大的AI模型社区，阿里云魔搭社区此次发布的这两款重磅模型，无疑是近期全球多模态领域最受瞩目的开源成果。 Step-Video-T2V 以其巨大的参数规模

超给力！DeepSeek 宣布下周开源五个项目

近日，DeepSeek 在其官网 X 账号上发布了重磅消息，宣布将在接下来的一个星期内陆续开源五个代码库。该公司表示，当前已经完成的在线服务模块经过严格的测试和部署，已具备投入生产环境的条件。DeepSeek 强调，分享代码的初衷在于希望每一行代码都能成为推动行业前进的强大动力。公司表示，这个领域并不存在所谓的象牙塔，更多的是一种纯粹的车库创业精神和社区共建的创新力量。通过开源代码，DeepSeek 希望能吸引更多开发者的参与，激发社区的活力与创新。作为一家新兴的技术企

Deepseek宣布将连续五天发布5个开源项目推动社区创新

北京时间，2025年2月21日，专注于探索通用人工智能（AGI）的 DeepSeek AI 团队在社交媒体上发布了一则振奋人心的消息，正式拉开了他们参与 #OpenSourceWeek 活动的序幕。这家小型但充满雄心的技术团队宣布，从下周开始，他们将开源5个代码仓库，以完全透明的方式与全球开发者社区分享他们的研究进展。

AI新闻资讯

通义千问能看图了!阿里云开源视觉语言大模型Qwen-VL ,支持图文双模态输入

AI前线

相关AI新闻推荐

阿里国际开源Ovis2系列多模态大语言模型 共有六个版本

阿里云魔搭首发上线阶跃星辰最新开源的两款多模态模型

超给力！DeepSeek 宣布下周开源五个项目

Deepseek宣布将连续五天发布5个开源项目 推动社区创新

阿里国际开源Ovis2系列多模态大语言模型共有六个版本

Deepseek宣布将连续五天发布5个开源项目推动社区创新