谷歌最近推出了新一代人工智能系统Gemini,这是其在人工智能领域的重要进展。Gemini支持文本、图像、音频、视频和代码等多种模式,拥有出色的理解和推理能力。该系统在多个基准测试中表现优异,缩小了与竞争对手的差距。Gemini系统有望通过云服务等渠道实现商业化,从而扩大谷歌在人工智能领域的影响力。
谷歌最近推出了新一代人工智能系统Gemini,这是其在人工智能领域的重要进展。Gemini支持文本、图像、音频、视频和代码等多种模式,拥有出色的理解和推理能力。该系统在多个基准测试中表现优异,缩小了与竞争对手的差距。Gemini系统有望通过云服务等渠道实现商业化,从而扩大谷歌在人工智能领域的影响力。
Ovis2 是阿里巴巴国际化团队提出的Ovis系列模型的最新版本。与前序1. 6 版本相比,Ovis2 在数据构造和训练方法上都有显著改进。它不仅强化了小规模模型的能力密度,还通过指令微调和偏好学习大幅提升了思维链(CoT)推理能力。此外,Ovis2 引入了视频和多图像处理能力,并增强了多语言能力和复杂场景下的OCR能力,显著提升了模型的实用性。
全球开发者目光再次聚焦中国!在备受瞩目的全球开发者大会(GDC)上,阿里云魔搭社区重磅宣布,首发上线阶跃星辰最新开源的两款多模态模型,包括 全球参数量最大的开源视频生成模型 Step-Video-T2V,以及 业界首款产品级开源语音交互模型 Step-Audio。 这一消息瞬间引爆全球AI开源社区,再次彰显中国在人工智能领域的强劲创新实力。作为中国最大的AI模型社区,阿里云魔搭社区此次发布的这两款重磅模型,无疑是近期全球多模态领域最受瞩目的开源成果。 Step-Video-T2V 以其巨大的参数规模
据了解,腾讯元宝此次升级的核心在于“混元+DeepSeek”双模聚合技术的应用。过去,DeepSeek主要扮演的是信息提取的角色,类似于“扫描仪”。但在腾讯混元多模态技术的加持下,如今的DeepSeek已经能够真正理解图片中的细节、氛围,甚至是隐藏的含义。这一转变使得腾讯元宝能够“看懂”图片,并给出自己的分析和解读。
在 AI 行业,Together AI 最近宣布完成了一轮3.05亿美元的 B 轮融资,这一消息引起了广泛关注。该公司的崛起与其新推出的深度理模型 DeepSeek-R1密切相关。与最初的担忧相反,许行业专家认为,深度推理的进步并没有降低对基础设施的需求,反而在不断提升这一需求。图源备注:图片由AI生成,图片授权服务商Midjourney自2023年成立以来,Together AI 旨在简化企业对开源大型语言模型(LLM)的使用。随着时间的推移,该公司逐步扩展其平台,提供了一个名为 “Together 平台” 的解决方案,支持在虚