Hugging Face 推出开源多模态 AI 模型 IDEFIX

站长之家

发布于AI新闻资讯 · 1 分钟阅读 · 2023年8月23号 14:51

人工智能创业公司 Hugging Face 最近推出了一款名为 IDEFIX 的开源多模态 AI 模型。IDEFIX 可以处理图像和文本输入,并生成连贯的文本输出。IDEFIX 基于视觉语言模型 Flamingo 构建,使用了包括维基百科、公共多模态数据集和 LAION 在内的各种开放数据集进行了训练。相比专有模型,IDEFIX 在各种图像文本理解评估中的表现非常优异。这标志着多模态 AI 开源模型的一个重要进步。

VLM-R1引领视觉语言模型新纪元多模态AI迎来新突破

近日，VLM-R1项目的成功推出为这一领域带来了新的曙光。该项目是 DeepSeek 团队的 R1方法在视觉语言模型中的成功迁移，意味着 AI 对视觉内容的理解将进入一个全新的阶段。VLM-R1的灵感源自于去年 DeepSeek 开源的 R1方法，该方法利用了 GRPO（Generative Reward Processing Optimization）强化学习技术，在纯文本处理上取得了优异的表现。如今，VLM-R1团队将这一方法成功地应用于视觉语言模型，为多模态 AI 的研究开辟了新天地。在项目的验证结果中，VLM-R1的表现令人惊艳。首先，R1方法在复杂场景下展现出

微软团队推多模态AI模型Magma：整合视觉、语言和动作决策技能

近日，微软研究团队联合多所高校的研究人员，发布了一款名为 “Magma” 的多模态 AI 模型。这款模型的设计旨在处理和整合图像、文本和视频等多种数据类型，以便在数字和物理环境中执行复杂任务。随着科技的不断进步，多模态 AI 代理正在被广泛应用于机器人技术、虚拟助手和用户界面自动化等领域。以往的 AI 系统通常专注于视觉 - 语言理解或机器人操作，难以将这两种能力结合成一个统一的模型。许多现有模型虽然在特定领域内表现良好，但在不同应用场景中的泛化能力较差。例如

智谱AI：Agentic GLM全面登陆三星Galaxy S25系列

2025年2月11日，北京智谱华章科技有限公司宣布，其研发的Agentic GLM全面登陆三星最新款手机Galaxy S25系列。这一合作标志着全球首款支持多模态AI交互的智能手机正式推向市场，为用户带来了前所未有的智能体验。智谱华章自2023年4月开启Agent智能体相关研究，并于2024年10月推出首个Agent产品AutoGLM，率先提出Phone Use理念。基于在智能体领域的深厚技术积累，智谱与三星展开合作，将Agentic GLM的强大功能集成到Galaxy S25系列手机中。该手机不仅支持基于AI的实时语音和视频通话，还能够实现视觉理解

告别复杂编程:Hugging Face发布首个机器人基础模型Pi0

Hugging Face与Physical Intelligence联手推出了划时代的机器人基础模型Pi0，这是首个能将自然语言命令直接转化为机器人动作的开源模型，标志着机器人技术进入新纪元。Pi0模型在七个不同机器人平台上经过训练，掌握了68种独特任务，能够执行从折叠衣物到收拾桌子等复杂操作。该模型采用创新的流匹配技术，以50Hz的频率生成平滑的实时动作轨迹，确保了极高的精确度。更值得注意的是，研发团队同步推出了升级版Pi0-FAST，采用全新的频率空间动作序列标记方案，使训练速度提升5倍，并展现出

AI新闻资讯