斯坦福最新PIGEON模型:AI猜图位置准确率超90%
新智元
本文来自AIbase日报
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

阶跃星辰开源320亿参数深度研究模型Step-DeepResearch,能在开放环境中自主探索信息并生成专业报告。其研究能力接近OpenAI o3-mini等顶级商业模型,但部署成本仅为传统模型的十分之一,单次调用成本低于0.5元人民币。

Meta AI发布Pixio图像模型,通过改进MAE框架,证明简单训练路径在深度估计和3D重建等任务中性能卓越,挑战了MAE逊于DINOv2等复杂算法的传统认知。

元宝平台2025年报告显示,混元大模型实现AI能力多维度升级。平台提供“快思考”与“深度思考”两种模式:超七成用户选择“快思考”,近半数问题首轮即可解决;“深度思考”适用于复杂场景,对话通常持续三轮以上,近半数能输出多步骤结构化内容。图像交互方面,混元T1-Vis模型于5月上线。

圣诞节当天,边缘AI初创公司Liquid AI发布开源模型LFM2-2.6B-Exp,仅26亿参数,却在多项基准测试中表现优异,指令跟随能力甚至超越数百亿参数的DeepSeek R1-0528,被赞为“最强3B级模型”。该模型基于第二代LFM2基础模型,通过纯强化学习实现实验性突破。

小红书与复旦大学联合发布AI绘画新技术InstanceAssemble,解决AI绘画“构图难”问题,实现从简单到复杂场景的精准图像生成。相关论文已被顶级会议NeurIPS2025收录。
阿里云通义实验室开源图像编辑模型Qwen-Image-Edit-2511,重点优化前代版本存在的编辑后图像“轻微漂移”问题,通过技术改进提升编辑一致性与视觉稳定性,为开发者提供更精准可靠的可控生成工具。

小红书开源可控图像生成框架InstanceAssemble,专为高密度、多对象、复杂空间关系的图像生成任务设计。该框架通过级联建模与Assemble-Attention机制,在仅增加极低参数的情况下,显著提升生成图像的空间对齐精度与语义一致性,为电商、设计等场景提供工业级解决方案。

阿里巴巴Qwen团队发布全新图像编辑模型Qwen-Image-Edit-2511,针对AI修图常见的人脸变形和身份丢失问题实现突破,能精准保留人物面部特征。该模型是此前版本的重大升级,支持单人肖像精细编辑和多场景处理。

Jan团队推出30B参数多模态模型Jan-v2-VL-Max,专注解决AI在复杂自动化任务中易中断的痛点。该模型基于Qwen3-VL-30B-A3B-Thinking,引入LoRA-based RLVR技术,旨在提升多步操作的稳定性,实现更可靠的长周期任务执行。
面壁智能完成数亿元融资,投资方包括京国瑞、国科投资等。资金将重点投入端侧高效大模型的研发,以巩固其在终端智能市场的技术优势。作为国内端侧AI领域的先行者,公司已构建从理论到全场景产品的完整体系。