来自德国达姆施塔特工业大学的最新研究揭示了一个令人深思的现象:即便是当前最先进的AI图像模型,在面对简单的视觉推理任务时也会出现明显失误。这项研究结果对AI视觉能力的评估标准提出了新的思考。研究团队采用了由俄罗斯科学家Michail Bongard设计的Bongard问题作为测试工具。这类视觉谜题由12张简单图像组成,分为两组,要求识别出区分这两组的规则。对于大多数人来说,这种抽象推理任务并不困难,但AI模型的表现却令人意外。即便是目前被认为最先进的多模态模型GPT-4o,在100个
OpenAI最近公布了一项名为sCM(简化型、稳定型和可扩展型一致性模型)的突破性技术,这一创新彻底改变了AI图像模型的训练方式。该技术在原有的一致性模型(CMs)基础上实现了重大突破,为快速图像生成开辟了新天地。技术核心优势:只需两步计算即可生成高质量图像在A100GPU上生成一张图片仅需0.11秒相比传统扩散模型,速度提升50倍最大模型参数达15亿,创下新纪录在实际测试中,sCM的表现令人瞩目。在CIFAR-10数据集上获得了2.06的FID评分,在ImageNet上生成512x512像素图像时达到了1.88的优异成