刚刚登场不久的开源 AI 模型 Reflection70B,近日就遭到了业界的广泛质疑。

这款由纽约初创公司 HyperWrite 发布的模型,自称是 Meta 公司的 Llama3.1变种,曾以其在第三方测试中的优异表现引发关注。然而,随着一些测试结果的公布,Reflection70B 的声誉却开始受到挑战。

事情的起因是 HyperWrite 的联合创始人兼 CEO Matt Shumer 于9月6日在社交媒体 X 上宣布了 Reflection70B,并信心满满地称其为 “全球最强的开源模型”。

image.png

Shumer 还分享了关于这款模型的 “反射调优” 技术,声称这一方法能让模型在生成内容前自我审核,从而提升准确性。

然而,在HyperWrite宣布后的第二天,专门进行“AI模型和托管提供商独立分析”的组织Artificial Analysis在X上发布了自己的分析,指出他们评估的Reflection Llama3.170B的MMLU(Massive Multitask Language Understanding)得分与Llama370B相同,但明显低于Meta的Llama3.170B,这与HyperWrite/Shumer最初发布的结果存在重大差异。

image.png

Shumer随后表示,Reflection70B的权重(或开源模型的设置)在上传到Hugging Face(第三方AI代码托管存储库和公司)的过程中出现了问题,这可能导致性能比HyperWrite的“内部API”版本差。

Artificial Analysis在随后的声明中表示,他们获得了对私有API的访问权限,并看到了令人印象深刻的性能,但并没有达到最初的声明水平。由于这次测试是在私有API上进行的,他们无法独立验证他们正在测试的内容。

该组织提出了两个关键问题,严重质疑HyperWrite和Shumer最初的性能声明:

  • 为什么发布的版本不是他们通过Reflection私有API测试的版本。
  • 为什么他们测试的版本的模型权重尚未发布。

同时,Reddit上的多个机器学习和AI社区的用户也对Reflection70B的声明性能和起源提出了质疑。一些人指出,根据第三方在Github上发布的模型比较,Reflection70B似乎是Llama3的变体,而不是Llama-3.1的变体,这进一步对Shumer和HyperWrite最初的声明产生了怀疑。

这导致至少有一位X用户Shin Megami Boson在9月8日东

image.png

部时间晚上8:07公开指控Shumer在AI研究社区中存在“欺诈行为”,并发布了一长串截图和其他证据。

其他人则指控该模型实际上是构建在专有/封闭源代码的竞争对手Anthropic的Claude3之上的“包装器”或应用程序。

然而,也有其他X用户站出来为Shumer和Reflection70B辩护,一些人也发布了他们端的模型的印象深刻的性能。

目前,AI研究社区正在等待Shumer对这些欺诈指控的回应和Hugging Face上的更新模型权重。

🚀 Reflection70B 模型发布后,性能受到质疑,测试结果未能复现初期声称的表现。

⚙️ HyperWrite 创始人解释称模型上传问题导致性能下降,呼吁关注更新版本。

👥 社交媒体上对该模型的讨论热烈,既有指责也有辩护,形势错综复杂。