董小姐造假之后,Chatbot Arena被爆信任危机!


董小姐造假之后,Chatbot Arena被爆信任危机!

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

继董小姐之后,ChatbotArena曾是LLM竞技场的「金标尺」,如今却曝出评分被有意扭曲的证据!
开源AI研究者对ChatbotArena提出质疑!
CohereLabs等机构研究人员于4月29日上线的论文《TheLeaderboardIllusion》详细梳理了ChatbotArena内部一系列暗箱操作,揭露了目前最具权威的AI模型排名榜单——
ChatbotArena存在系统性偏向问题。
对于这场「排行榜幻觉」让我们不禁要问:我们真的能信任这些排名吗?
论文作者在审查ChatbotArena的数据后发现,一些大型AI公司享有未公开的特权位置,可以同时测试多个模型变体,然后只选择表现最好的版本公开发布。
数据显示,2025年1月至3月期间,Meta一个月内私下测试了27个模型,而Google也有10个,这些测试都发生在他们正式发布Llama4和Gemma3之前。
更惊人的是,如果再算上Vision榜单上的测试变体,Meta实际上测试了多达43个变体!
在这种机制下,大公司可以从多个变体中挑选出表现最佳的那个,而其他不知情的参与者则只能提交单一版本。
研究人员通过实验证明,这种「最佳-N选择」策略会系统性地提高Arena分数,违背了基础的布拉德利-特里模型(Bradley-Terrymodel)假设。
元宇宙AI研究者StellaBiderman对此评论道:
这真令人失望。LLM社区已经很难信任公司发布的数字,但@lmarena_ai通常被视为可信的独立机构。看起来这种信任被误置了。
研究发现,用户在ChatbotArena上贡献的宝贵反馈数据分配极不平等。
尤其令人震惊的是:
OpenAI和Google分别获得了约20.4%和19.2%的所有测试数据
而全部83个开源权重模型加起来只获得了约29.7%的数据
学术和非营利机构(如AllenAI、斯坦福、普林斯顿和加州伯克利)的总份额仅为0.9%
这种不平等来源于多个因素:私下测试的模型数量、采样率差异、模型下线政策,以及API支持模式。
比如,研究者观察到OpenAI和Google的模型每天最高采样率达到34%,而其他提供商如AllenAI的采样率要低10倍。
StellaBiderman在此问题上声明:
利益冲突声明:@AiEleuther的lmevalharness可以说是Arena的竞争对手。一些公司使用我们的库来发布提示和脚本以重现他们的结果。我们为用户提供这些选项,以便他们可以进行跨模型的苹果对苹果比较。
研究团队进行了控制实验,证明拥有Arena数据可以显著提高模型表现。他们在固定训练预算下,调整Arena数据与非Arena指令数据的比例,发现:
在ArenaHard测试集上,增加Arena数据(从0%到70%)使胜率从23.5%提升至近50%
这意味着模型表现提升了惊人的112%
而这还只是保守估计——大型实验室拥有的数据更多
这说明了拥有Arena数据确实能带来显著的排名优势,而这种优势主要被少数大型商业实体独享。
StellaBiderman进一步解释:
我们的目标是提供更好的评估数字透明度,使研究人员能够轻松比较各种基准测试中的不同模型。在过去,我们被要求对模型进行私人评估并分享结果。我们始终拒绝这样做。
研究发现ChatbotArena的模型下线政策存在严重问题:
在243个公开模型中,205个已被悄悄下线,远超官方列为已下线的47个模型
开源权重和完全开源的模型下线率高达87.8%和89%,而专有模型的下线率较低,为80%
这种不平等的下线政策,加上评估条件的变化,严重影响了排名结果的可靠性。
研究者通过模拟实验证明,当评估条件随时间变化时,提前下线模型会违反布拉德利-特里模型的传递性假设,导致排名失真。
研究团队把Arena真实对话按0%、30%、70%不同比例混入同等训练预算的SFT样本中:在ArenaHard集上,30%配比模型赢率暴涨81%,70%配比甚至翻倍达112%,可在MMLU上反而略降。
这证明拿到Arena数据的公司能「定向打榜」而非全面提升。
研究团队提出了五项关键建议,以恢复ChatbotArena的公平性和可信度:
禁止提交后撤回分数:所有模型评估结果必须永久公开,不得选择性隐藏
限制每个提供商的私有模型数量:建立透明的限制(如每个提供商最多同时测试3个模型变体)
确保模型下线平等应用:对专有、开源权重和开源模型采用相同的标准
实现公平采样:回归Arena组织者自己提出的主动采样方法
提供透明度:公开所有被下线的模型信息
ChatbotArena作为一个由社区驱动的开放榜单,在AI社区中已经扮演了重要角色。
但如果没有公平和透明的机制,它可能会导致研究者和开发者为了榜单表现而非真正的模型能力进行优化,最终阻碍整个领域的真正进步。
如研究人员所说:
「要诚实地衡量进步,我们需要可靠、公平的基准。」
虽然Arena对社区贡献巨大,但若不尽快堵上漏洞,「排行榜幻觉」将继续误导资本、研究方向与公众认知,公平竞争也将成为空谈。
是时候对ChatbotArena进行一些必要的改革了。
信任基石已被撬动,接下来何去何从?
——轮到Arena给出回应。
不得不说,世界真是个巨大的草台班子啊!
处处都是关系,处处都是利益,处处都是人情世故啊!
论文地址:
https ://arxiv.org/pdf/2504.20879v1
👇
👇
👇
另外,我还用AI进行了全网的AI资讯采集,并用AI进行挑选、审核、翻译、总结后发布到《AGIHunt》的知识星球中。
这是个只有信息、没有感情的AI资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息)


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录