让LMM作为Judge,从对模型的性能评估到数据标注再到模型的训练和对齐流程,让AI来评判AI,这种模式几乎已经是当前学术界和工业界的常态。我之前也介绍过这方面的研究,但没想到打脸来得这么快!之前也有朋友曾质疑过 LLM as judge。最近一篇题为《既无效又不可靠?调查将大型语言模型作为法官的运用》(Neither Valid nor Reliable? Investigating the Use of LLMs as Judges) 的立场论文, 对当前人工智能领域的热门趋势LLMs as Judges进行了深刻反思和批判。研究者认为,我们对LLJs的应用热情已经远远超过了对其作为评估工具本身是否科学、可靠、有效的严格审查。这就像我们急于使用一把新尺子去测量东西,却没有先确认这把尺子本身的刻度是否准确。
在深入探讨其风险之前,我们有必要了解“LLM Judges”如今的应用有多广泛。根据研究者的梳理,其应用已远超简单的性能评估,深度渗透到模型开发的全流程,主要涵盖三大功能:
核心领域:文本摘要、机器翻译、对话生成等。
典型任务:数据标注,尤其是在仇恨言论检测、政治立场分类等主观性强的任务中。
关键场景:安全对齐(作为实时安全护栏、自动进行红队演练)、奖励建模、以及实现模型的“自我提升”和“自我对齐”。
可以看到,“LLM Judges”已经从一个“评估员”,演变成了贯穿数据准备、模型训练、安全部署等环节的“多面手”。
为了系统地分析这个问题,研究者们搬出了一个看似“老古董”但极其重要的工具源自社会科学的“测量理论”。这个理论就是用来校准我们手中这把新潮的“AI评估尺”的,它有两个核心概念,缺一不可。
基于这个框架,研究者们对支撑LLM裁判(LLJs)广泛使用的四个核心假设,进行了逐一的审视。
业界普遍认为,LLMs是人类判断的有效代理 (LLMs as a Proxy for Human Judgment),只要AI裁判的评分和人类专家的评分高度相关,就证明它是有效的。但研究者们一针见血地指出,这个逻辑链条的起点,所谓“人类判断”这个金标,本身就是摇摇欲坠的。
另一个普遍看法是,LLMs是能干的评估者 (LLMs as Capable Evaluators),既然LLM本身能力这么强,当个评估员肯定绰绰有余。可现实挺骨感的,研究者们发现,作为裁判的LLM存在一系列内在缺陷,严重影响其判断的信度和效度。
大家都爱“大力出奇迹”,LLMs是可扩展的评估者 (LLMs as Scalable Evaluators),觉得用AI裁判可以大规模、自动化地搞定评估和模型对齐,效率直接拉满。但研究者警告说,这种做法可能正在制造一个巨大的、自我循环的“信息茧房”,最终损害评估的“预测效度”。
研究者们的批判并非泛泛而谈,在关键部分直接指向了三家科技巨头。
省钱,LLMs是成本效益高的评估者 (LLMs as Cost-Effective Evaluators),这绝对是AI裁判最吸引人的一点。不过,研究者提醒我们必须算算那些看不见的“隐形成本”,这些成本关系到评估的“后果效度”,即这项技术应用后带来的长远社会影响。
这部分没有停留在批判,而是建设性地提出了三条核心建议
目前LLJs的应用存在一个巨大疏忽:无论任务和领域有何不同,部署和设计评估的方式都大同小异。这种做法是危险的,可能导致有害的后果。 一个具体的例子是:使用LLJs来大规模进行“红队演练”(即寻找模型漏洞)可以拓宽评估范围,这是有益的。但如果将同样的方法直接用于模型的安全过滤统,就可能只会训练出“表面上”的安全行为,而非真正的安全理解。因此,评估LLJs的角色必须综合考虑任务性质、应用领域和评估目标等多个关键维度。
作者认为,减轻LLJs自身的偏见固然重要,但整个领域更迫切需要的是改进评估实践本身。
他们引用近期的争议事件指出,科技公司有操纵现有评估框架的行为,这引发了对数据污染、为跑分而进行的竞争性基准测试以及对基准过度拟合等严重问题的担忧。 尽管评估在机器学习发展中至关重要,但从业者之间缺乏严谨、共享的实践方法。大家共享的是基准和指标等“技术产物”,而不是科学的方法论。这篇论文证明,LLJs的采用不仅复制并加剧了NLG评估中长期存在的缺乏标准化和系统化的问题,还带来了新的挑战。
这是最激进也是最深刻的建议。作者明确指出:“也许是时候改变那种依赖有利益关系的公司来提供其旨在推向市场的产品进行透明全面评估的模式了”。 他们主张,应该努力建立适当的机制,以实现透明、有效和可靠的评估。这暗示着需要一个类似于其他高风险行业(如药品、航空)的独立第三方监督体系。
研究者最后强调,我们并非全盘否定LLJs的价值。在某些场景下,如用于探索性测试或减轻人类标注有害内容的负担,它仍有巨大潜力。在正确实施的情况下,LLJs为推进NLG评估提供了宝贵的机会。比如它们可以帮助建立更真实、互动性更强的长期评估流程,更好地反映真实世界的使用情况。另一个重要应用是,它们可以减轻人类标注者处理有害或创伤性内容的负担。关于我之前写过LLMs as Judges的文章,感兴趣您可以看下这两篇
Meta与伯克利最新:元奖励Prompt,让LLM作为元法官能自我改进(包含Prompt模板)
第一,研究者们提出,LLJs的缺陷不仅仅是一个技术工具的问题,更是整个AI领域评估文化危机的症候。当前领域内普遍存在一种为了在排行榜上获得更高排名而进行的“竞争性基准测试”文化。这种文化导致了对基准的过度拟合和评估方法的随意性。LLJs的出现,只是将这种本已存在的、不科学的文化自动化并放大了。这从根本上将讨论从“如何修正LLMs as Judges的技术偏见”提升到了“如何重建科学、严谨的AI评估方法论”的层面。
第二,公开质疑科技巨头“既当运动员又当裁判员”的现状。在AI能力越来越强,影响越来越广的今天,让开发者自我评估其产品的安全性和有效性,其固有的利益冲突是显而易见的。作者呼吁建立独立的、透明的评估机制,这实际上是在倡导一种AI治理的结构性变,从依赖企业自律转向更强有力的外部监督和社会问责。这在当前关于AI监管的全球讨论中,是一个非常关键且有力的声音。
总而言之,这篇论文为当前火热的AI领域注入了一剂冷静剂,它提醒我们,在追求技术飞速迭代的同时,更要回归科学的本源,审慎地构建我们赖以衡量进步的基石。
文章来自于微信公众号“AI修猫Prompt”。
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0