这是 人工评估 系列文章的第一篇《基础概念》,全系列包括:
人工评估是指让人类评价模型输出回答的好坏。本文讨论的都是后验评估,即模型已经完成训练,给定一个任务让人类进行评估。
系统化的人工评估主要有 3 种方式:
如果你手头 没有现成的数据集,但还是想测试一些模型的能力,可以采用人工评估:提供一个任务说明和打分指南 (例如:尝试与模型交互,迫使模型输出不当语言,即包含冒犯性、歧视性、暴力等。如果模型输出了不当语言,则得分为 0,反之为 1。
),以及可供交互的测试模型,然后就可以让标注员人工操作并评分,同时列出评分理由。
如果你手头 已经有数据集 (例如 收集了一组 prompt,并确保这些 prompt 不会迫使模型输出不当回答
),可以自行将 prompt 输入模型得到输出,然后将输入 prompt、输出回答、打分指南一起提供给标注员评估 (如果模型意外输出不当,则得分为 0,反之为 1
)。
如果你手头 既有数据集也有评分结果,可以让人工标注员通过错误注释的方法 (这种方法同样可以作为评估系统,适用于上面的情况) 来对评估进行审查。在测试新评估系统时,这一步非常重要,但是技术测层面属于对评估系统的评估,因此略微超出本文的讨论范围。
错误注释
https://ehudreiter.com/2022/06/01/error-annotations-to-evaluate/
注:
基于人类的评估方法还有两种不那么正式的方法:
Vibes 检查 是一种使用非公开数据进行人工评估的方法,用来在多个场景用例 (如代码编程和文学创作等) 上测试来把握整体效果。评估结果通常会被当作轶事证据而分享在 Twitter 和 Reddit 上,不过它们很容易受到主观认知偏差的影响 (换句话说,人们往往只相信自己相信的结果)。尽管如此,这些结果依然能作为你自己测试的一个不错起点。
你自己测试的一个不错起点
https://olshansky.substack.com/p/vibe-checks-are-all-you-need
Arenas 是一种众包人工评估的方法,用来给多个模型表现排名。一个知名的例子是LMSYS 聊天机器人 Arena 评估, 社区用户通过与多个模型对话来分辨孰优孰劣并投票。总的投票结果将汇总为 Elo 排名 (这场多个模型比赛的排名),来评判出 “最优模型”。
LMSYS 聊天机器人 Arena 评估
https://hf.co/spaces/lmsys/chatbot-arena-leaderboard
优势:
劣势:
系统化人工评估 (尤其是付费的人工) 的优势:
缺点:
优势:
劣势:
原文链接:https://github.com/huggingface/evaluation-guidebook/blob/main/contents/human-evaluation/basics.md
作者: clefourrier
译者: SuSung-boy
审校: adeenayakup
文章来自于“Hugging Face”,作者“clefourrier”。
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0