裁判模型的隐性风险：为什么你的评估堆栈正在静默失败

每个人的评估堆栈都有一个相同的、无人审查的关键假设：即作为裁判的模型说的是真话。

你为那些简单的事情编写了确定性检查——模式有效、无个人身份信息、延迟在预算范围内。然后你遇到了主观性问题——“这个答案真的有帮助吗”、“智能体是否遵循了用户的意图”、“这个摘要是否忠实于原文”——于是你求助于大语言模型裁判，因为除此之外你别无他法。现在，一个模型在给另一个模型打分。而这里有一个应该让你夜不能寐的问题：你从未验证过这个评分器。 你正在基于一个你在二十分钟内编写的提示词所产生的 0–10 分来决定发布或阻止发布，而你完全不知道这个分数是否与人类认可的任何标准相关。

我曾见过团队信任一个显示绿色的裁判仪表盘数月之久，随后却发现裁判给那些用户讨厌的答案打出了 8 分。裁判并没有以明显的方式出错。它只是未经校准，而未经校准的评分器会静默失败——这是最糟糕的失败方式。

裁判是一个生产环境中的模型，所以要像对待生产模型一样对待它

直白地说：你的大语言模型裁判是一个在你的发布流程中做出关键决策的非确定性模型。这正是你花了一年时间学习去不信任的东西。不知何故，当它穿上白大褂并被称为“评估器”时，人们赋予了它权威，而这种权威是他们绝不会赋予智能体本身的。

裁判悄悄撒谎的三种方式：

位置偏差。 交换两个候选答案的顺序，裁判就会改变其选出的获胜者。如果 A 对 B 与 B 对 A 的结果在超过约 10% 的情况下不一致，那么你的成对评分部分就像抛硬币一样随机。
冗长偏差。 更长、更自信的答案无论正确与否都会获得更高的分数。你的裁判是在给文笔打分，而不是给真理打分。
自我偏好。 与智能体属于同一模型家族的裁判会给该家族输出的内容打更高的分数。如果 GPT 给 GPT 打分，你就面临着带有具体数值的利益冲突。

这些都不会出现在只绘制平均分的仪表盘上。只有当你主动去寻找时，它们才会显现——而大多数团队从不寻找，因为裁判产生了一个干净的指标，而干净的指标让人感觉像是基本事实。

根据人类标准校准裁判，并持续检查

解决方案并不是“停止使用大语言模型裁判”。它们确实有用，而且你无法对每次运行都进行人工标注。解决方案是将裁判视为一个拥有自己基本事实数据集的被测系统。 你需要一个带标签的黄金数据集——由你信任的人类评分的几百个示例——然后你测量裁判与这些人类评分者的一致性。使用科恩卡帕系数，而不是原始准确率，因为当大多数答案都是“尚可”时，原始一致性会被夸大。

这是在允许任何裁判充当守门员之前，我运行的校准检查：

import { judge } from "./llm-judge";

type Labeled = { input: string; output: string; humanScore: number };

// 二次加权一致性：对大的分歧比小的分歧惩罚更多。

免责声明：本文内容来自互联网，该文观点不代表本站观点。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请到页面底部单击反馈，一经查实，本站将立刻删除。

谁来评估评估者？你的大语言模型裁判是一个未经验证的生产环境模型

裁判是一个生产环境中的模型，所以要像对待生产模型一样对待它

根据人类标准校准裁判，并持续检查