揭开 AI Agent 评测的面纱

本文是中文精读笔记，不是原文全文翻译。

这篇文章解决什么问题

Agent eval 经常被说得很玄，但本质是工程化的反馈系统：定义任务、运行 Agent、收集轨迹、判断是否成功、分析失败并迭代。文章用更清晰的方式拆解 Agent 评测应该怎么做。

这篇文章可以作为 Agent 评测入门。普通 LLM eval 通常是输入一段文本，输出一个答案，然后判断答案好坏；Agent eval 则要评估一个过程：模型如何计划、选择工具、读取结果、修正错误、继续行动，最后是否完成任务。

原文强调，评测设计要从真实任务开始。比如客服 Agent 的真实任务不是“回答一条知识题”，而是理解用户问题、查知识库、确认账户状态、避免泄露隐私并给出可执行下一步。Coding Agent 的真实任务也不是“写一个函数”，而是理解仓库、定位 bug、修改代码、跑测试、解释改动。

好的 Agent eval 应该能定位失败阶段。如果任务失败，是目标理解错了，检索结果不对，工具参数错了，还是遇到错误后没有恢复？只有知道失败发生在哪一环，评测才会变成工程迭代工具，而不是排行榜数字。