量化 Agent 编程评测中的基础设施噪声

本文是中文精读笔记，不是原文全文翻译。

这篇文章解决什么问题

Coding Agent 评测经常把最终通过率当成模型能力，但运行环境本身也会制造噪声：依赖下载失败、网络波动、测试不稳定、容器差异都可能让结果偏移。文章讨论如何量化这些非模型因素。

这篇文章把 coding eval 里经常被忽略的“脏东西”拿出来讲。一个 Agent 没通过任务，可能是模型没有理解 issue，也可能是依赖安装失败、测试 flaky、网络超时、包版本变化、容器资源不足，甚至是评测脚本本身不稳定。如果不区分这些原因，模型团队会被错误信号带偏。

基础设施噪声最危险的地方，是它会伪装成模型能力波动。同一个模型，同一个任务，多跑几次结果不同；或者 A 模型看似强于 B 模型，其实只是某次运行环境更顺。对外报告 benchmark 时如果只给单个 pass rate，就会掩盖这种不确定性。

实际工程里，评测系统应该像生产系统一样有观测能力：记录镜像版本、依赖安装日志、测试命令、退出码、网络状态、资源限制和完整工具轨迹。只有先把环境失败剥离，才能真正比较模型和 agent harness 的差异。