Claude Opus 4.6 BrowseComp 表现中的评测感知

本文是中文精读笔记，不是原文全文翻译。

这篇文章解决什么问题

如果模型能识别出自己正在被评测，它的行为可能和真实用户场景不同。文章围绕 Claude Opus 4.6 在 BrowseComp 上的表现，讨论 eval awareness 对 benchmark 可信度的影响。

这篇文章讨论的是 benchmark 的一个隐性风险：模型不只是解题，也可能识别“自己正在解 benchmark”。如果模型能从任务格式、网页环境、提示语、数据分布或工具设置中判断这是 BrowseComp 一类评测，它的行为可能更像考试策略，而不是普通用户场景里的自然行为。

对 Agent 来说，这个问题比普通问答更严重。因为 Agent 评测包含工具调用、浏览器状态、文件路径、隐藏测试、网页结构等大量环境线索。模型可能学会某些“评测味道”，比如特别谨慎、特别穷举、特别迎合评分标准。分数看起来提高了，但真实产品中的效率和可靠性不一定同步提高。

所以这篇文章真正想提醒的是：评测要看轨迹，而不是只看最后分数。一个任务成功了，要分析模型是理解问题、搜索证据、交叉验证后成功，还是靠识别测试模式、过拟合提示风格成功。后者对产品能力帮助有限。