用 Claude 3.5 Sonnet 提升 SWE-bench Verified 表现

本文是中文精读笔记，不是原文全文翻译。

这篇文章解决什么问题

SWE-bench Verified 用真实 GitHub issue 衡量模型修复软件问题的能力。文章介绍 Claude 3.5 Sonnet 在该评测上的表现和工程意义，帮助理解 coding benchmark 如何推动 Agent 能力进步。

这篇文章的重点不是某个模型拿了多少分，而是 SWE-bench 代表了一类更接近真实软件工程的评测。普通代码题通常输入很干净，输出也很短；SWE-bench 任务来自真实 GitHub issue，模型需要理解已有代码、定位相关文件、修改实现、跑测试并通过隐藏验收。

Verified 子集的意义在于提高任务可靠性。真实 issue 里会有描述不清、测试不稳定、环境复杂、修复范围争议等问题。如果评测集本身噪声太大，就很难判断模型到底有没有进步。Verified 通过筛选和校验，让 benchmark 更适合比较能力。

但文章也提醒我们，SWE-bench 分数不是“模型裸能力”的纯净测量。Agent 是否能搜索代码、如何编辑文件、能否运行测试、失败后如何重试，都会影响结果。一个强模型配弱 harness，可能不如中等模型配好工具链。