Claude Code 质量报告更新

本文是中文精读笔记，不是原文全文翻译。

这篇文章解决什么问题

Claude Code 用户反馈近期质量下降后，Anthropic 复盘了多个变化如何叠加成体验回归。这类文章的价值在于它把“模型变差了”拆成具体系统原因：推理强度、上下文缓存、历史 thinking 清理和 system prompt 调整。

这篇复盘的核心价值，是把“Claude Code 变差了”拆成多个工程变量，而不是简单归因于模型权重。Coding Agent 的体验由模型、system prompt、上下文缓存、工具输出、推理预算、IDE 交互和用户任务共同决定。任意一层变化，都可能让用户感知到质量下降。

reasoning effort 的变化尤其典型。对普通聊天来说，少一点思考可能只是回答更短；但对 coding agent 来说，少想一步可能意味着没有读完相关文件、没有跑测试、没有检查边界条件。也就是说，产品希望“更快、更简洁”的优化，可能和工程任务需要的“充分分析”冲突。

上下文缓存和历史 thinking 的问题则提醒我们：长上下文不是越多越好。旧状态如果没有被正确清理，就会像脏缓存一样污染新任务。系统提示词也是如此，减少啰嗦输出的 prompt 如果写得过强，可能让模型省略必要的解释、计划和验证动作。