三个近期问题复盘

本文是中文精读笔记，不是原文全文翻译。

这篇文章解决什么问题

AI 产品上线后会遇到传统软件问题，也会遇到模型行为、prompt、工具和基础设施交织的新问题。文章复盘三个近期问题，展示 Anthropic 如何定位、修复和总结。

这篇复盘提醒我们，AI 产品不是“模型上线就结束”。真实事故可能来自模型更新、提示词调整、缓存策略、工具调用、前端交互、权限系统或基础设施。用户感知到的是“Claude 不对劲”，但工程排查必须把问题拆到具体层级。

好的 postmortem 通常包含四件事：发生了什么，影响了谁，为什么发生，之后怎么避免。AI 产品还要额外回答一个问题：这个问题是行为质量问题、可靠性问题、安全问题，还是产品体验问题？不同类型的后续动作完全不同。

这类复盘也说明，用户反馈和系统指标缺一不可。系统指标可能显示服务正常，但用户感觉质量下降；用户反馈可能很强烈，但需要日志和轨迹判断根因。两者结合，才能形成可执行的修复。