第五部分：可靠性与可观测性¶

到这里，我们已经有了架构、安全边界、记忆层和执行层。现在问题变了：系统上线之后，怎样在它已经会犯错、会变贵、会漂移、也会在顺利路径之外出故障的情况下继续管理它？

这一部分回答三个很实际的问题：

怎样还原一次运行的真实路径；
怎样定义系统的健康与可接受风险；
怎样把系统行为变成发布可以依赖的判断。

这一部分的快速路线

如果你想快速读完关键部分，可以这样走：

第 11 章：还原一次真实故障的原始历史；
第 12 章：定义健康预算与风险预算；
第 13 章：把系统行为变成可评审判断；
Evidence Spine：看清这些层怎样汇成一条运营记录。

Part V canonical case routes

在 reliability/observability layer 中，三个 canonical cases 需要不同 evidence routes。Support triage 检查 ticket writes 的 trace coverage、duplicate-ticket regression 和 approval-path evidence。Internal knowledge assistant 检查 retrieval quality、source-grounding judgment、freshness budget 和 memory-provenance evidence。Incident coordination 检查 escalation latency、notification delivery、response ownership 和 post-incident rollout judgment。

这一部分解决什么问题¶

读完第 11 章后，你应该能还原运行的路径，而不是靠症状猜测；
读完第 12 章后，你应该能用延迟、成本、安全和升级处理来表达健康预算与风险预算；
读完第 13 章后，你应该能对质量和回归风险产出可评审判断；
读完 Evidence Spine 后，你应该能看清追踪、策略、审批、评测和发布如何被串成一条可核查的链。

本部分内容¶

这一部分之后去哪里¶

一旦系统已经能捕获行为、定义预算并产出判断，下一个问题就会变成负责人机制。这也是为什么这一部分后面自然接上第六部分：在真实组织里，究竟由谁来持有这些承诺？