第五部分:可靠性与可观测性¶
到这里,我们已经有了架构、安全边界、记忆层和执行层。现在问题变了:系统上线之后,怎样在它已经会犯错、会变贵、会漂移、也会在顺利路径之外出故障的情况下继续管理它?
这一部分回答三个很实际的问题:
- 怎样还原一次运行的真实路径;
- 怎样定义系统的健康与可接受风险;
- 怎样把系统行为变成发布可以依赖的判断。
这一部分的快速路线
如果你想快速读完关键部分,可以这样走:
- 第 11 章:还原一次真实故障的原始历史;
- 第 12 章:定义健康预算与风险预算;
- 第 13 章:把系统行为变成可评审判断;
- Evidence Spine:看清这些层怎样汇成一条运营记录。
这一部分解决什么问题¶
- 读完第 11 章后,你应该能还原运行的路径,而不是靠症状猜测;
- 读完第 12 章后,你应该能用延迟、成本、安全和升级处理来表达健康预算与风险预算;
- 读完第 13 章后,你应该能对质量和回归风险产出可评审判断;
- 读完 Evidence Spine 后,你应该能看清追踪、策略、审批、评测和发布如何被串成一条可核查的链。
本部分内容¶
这一部分之后去哪里¶
一旦系统已经能捕获行为、定义预算并产出判断,下一个问题就会变成负责人机制。这也是为什么这一部分后面自然接上第六部分:在真实组织里,究竟由谁来持有这些承诺?
