第五部分:可靠性与可观测性¶
到这里,我们已经有了:
- 架构框架;
- 安全边界;
- 记忆与 retrieval;
- 带 contracts、sandbox 和 side-effect discipline 的 execution layer。
接下来就会碰到一个更成熟的问题:你到底如何真正理解这个 agent system 在现实里做了什么?
如果没有好的 observability,再强的架构也会很快退化成猜测:
- 为什么某个 run 变贵了;
- workflow 到底在哪一层坏掉了;
- 哪个 policy gate 触发了;
- 是哪个 tool 给出了坏结果;
- 为什么用户会收到这个具体回答。
这一部分会拆解如何构建 traces、SLO 和 eval loops,让 agent system 不只是“能上线”,而是真正可以被稳定运营。
本部分内容¶
Part V 现在已经形成一个完整的 operational block;下一步自然就是组织模型和平台 operating model。