跳转至

第五部分:可靠性与可观测性

到这里,我们已经有了:

  • 架构框架;
  • 安全边界;
  • 记忆与 retrieval;
  • 带 contracts、sandbox 和 side-effect discipline 的 execution layer。

接下来就会碰到一个更成熟的问题:你到底如何真正理解这个 agent system 在现实里做了什么?

如果没有好的 observability,再强的架构也会很快退化成猜测:

  • 为什么某个 run 变贵了;
  • workflow 到底在哪一层坏掉了;
  • 哪个 policy gate 触发了;
  • 是哪个 tool 给出了坏结果;
  • 为什么用户会收到这个具体回答。

这一部分会拆解如何构建 traces、SLO 和 eval loops,让 agent system 不只是“能上线”,而是真正可以被稳定运营。

本部分内容

Part V 现在已经形成一个完整的 operational block;下一步自然就是组织模型和平台 operating model。