第 14 章：平台团队与产品团队¶

怎样读这一章

不要把这一章当成泛泛的组织设计讨论，更有用的是抓住一个很具体的问题：

运行时该由谁负责；
策略变更和高风险能力该由谁批准；
同一个支持智能体的网关、追踪或审批出问题时，到底该谁来修。

如果这些答案不明确，技术架构就会在代码还“能跑”的时候先从组织层面散开。

1. 为什么智能体平台往往不是坏在代码上，而是坏在责任模型上¶

在贯穿全书的支持场景里，这件事非常具体：智能体已经有了，工具网关已经有了，追踪已经接上了，审批也已经在工作。但第一次平台级事故一来，核心问题马上不再是“哪里坏了”，而是“到底谁有责任去修这个共享层，并修改默认路径”。

一开始一切看起来都很简单：几个热心的人，一两个智能体，几条集成，快速实验。这很正常。

问题通常出现在后面：

产品团队开始各自做本地智能体运行时；
每个团队都用自己的方式写策略检查；
可观测性被拆成三种互不兼容的格式；
工具适配器重复建设；
没人确定平台级事故到底该谁来修。

所以系统在技术上也许还能跑，但在组织层面已经开始散开了。

2. 平台团队不应该把所有决定都从产品团队手里收走¶

有一种很糟糕的极端：平台团队试图成为所有智能体决策的唯一审批点。

然后就会发生这些事：

平台变成瓶颈；
产品团队失去速度；
所有改动都排进同一条队列；
平台层膨胀成一个很重的系统。

这个模型是行不通的。平台团队的职责不是自己把所有智能体能力都做完，而是提供稳定的共享层和默认安全路径。

3. 反过来的极端也不好：完全联邦化¶

有些公司会走向另一边：“每个团队自己决定怎么做智能体。”

这很快就会带来：

不兼容的契约；
不同的安全姿态；
参差不齐的评测质量；
参差不齐的可观测性；
每个团队内部又长出自己的小平台。

短期看像自由，长期看几乎总会变成动物园。

4. 成熟的模型通常是平台与产品分工¶

一个好的运行模型，责任大致会这样拆：

平台团队 负责：

编排基础能力；
策略框架；
工具与能力契约；
可观测性与评测底座；
共享网关；
基线安全模型。

产品团队 负责：

用户工作流；
产品特定的提示与策略；
领域逻辑；
任务成功的验收标准；
把平台基础能力集成进具体产品。

平台和产品不应该互相复制，因为它们负责的是不同层

flowchart LR
    A["平台团队"] --> B["运行时、策略、可观测性、网关"]
    C["产品团队"] --> D["用户工作流、领域逻辑、UX 结果"]
    B --> E["黄金路径与共享基础件"]
    D --> E

贯穿案例：谁来修共享层

重复工单事故之后，产品团队应该负责支持工作流如何回复用户、什么时候升级处理。但平台团队应该负责运行时重试策略、幂等契约、追踪模式（trace schema）和发布门，因为这些决定服务的是所有写能力场景，而不只是一个智能体。如果事故前没有明确这种分工，下一次事故又会变成一场责任归属争议。

Ownership case-spine note：platform/product split 应该覆盖三个 canonical cases。Support triage 把 ownership 分到 product workflow、approval policy、write-capability contract 和 duplicate-ticket response。Internal knowledge assistant 把 ownership 分到 corpus ownership、retrieval policy、memory-write rules 和 access-control review。Incident coordination 把 ownership 分到 incident roles、escalation authority、notification ownership 和 post-incident change ownership，避免 platform team 变成 bottleneck，也避免 product teams 做出三套不兼容的 control planes。

5. 平台应该提供黄金路径，而不是只给一堆底层零件¶

如果平台团队只交付一个“零件箱”，产品团队最后还是会各自拼出不同的系统。

一条黄金路径通常包含：

基线运行时模板；
现成的策略钩子；
标准化的追踪与评测接线；
经过批准的工具网关模式；
关于记忆使用的建议；
默认的发布与回归设置。

也就是说，一个好的平台产品不只是让团队“能做”，而是让团队“默认就做得对”。

6. 每一层的责任都应该是显式的¶

最好尽早把这些事情说清楚：

谁可以修改平台契约；
谁批准新的写入能力；
谁拥有策略模式；
谁拥有遥测模式；
谁负责平台事故的值班；
谁决定什么时候某个产品可以偏离黄金路径。

如果责任很模糊，几乎任何事故最后都会变成一场很长的组织性乒乓球。

6.1. 平台清单也应该有人拥有¶

Google 这里一个很实用的提醒是：治理不应停留在策略框架。平台还需要一份明确的清单，说明组织里到底在运行什么。¹²

至少最好看见这些东西：

现在有哪些智能体运行时；
哪些能力是已批准的；
哪些网关被视为已批准；
哪些连接器和密钥正在被使用；
哪些偏离仍然活跃；
每个对象的负责人是谁。

如果没有这份清单，平台几乎注定会滑向“凭印象治理”：表面上大家都觉得“事情是可控的”，直到事故发生，才发现根本没人真正知道生产环境里到底跑着哪些智能体和工具。

7. 不是所有偏离都要禁止，但它们必须是有意识的¶

有时候产品团队确实需要一个特殊情况：

非标准工作流；
单独的能力；
不同的延迟/成本权衡；
实验性的发布。

这没有问题。成熟平台和混乱之间的区别在于，偏离必须：

可见；
被讨论过；
影响半径受限；
有明确负责人；
不会悄悄变成新的默认标准。

8. 一个智能体平台治理策略示例¶

下面是一个很实用的模板：

governance:
  platform_owned:
    - runtime_contracts
    - policy_framework
    - telemetry_schema
    - shared_tool_gateway
  product_owned:
    - workflow_logic
    - domain_prompts
    - task_success_criteria
  requires_platform_review:
    - new_write_capability
    - custom_policy_engine
    - telemetry_schema_change
    - direct_external_tool_access

这段 YAML 不能解决所有组织问题，但它很擅长解决一个永恒的问题：“这件事到底该谁拍板？”

8.1. 已批准注册表几乎和策略模式一样重要¶

团队通常会认真讨论策略，却很少认真讨论注册表。但注册表实际上回答的是：

什么才算平台批准；
什么可以不经额外审查直接运行；
什么目前处于例外区域；
什么已经应该退出使用。

一个简单例子：

registry:
  approved_runtimes:
    - agent_runtime_v3
    - workflow_runtime_v2
  approved_gateways:
    - shared_tool_gateway
    - approval_gateway
  deprecated_patterns:
    - direct_prod_tool_access
    - local_policy_engine_without_audit

这个注册表不会替代治理，但它会让治理变得可执行。

9. 平台的衡量标准不该是功能数量，而是它减少了多少混乱¶

很重要的一点是，不要掉进虚荣指标的陷阱，比如：

增加了多少工具；
启动了多少 MCP 服务；
有多少产品团队“接入了平台”。

强平台应该减少的是：

重复建设；
自定义绕过路径；
增加新工作流的成本；
事故调查时间；
不安全偏离的数量。

不然你可能建设了很多东西，但系统并没有变得更好。

9.1. 持续控制比一次性审查更可靠¶

另一个很有用的升级是：不要只靠人工审批去抓高风险变更，还要靠持续控制。

比如平台可以自动检查：

是否出现了绕过网关的直接工具访问；
是否出现了没有负责人的连接器；
某个运行时是否偏离了已批准模板；
是否出现了未经审查的新密钥范围；
已废弃模式是否超过了下线期限还在运行。

这很重要，因为平台治理通常不是在架构宣讲当天坏掉，而是几个月后被一连串安静的例外和绕过慢慢掏空。

10. 常见错误¶

常见问题基本都很像：

平台成了所有决策的瓶颈；
产品完全绕开平台；
责任不清晰；
可复用基础能力太底层；
没有偏离流程；
平台路线图和产品团队真实痛点脱节。

这会把组织带向经典岔路：不是平台帮不到人，就是产品团队觉得平台本身就是阻碍。

11. 给平台运行模型做一次快速成熟度测试¶

团队不应该只因为已经组建了平台团队、写下了几条审查规则，就觉得平台负责人归属问题已经解决。

更高的标准应该是：

平台和产品负责人归属在真正发生事故的层面是清楚的；
黄金路径真正在减少混乱，而不只是发布可复用零件；
偏离是可见的、有负责人的、影响半径受限的，而不是被默认容忍；
平台清单和已批准注册表让治理变得可执行；
平台的衡量标准是重复建设和绕过路径的减少，而不是接入表演。

如果这些条件大多不成立，那组织也许已经有了平台这个标签，但还没有真正的平台运行模型。

12. 现在就该做什么¶

先过一遍这份短清单，把所有回答为“否”的地方单独记下来：

哪些东西归平台团队，是否清楚？
哪些东西留给产品团队，是否清楚？
你有黄金路径吗，还是只有“一组能力”？
谁批准新的高风险能力，这件事清楚吗？
有没有偏离标准路径的流程？
平台是否真的减少了本地运行时实现的数量？

如果连续好几个问题答案都是“否”，那你大概率遇到的已经不是技术问题，而是组织设计问题。

13. 下一步做什么¶

先把负责人归属说清楚，再看这些责任边界如何落成黄金路径、共享网关和反动物园模式。

这一部分接下来的自然步骤，就是继续看共享网关、可复用模板和反动物园模式，避免运行模型只停留在口头上。