第 14 章：Platform Team vs Product Teams¶

1. 为什么 agent platform 往往不是坏在代码上，而是坏在 ownership model 上¶

一开始一切看起来都很简单：几个热心的人，一两个 agent，几条集成，快速实验。这很正常。

问题通常出现在后面：

产品团队开始各自做本地 agent runtime；
每个团队都用自己的方式写 policy checks；
observability 被拆成三种互不兼容的格式；
tool adapters 重复建设；
没人确定 platform-grade incident 到底该谁来修。

所以系统在技术上也许还能跑，但在组织层面已经开始散开了。

2. Platform team 不应该把所有决定都从产品团队手里收走¶

有一种很糟糕的极端：platform team 试图成为所有 agent decision 的唯一审批点。

然后就会发生这些事：

平台变成 bottleneck；
产品团队失去速度；
所有改动都排进同一条队列；
platform layer 膨胀成一个很重的系统。

这个模型是行不通的。Platform team 的职责不是自己把所有 agent feature 都做完，而是提供稳定的共享层和默认安全路径。

3. 反过来的极端也不好：完全联邦化¶

有些公司会走向另一边：“每个团队自己决定怎么做 agent。”

这很快就会带来：

不兼容的 contracts；
不同的 security posture；
参差不齐的 eval 质量；
参差不齐的 observability；
每个团队内部又长出自己的小平台。

短期看像自由，长期看几乎总会变成动物园。

4. 成熟的模型通常是 platform + product split¶

一个好的 operating model，责任大致会这样拆：

platform team 负责：

orchestration primitives；
policy framework；
tool 和 capability contracts；
observability 与 eval substrate；
shared gateways；
baseline security model。

product teams 负责：

user workflows；
product-specific prompts 和 policies；
domain logic；
task success 的 acceptance criteria；
把平台 primitives 集成进具体产品。

平台和产品不应该互相复制，因为它们负责的是不同层

flowchart LR
    A["Platform team"] --> B["Runtime, policy, observability, gateways"]
    C["Product teams"] --> D["User workflows, domain logic, UX outcomes"]
    B --> E["Golden paths and shared primitives"]
    D --> E

5. 平台应该提供 golden paths，而不是只给一堆底层零件¶

如果 platform team 只交付一个“零件箱”，产品团队最后还是会各自拼出不同的系统。

一个 golden path 通常包含：

baseline runtime template；
现成的 policy hooks；
标准 tracing 和 eval wiring；
approved tool gateway pattern；
关于 memory usage 的建议；
rollout 和 regression defaults。

也就是说，一个好的 platform product 不只是让团队“能做”，而是让团队“默认就做得对”。

6. 每一层的 ownership 都应该是显式的¶

最好尽早把这些事情说清楚：

谁可以修改 platform contracts；
谁批准新的 write capabilities；
谁拥有 policy schemas；
谁拥有 telemetry schema；
谁负责 platform incidents 的 on-call；
谁决定什么时候某个产品可以偏离 golden path。

如果 ownership 很模糊，几乎任何 incident 最后都会变成一场很长的组织性乒乓球。

7. 不是所有 deviation 都要禁止，但它们必须是有意识的¶

有时候产品团队确实需要一个 special case：

非标准 workflow；
单独的 capability；
不同的 latency/cost trade-off；
实验性的 rollout。

这没有问题。成熟平台和混乱之间的区别在于，deviation 必须：

可见；
被讨论过；
blast radius 受限；
有明确 owner；
不会悄悄变成新的默认标准。

8. 一个 agent platform 的 governance policy 示例¶

下面是一个很实用的模板：

governance:
  platform_owned:
    - runtime_contracts
    - policy_framework
    - telemetry_schema
    - shared_tool_gateway
  product_owned:
    - workflow_logic
    - domain_prompts
    - task_success_criteria
  requires_platform_review:
    - new_write_capability
    - custom_policy_engine
    - telemetry_schema_change
    - direct_external_tool_access

这段 YAML 不能解决所有组织问题，但它很擅长解决一个永恒的问题：“这件事到底该谁拍板？”

9. 平台的衡量标准不该是功能数量，而是它减少了多少混乱¶

很重要的一点是，不要掉进 vanity metrics 的陷阱，比如：

增加了多少 tools；
启动了多少 MCP servers；
有多少产品团队“接入了平台”。

强平台应该减少的是：

重复建设；
自定义绕过路径；
增加新 workflow 的成本；
incident 调查时间；
unsafe deviations 的数量。

不然你可能建设了很多东西，但系统并没有变得更好。

10. Operating model 最常坏在哪里¶

常见问题基本都很像：

平台成了所有决策的 bottleneck；
产品完全绕开平台；
ownership 不清晰；
reusable primitives 太底层；
没有 deviations 流程；
platform roadmap 和产品团队真实痛点脱节。

这会把组织带向经典岔路：不是平台帮不到人，就是产品团队觉得平台本身就是阻碍。

11. 实用检查清单¶

如果你想快速检查 operating model，可以问自己：

哪些东西归 platform team，是否清楚？
哪些东西留给 product teams，是否清楚？
你有 golden path 吗，还是只有“一组能力”？
谁批准新的 risky capabilities，这件事清楚吗？
有没有偏离标准路径的流程？
平台是否真的减少了本地 runtime implementation 的数量？

如果连续好几个问题答案都是 “no”，那你大概率遇到的已经不是技术问题，而是组织设计问题。

12. 接下来读什么¶

这一部分接下来的自然步骤，就是继续看 shared gateways、reusable templates 和 anti-zoo patterns，避免 operating model 只停留在口头上。