跳转至

第 14 章:平台团队与产品团队

怎样读这一章

不要把这一章当成泛泛的组织设计讨论,更有用的是抓住一个很具体的问题:

  • 运行时该由谁负责;
  • 策略变更和高风险能力该由谁批准;
  • 同一个支持智能体的网关、追踪或审批出问题时,到底该谁来修。

如果这些答案不明确,技术架构就会在代码还“能跑”的时候先从组织层面散开。

1. 为什么智能体平台往往不是坏在代码上,而是坏在责任模型上

在贯穿全书的支持场景里,这件事非常具体:智能体已经有了,工具网关已经有了,追踪已经接上了,审批也已经在工作。但第一次平台级事故一来,核心问题马上不再是“哪里坏了”,而是“到底谁有责任去修这个共享层,并修改默认路径”。

一开始一切看起来都很简单:几个热心的人,一两个智能体,几条集成,快速实验。这很正常。

问题通常出现在后面:

  • 产品团队开始各自做本地智能体运行时;
  • 每个团队都用自己的方式写策略检查;
  • 可观测性被拆成三种互不兼容的格式;
  • 工具适配器重复建设;
  • 没人确定平台级事故到底该谁来修。

所以系统在技术上也许还能跑,但在组织层面已经开始散开了。

2. 平台团队不应该把所有决定都从产品团队手里收走

有一种很糟糕的极端:平台团队试图成为所有智能体决策的唯一审批点。

然后就会发生这些事:

  • 平台变成瓶颈;
  • 产品团队失去速度;
  • 所有改动都排进同一条队列;
  • 平台层膨胀成一个很重的系统。

这个模型是行不通的。平台团队的职责不是自己把所有智能体能力都做完,而是提供稳定的共享层和默认安全路径。

3. 反过来的极端也不好:完全联邦化

有些公司会走向另一边:“每个团队自己决定怎么做智能体。”

这很快就会带来:

  • 不兼容的契约;
  • 不同的安全姿态;
  • 参差不齐的评测质量;
  • 参差不齐的可观测性;
  • 每个团队内部又长出自己的小平台。

短期看像自由,长期看几乎总会变成动物园。

4. 成熟的模型通常是平台与产品分工

一个好的运行模型,责任大致会这样拆:

平台团队 负责:

  • 编排基础能力;
  • 策略框架;
  • 工具与能力契约;
  • 可观测性与评测底座;
  • 共享网关;
  • 基线安全模型。

产品团队 负责:

  • 用户工作流;
  • 产品特定的提示与策略;
  • 领域逻辑;
  • 任务成功的验收标准;
  • 把平台基础能力集成进具体产品。

平台和产品不应该互相复制,因为它们负责的是不同层

flowchart LR
    A["平台团队"] --> B["运行时、策略、可观测性、网关"]
    C["产品团队"] --> D["用户工作流、领域逻辑、UX 结果"]
    B --> E["黄金路径与共享基础件"]
    D --> E

贯穿案例:谁来修共享层

重复工单事故之后,产品团队应该负责支持工作流如何回复用户、什么时候升级处理。但平台团队应该负责运行时重试策略、幂等契约、trace schema 和发布门,因为这些决定服务的是所有写能力场景,而不只是一个智能体。如果事故前没有明确这种分工,下一次事故又会变成一场责任归属争议。

5. 平台应该提供黄金路径,而不是只给一堆底层零件

如果平台团队只交付一个“零件箱”,产品团队最后还是会各自拼出不同的系统。

一条黄金路径通常包含:

  • 基线运行时模板;
  • 现成的策略钩子;
  • 标准化的追踪与评测接线;
  • 经过批准的工具网关模式;
  • 关于记忆使用的建议;
  • 默认的发布与回归设置。

也就是说,一个好的平台产品不只是让团队“能做”,而是让团队“默认就做得对”。

6. 每一层的责任都应该是显式的

最好尽早把这些事情说清楚:

  • 谁可以修改平台契约;
  • 谁批准新的写入能力;
  • 谁拥有策略模式;
  • 谁拥有遥测模式;
  • 谁负责平台事故的值班;
  • 谁决定什么时候某个产品可以偏离黄金路径。

如果责任很模糊,几乎任何事故最后都会变成一场很长的组织性乒乓球。

6.1. 平台清单也应该有人拥有

Google 这里一个很实用的提醒是:治理不应停留在策略框架。平台还需要一份明确的清单,说明组织里到底在运行什么。12

至少最好看见这些东西:

  • 现在有哪些智能体运行时;
  • 哪些能力是已批准的;
  • 哪些网关被视为已批准;
  • 哪些连接器和密钥正在被使用;
  • 哪些偏离仍然活跃;
  • 每个对象的负责人是谁。

如果没有这份清单,平台几乎注定会滑向“凭印象治理”:表面上大家都觉得“事情是可控的”,直到事故发生,才发现根本没人真正知道生产环境里到底跑着哪些智能体和工具。

7. 不是所有偏离都要禁止,但它们必须是有意识的

有时候产品团队确实需要一个特殊情况:

  • 非标准工作流;
  • 单独的能力;
  • 不同的延迟/成本权衡;
  • 实验性的发布。

这没有问题。成熟平台和混乱之间的区别在于,偏离必须:

  • 可见;
  • 被讨论过;
  • 影响半径受限;
  • 有明确负责人;
  • 不会悄悄变成新的默认标准。

8. 一个智能体平台治理策略示例

下面是一个很实用的模板:

governance:
  platform_owned:
    - runtime_contracts
    - policy_framework
    - telemetry_schema
    - shared_tool_gateway
  product_owned:
    - workflow_logic
    - domain_prompts
    - task_success_criteria
  requires_platform_review:
    - new_write_capability
    - custom_policy_engine
    - telemetry_schema_change
    - direct_external_tool_access

这段 YAML 不能解决所有组织问题,但它很擅长解决一个永恒的问题:“这件事到底该谁拍板?”

8.1. 已批准注册表几乎和策略模式一样重要

团队通常会认真讨论策略,却很少认真讨论注册表。但注册表实际上回答的是:

  • 什么才算平台批准;
  • 什么可以不经额外审查直接运行;
  • 什么目前处于例外区域;
  • 什么已经应该退出使用。

一个简单例子:

registry:
  approved_runtimes:
    - agent_runtime_v3
    - workflow_runtime_v2
  approved_gateways:
    - shared_tool_gateway
    - approval_gateway
  deprecated_patterns:
    - direct_prod_tool_access
    - local_policy_engine_without_audit

这个注册表不会替代治理,但它会让治理变得可执行。

9. 平台的衡量标准不该是功能数量,而是它减少了多少混乱

很重要的一点是,不要掉进虚荣指标的陷阱,比如:

  • 增加了多少工具;
  • 启动了多少 MCP 服务;
  • 有多少产品团队“接入了平台”。

强平台应该减少的是:

  • 重复建设;
  • 自定义绕过路径;
  • 增加新工作流的成本;
  • 事故调查时间;
  • 不安全偏离的数量。

不然你可能建设了很多东西,但系统并没有变得更好。

9.1. 持续控制比一次性审查更可靠

另一个很有用的升级是:不要只靠人工审批去抓高风险变更,还要靠持续控制。

比如平台可以自动检查:

  • 是否出现了绕过网关的直接工具访问;
  • 是否出现了没有负责人的连接器;
  • 某个运行时是否偏离了已批准模板;
  • 是否出现了未经审查的新密钥范围;
  • 已废弃模式是否超过了下线期限还在运行。

这很重要,因为平台治理通常不是在架构宣讲当天坏掉,而是几个月后被一连串安静的例外和绕过慢慢掏空。

10. 常见错误

常见问题基本都很像:

  • 平台成了所有决策的瓶颈;
  • 产品完全绕开平台;
  • 责任不清晰;
  • 可复用基础能力太底层;
  • 没有偏离流程;
  • 平台路线图和产品团队真实痛点脱节。

这会把组织带向经典岔路:不是平台帮不到人,就是产品团队觉得平台本身就是阻碍。

11. 给平台运行模型做一次快速成熟度测试

团队不应该只因为已经组建了平台团队、写下了几条审查规则,就觉得平台负责人归属问题已经解决。

更高的标准应该是:

  • 平台和产品负责人归属在真正发生事故的层面是清楚的;
  • 黄金路径真正在减少混乱,而不只是发布可复用零件;
  • 偏离是可见的、有负责人的、影响半径受限的,而不是被默认容忍;
  • 平台清单和已批准注册表让治理变得可执行;
  • 平台的衡量标准是重复建设和绕过路径的减少,而不是接入表演。

如果这些条件大多不成立,那组织也许已经有了平台这个标签,但还没有真正的平台运行模型。

12. 现在就该做什么

先过一遍这份短清单,把所有回答为“否”的地方单独记下来:

  • 哪些东西归平台团队,是否清楚?
  • 哪些东西留给产品团队,是否清楚?
  • 你有黄金路径吗,还是只有“一组能力”?
  • 谁批准新的高风险能力,这件事清楚吗?
  • 有没有偏离标准路径的流程?
  • 平台是否真的减少了本地运行时实现的数量?

如果连续好几个问题答案都是“否”,那你大概率遇到的已经不是技术问题,而是组织设计问题。

13. 下一步做什么

先把负责人归属说清楚,再看这些责任边界如何落成黄金路径、共享网关和反动物园模式。

这一部分接下来的自然步骤,就是继续看共享网关、可复用模板和反动物园模式,避免运行模型只停留在口头上。