智能体注册表与清单运维手册¶
当一个组织里已经有多个智能体系统时,只靠一章清单已经不够了。团队还需要一套简明的运行模型:谁维护注册表,如何识别漂移,什么时候一个智能体算无人负责,已弃用条目又该如何处理。
这份手册把这套最小工作面放在一页里。
1. 哪些层应该始终存在¶
即使是规模不大的智能体计划,也最好始终保留两层:
inventory,用于记录全部类似智能体的实体;registry,用于记录那些已经被识别、分类并允许进入生产轮廓的实体。
如果只有注册表,团队通常会低估影子智能体与本地实验。 如果只有清单,没有注册表,就没人能明确说明哪些东西真正算已批准。
2. 谁应该拥有这一层¶
当负责人边界模糊时,注册表往往很快失效。
最小可用的分工通常是:
- 平台团队负责注册表结构与验证规则;
- 产品负责人负责业务目的与生命周期状态;
- 安全或治理负责人负责策略与审批链接;
- 运维负责人负责事故联系人与退役卫生。
这些角色可以由同一支团队兼任,但角色本身必须明确。
3. 一条智能体记录应该包含什么¶
最小记录最适合按一个固定模板检查:
agent_id- 负责团队;
- 业务目的;
- 生命周期状态;
- 风险等级;
- 运行时身份;
- 允许的能力;
- 策略包;
- 审批模式;
- 可观测性覆盖;
- 工件包链接;
- 退役链接。
没有这些内容,注册表很快就会退化成一个只有名字的列表,缺少运行意义。
规范注册表案例(Canonical registry cases)
注册表记录(registry record)应该为三个规范案例(canonical cases)固定不同的责任锚点(accountability anchors)。支持分诊(Support triage) 需要为写入能力(write capability)、审批模式(approval mode)、幂等控制(idempotency controls)、策略包(policy bundle)和退役链接(retirement linkage)指定负责人(owner)。内部知识助手(Internal knowledge assistant) 需要语料负责人(corpus owner)、检索策略(retrieval policy)、租户范围(tenant scope)、来源证明复核(source provenance review)和新鲜度复核节奏(freshness review cadence)。事故协调(Incident coordination) 需要事故角色负责人(incident role owner)、升级权限(escalation authority)、通知渠道归属(notification channel ownership)、紧急回滚负责人(emergency rollback owner),以及仅限紧急情况能力(emergency-only capabilities)的生命周期状态(lifecycle state)。
4. 什么时候智能体必须进入清单¶
一个比较强的默认规则通常是:
- 只要这个实体可以调用工具;
- 只要它会读取组织上下文;
- 只要它会代表员工或服务行动;
- 只要它参与生产工作流;
它至少应该进入清单。
例外情况最好被明确记录,而不是作为默许存在。
5. 什么时候智能体必须进入注册表¶
通常需要进入注册表的实体包括:
- 运行在生产轮廓中;
- 访问敏感工具或外部系统;
- 能产生副作用;
- 参与分阶段发布;
- 需要随时可审计的负责人。
这也是注册表对治理、审批与可靠事故响应很重要的原因。
6. 注册表应该多久检查一次¶
注册表之所以失真,通常不是因为设计不好,而是因为运行节奏太弱。
最小节奏通常包括:
- 每次发布更新;
- 每次高风险变更评审;
- 定期清单评审;
- 每次退役或替换事件;
- 每次事故评审之后,如果发现了隐藏智能体或陈旧记录。
如果这些时点都不更新注册表,漂移几乎不可避免。
7. 最值得优先捕捉的漂移信号¶
并不是所有漂移都同样危险。最好先盯住:
- 活跃智能体没有负责人;
production智能体在追踪或注册表关联遥测里根本看不到;- 已弃用智能体仍然保留活跃主体;
- 运行时里出现了不在允许清单中的能力;
- 注册表中的审批模式与策略包不一致;
- 已退役的工件包仍然出现在活跃运行中。
这已经足够构成一个最小连续验证闭环。
8. 什么时候该把记录改成 restricted、deprecated 或 retired¶
最好尽早调整生命周期状态:
restricted:当能力集合或审批模式被临时收窄时;deprecated:当替换方案已经确定,新发布波次不应再走旧路径时;retired:当主体已被撤销、发布已停止、历史状态已进入保留模式时。
这里最常见的错误很简单:智能体实际上已经退出使用,但注册表里仍然显示它已准备好用于生产。
9. 事故响应时应该看什么¶
在事故评审中,注册表的价值不在于“有目录”,而在于它应该能快速回答几件事:
- 哪个智能体参与了这个事件;
- 它的负责人是谁;
- 当时它处于什么生命周期状态;
- 哪个策略包与审批模式本应生效;
- 这条记录关联了哪个工件包链接与退役状态。
如果注册表不能快速回答这些问题,它对运维的帮助就很有限。
10. 最小每周评审¶
一轮简短评审可以围绕这些问题展开:
- 清单外是否出现了新的类似智能体实体?
- 是否存在无人负责的记录?
- 是否存在没有遥测覆盖的
production智能体? - 是否有保留活跃主体的已弃用条目?
- 注册表、策略包与发布状态之间是否一致?
这种评审最好保持简短,但持续进行。
11. 现在就该做什么¶
先过一遍这份短清单,把所有回答为“否”的地方单独记下来:
- 每个活跃智能体都有负责人吗?
- 清单和注册表分开了吗?
- 发布与退役时生命周期状态会更新吗?
- 注册表是否与策略包和审批模式相连?
- 注册表是否会对照活跃遥测进行验证?
- 已弃用智能体会失去主体与工具访问权吗?
- 事故会推动注册表卫生改进吗?