速查表¶
这页是给实际工作快速使用的。如果你不想在设计评审、上线前检查或团队讨论前重读整整一部分内容,就先看这里。
安全检查清单¶
- 用户输入、记忆、工具和外部系统之间是否有明确的信任边界?
- 是否区分了提示注入、越狱和动作幻觉,而不是把它们都归成一类模糊的“LLM 风险”?
- 每个敏感动作之前是否都有策略门禁,而不只是模型调用前有?
- 低风险和高风险工具是否清晰分开?
- 对于不可逆副作用,是否有审批门禁?
- 是否定义了允许的出口目标和网络访问画像?
- 策略决策、审批和工具执行是否都写入了审计轨迹?
- 运行循环是否有清晰的停止条件?
继续阅读:
记忆检查清单¶
- 短期记忆、长期记忆和用户画像记忆是否已经分开?
- 检索是否考虑了用户语言和文档语言之间的语义鸿沟?
- 如果使用查询改写或 HyDE,是否明确这只是检索辅助,而不是新的“事实来源”?
- 记忆读取和记忆写入是否有不同治理规则?
- 持久记录是否带有来源证明?
- 是否有明确策略来限制哪些内容可以写入记忆?
- 是否存在压缩或后台维护路径?
- 检索是否被体量和相关性约束?
- 在跳到训练之前,是否先尝试把 RAG 和语料新鲜度做扎实?
- 是否有清晰的删除或修订策略?
继续阅读:
发布检查清单¶
- 这个智能体是否有明确负责人,而不只是“某个团队”?
- 上线前是否有最低评测基线?
- 是否有包含安全、可观测性和审批要求的发布门禁?
- 哪些场景算阻断性失败,是否已经定义清楚?
- 延迟预算是否是从用户耐心窗口定义的,而不只是看模型 p95?
- 对失败、拒绝和审批积压是否有运行手册?
- 是否有事故评审和事后复盘机制?
- 是否能快速关闭高风险能力,而不需要停掉整个系统?
继续阅读:
可观测性检查清单¶
- 每次运行是否都有
trace_id? - 检索、模型步骤、工具执行、审批和记忆写入是否都有基线跨度?
- 是否有结构化事件,而不只是原始日志?
- 是否能看出网关做了什么策略决策?
- 是否能看出哪个工具主体执行了副作用?
- 是否能区分
success、denied、approval_wait和failure? - 是否能把运行聚合成会话级或评测级摘要?
- 如果用了 LLM 作为评审器,是否已经对照人工评审和结果检查做过校准?
- 在需要因果结论的评测里,是否避免同时更改模型和提示?
继续阅读:
工具网关检查清单¶
- 每个能力是否都有负责人、风险等级和已批准清单状态?
- 是否清楚它是读取工具还是写入工具?
- 是否避免把过大的工具目录直接暴露给模型,而是先筛到一个相关子集?
- 是否定义了执行画像:沙箱、网络访问、允许出口?
- 网关是否会在执行前检查行动者身份和策略?
- 是否定义了幂等语义和重试策略?
- 是否明确什么时候需要审批,什么时候可以自动执行?
- 每个外部动作是否都有审计轨迹?
- 团队是否真正理解 MCP 主机、客户端和服务器的角色,而不是把它们混成一个笼统的“集成层”?
继续阅读:
下一步做什么¶
- 在设计评审前:快速过一遍安全、记忆和工具网关。
- 在上线前:重点过一遍发布和可观测性。
-
在事故评审中:把可观测性和安全当成复盘框架。
- 术语表
- 按场景组织的策略模板与检查清单