智能体系统的记忆评测模式¶

智能体系统里的记忆问题，往往和普通检索不一样。很多错误不会在单次请求里暴露，而是在一串运行、画像更新与后台写入之后才出现。

因此，记忆层最好被单独评估，而不是指望它被一般性的评测数据集顺带覆盖。

1. 为什么记忆评测应该单独存在¶

即使整体任务成功率看起来不错，记忆设计也可能悄悄退化：

画像被写入了不必要或有风险的事实；
过期偏好持续影响后续回答；
系统记住了错误的东西；
长会话里没能取回关键事实；
后台压缩扭曲了记录的原始含义。

这就是为什么记忆层需要独立的评估逻辑。

2. 哪些错误类型应该被覆盖¶

一个最小可用的记忆评测集通常至少应覆盖：

规范记忆评测案例（Canonical memory eval cases）

记忆评测套件（memory eval suite）应该为三个规范案例（canonical cases）分别检查状态质量（state quality）。支持分流（Support triage） 检查请求者上下文延续（requester context carryover）、工单状态检索（ticket state retrieval）、idempotency_key 证据、禁止写入决策（no-write decision）和重复工单回归（duplicate-ticket regression）。内部知识助手（Internal knowledge assistant） 检查检索新鲜度（retrieval freshness）、来源归因（source attribution）、租户隔离（tenant isolation）、记忆来源（memory provenance）和有依据回答质量（grounded-answer quality）。事件协调（Incident coordination） 检查事件时间线回忆（incident timeline recall）、响应归属交接（response ownership handoff）、升级状态（escalation status）、噪声告警过滤（noisy alert filtering）和事件后经验保留（post-incident lesson retention）。

错误写入；
缺失写入；
不安全写入；
过期检索；
错误检索；
画像矛盾；
过度保留；
删除失败。

即使没有大型基准测试，这个集合也已经很有价值。

3. 短期记忆应该评估什么¶

短期记忆通常应检查：

是否保留了对话中的关键上下文；
是否避免了不必要的跨轮带入；
对嘈杂的用户轮次是否足够稳健；
在含糊情境下是否会正确澄清。

这里的问题常常不在存储本身，而在运行时如何判断什么值得继续携带。

4. 画像记忆和长期记忆应该评估什么¶

画像记忆与长期记忆需要更严格的检查：

这个事实是否值得被写入；
是否被写进了正确的记忆类别；
来源能否说清；
该记录能否安全地删除或修订；
过期记录是否仍然影响当前回答路径。

这里尤其要重视矛盾与保留卫生的评测。

5. 长周期记忆必须跨运行检查¶

一个很常见的错误是：只用单个孤立提示检查记忆质量。

但真实问题往往出现在多步序列里：

在第 1 次运行写入偏好；
在第 4 次运行错误取回；
在第 6 次运行被冲突事实覆盖；
到了第 9 次运行，过期画像仍在起作用。

因此，记忆评测更适合设计成多运行场景，而不是单轮检查。

6. 一个记忆评测用例里适合记录哪些字段¶

一个最小可用的评测记录往往包括：

memory_class
write_expected
retrieval_expected
allowed_to_persist
expected_provenance
revision_behavior
deletion_behavior

这样更容易区分“回答不好”与“记忆语义被破坏”。

7. 为什么这也关系到安全¶

记忆评测不只是为了个性化，它们也与安全密切相关：

系统会不会在没有权限时写入敏感数据；
风险状态会不会被保留过久；
会不会混淆用户专属数据；
有害的记忆路径能否被快速停止；
持久记录的来源能否被证明。

如果没有这一层，很多记忆事故会被误看成“模型行为古怪”，而忽略真正的问题在于记录生命周期。

8. 它和一般评测循环的关系¶

记忆评测不会替代主评测章节，而是增加一个额外维度：

普通离线评测检查任务成功率；
记忆评测检查跨运行的状态质量；
在线信号帮助发现漂移；
事故与事后复盘负责更新记忆专用用例。

换句话说，记忆层应该像工具和策略一样，明确进入回归纪律。

9. 现在就该做什么¶

先过一遍这份短清单，把所有回答为“否”的地方单独记下来：

是否有单独的写入/不写入用例？
检索是否跨长序列运行被检查？
是否包含过期画像和矛盾用例？
持久记录的来源是否被评估？
删除与修订用例是否被覆盖？
记忆事故会回流到评测数据集吗？