Перейти к содержанию

Шпаргалки

Эта страница нужна для быстрых рабочих проверок. Если тебе не хочется перечитывать целую часть книги перед ревью дизайна, запуском агента или обсуждением с командой, начни отсюда.

Safety checklist

  • Есть ли у агента явные trust boundaries между вводом пользователя, памятью, инструментами и внешними системами?
  • Различаете ли вы prompt injection, jailbreak и action hallucination, а не сводите все к одной “LLM risk” категории?
  • Есть ли policy gate перед каждым чувствительным действием, а не только перед вызовом модели?
  • Разделены ли low-risk и high-risk инструменты?
  • Есть ли approval gate для действий с необратимым side effect?
  • Зафиксированы ли allowed egress destinations и network access profile?
  • Пишется ли audit trail для policy decisions, approvals и tool execution?
  • Есть ли понятный stop condition для run loop?

Читать дальше:

Memory checklist

  • Разделены ли short-term, long-term и profile memory?
  • Учитывает ли retrieval semantic gap между пользовательским языком и языком документов?
  • Если вы используете query rewriting или HyDE, ясно ли, что это retrieval aid, а не новый источник “фактов”?
  • Есть ли разные правила для memory read и memory write?
  • Хранится ли provenance у persistent records?
  • Есть ли policy для того, что разрешено записывать в память?
  • Есть ли compaction или background maintenance path?
  • Ограничен ли retrieval по объему и релевантности?
  • Пытаетесь ли вы сначала улучшить RAG и freshness corpus, прежде чем идти в training?
  • Есть ли понятная deletion или revision strategy?

Читать дальше:

Rollout checklist

  • Есть ли owner у агента, а не только команда “вообще”?
  • Есть ли минимальный eval baseline до запуска?
  • Есть ли rollout gate с safety, observability и approval requirements?
  • Понятно ли, какие сценарии считаются blocking failures?
  • Зафиксирован ли latency budget с точки зрения пользователя, а не только p95 модели?
  • Есть ли runbook на отказ, denial и approval backlog?
  • Есть ли канал для incident review и postmortem?
  • Можно ли быстро отключить high-risk capability без полной остановки системы?

Читать дальше:

Observability checklist

  • Есть ли trace_id у каждого запуска?
  • Есть ли базовые spans для retrieval, model step, tool execution, approval и memory write?
  • Есть ли structured events, а не только сырые логи?
  • Видно ли, какой policy decision принял gateway?
  • Видно ли, какой tool principal исполнил side effect?
  • Можно ли отличить success, denied, approval_wait и failure?
  • Есть ли способ агрегировать runs в session-level или eval-level summaries?
  • Если используется LLM-as-a-judge, откалиброван ли judge против human review и outcome checks?
  • Не меняете ли вы одновременно model и prompt там, где нужен причинный вывод по eval results?

Читать дальше:

Tool gateway checklist

  • У каждой capability есть owner, risk tier и approved inventory status?
  • Ясно ли, read это tool или write tool?
  • Не показываете ли вы модели слишком большой каталог tools вместо узкого релевантного поднабора?
  • Есть ли execution profile: sandbox, network access, allowed egress?
  • Проверяет ли gateway actor identity и policy до execution?
  • Есть ли idempotency semantics и retry policy?
  • Понятно ли, когда нужен approval, а когда tool может исполниться автоматически?
  • Есть ли audit trail на каждое внешнее действие?
  • Понимает ли команда роли MCP host, client и server, а не смешивает их в одну “интеграцию”?

Читать дальше:

Что делать дальше