Шпаргалки¶
Эта страница нужна для быстрых рабочих проверок. Если тебе не хочется перечитывать целую часть книги перед ревью дизайна, запуском агента или обсуждением с командой, начни отсюда.
Safety checklist¶
- Есть ли у агента явные trust boundaries между вводом пользователя, памятью, инструментами и внешними системами?
- Различаете ли вы prompt injection, jailbreak и action hallucination, а не сводите все к одной “LLM risk” категории?
- Есть ли policy gate перед каждым чувствительным действием, а не только перед вызовом модели?
- Разделены ли low-risk и high-risk инструменты?
- Есть ли approval gate для действий с необратимым side effect?
- Зафиксированы ли allowed egress destinations и network access profile?
- Пишется ли audit trail для policy decisions, approvals и tool execution?
- Есть ли понятный stop condition для run loop?
Читать дальше:
- Глава 3. Контур безопасности и границы доверия
- Глава 4. Инструментальный шлюз, подтверждения и журнал аудита
Memory checklist¶
- Разделены ли short-term, long-term и profile memory?
- Учитывает ли retrieval semantic gap между пользовательским языком и языком документов?
- Если вы используете query rewriting или HyDE, ясно ли, что это retrieval aid, а не новый источник “фактов”?
- Есть ли разные правила для memory read и memory write?
- Хранится ли provenance у persistent records?
- Есть ли policy для того, что разрешено записывать в память?
- Есть ли compaction или background maintenance path?
- Ограничен ли retrieval по объему и релевантности?
- Пытаетесь ли вы сначала улучшить RAG и freshness corpus, прежде чем идти в training?
- Есть ли понятная deletion или revision strategy?
Читать дальше:
- Глава 5. Зачем агенту память и почему она опасна
- Глава 7. Извлечение контекста, уплотнение и фоновые обновления
Rollout checklist¶
- Есть ли owner у агента, а не только команда “вообще”?
- Есть ли минимальный eval baseline до запуска?
- Есть ли rollout gate с safety, observability и approval requirements?
- Понятно ли, какие сценарии считаются blocking failures?
- Зафиксирован ли latency budget с точки зрения пользователя, а не только p95 модели?
- Есть ли runbook на отказ, denial и approval backlog?
- Есть ли канал для incident review и postmortem?
- Можно ли быстро отключить high-risk capability без полной остановки системы?
Читать дальше:
Observability checklist¶
- Есть ли trace_id у каждого запуска?
- Есть ли базовые spans для retrieval, model step, tool execution, approval и memory write?
- Есть ли structured events, а не только сырые логи?
- Видно ли, какой policy decision принял gateway?
- Видно ли, какой tool principal исполнил side effect?
- Можно ли отличить success, denied, approval_wait и failure?
- Есть ли способ агрегировать runs в session-level или eval-level summaries?
- Если используется LLM-as-a-judge, откалиброван ли judge против human review и outcome checks?
- Не меняете ли вы одновременно model и prompt там, где нужен причинный вывод по eval results?
Читать дальше:
- Глава 11. Трассы, спаны и структурированные события
- Глава 13. Офлайн-оценки, онлайн-оценки и регрессионные шлюзы
Tool gateway checklist¶
- У каждой capability есть owner, risk tier и approved inventory status?
- Ясно ли, read это tool или write tool?
- Не показываете ли вы модели слишком большой каталог tools вместо узкого релевантного поднабора?
- Есть ли execution profile: sandbox, network access, allowed egress?
- Проверяет ли gateway actor identity и policy до execution?
- Есть ли idempotency semantics и retry policy?
- Понятно ли, когда нужен approval, а когда tool может исполниться автоматически?
- Есть ли audit trail на каждое внешнее действие?
- Понимает ли команда роли MCP host, client и server, а не смешивает их в одну “интеграцию”?
Читать дальше:
- Глава 8. Модель выполнения и каталог инструментов
- Глава 9. Песочница выполнения и MCP как интеграционный контракт
- Глава 10. Идемпотентность, повторы, лимиты запросов и границы отката
Что делать дальше¶
- Перед design review: быстро пройти safety, memory и tool gateway блоки.
- Перед запуском: пройти rollout и observability блоки.
-
Во время incident review: использовать observability и safety блоки как каркас разбора.
- Глоссарий терминов
- Шаблоны политик и проверочные списки по кейсам