Часть V. Надежность и наблюдаемость¶
К этому моменту у нас уже есть архитектура, security perimeter, память и execution layer. Теперь вопрос меняется: как управлять системой после запуска, когда она уже может ошибаться в живой эксплуатации, дорожать, дрейфовать и ломаться не только в happy path.
Эта часть отвечает на три очень практических вопроса:
- как восстановить реальный путь одного run;
- как определить, что считать здоровьем и допустимым риском системы;
- как превратить поведение системы в judgments, которыми можно пользоваться в rollout.
Короткий маршрут по этой части
Если нужен быстрый проход, иди так:
- Глава 11: восстановить сырую историю одного реального сбоя;
- Глава 12: задать health и risk budgets;
- Глава 13: превратить поведение системы в reviewable judgments;
- Evidence Spine: увидеть, как эти слои собираются в одну эксплуатационную запись.
Что решает эта часть¶
- после главы 11 ты должен уметь восстанавливать путь run, а не гадать по симптомам;
- после главы 12 ты должен уметь формулировать health и risk budgets через latency, cost, safety и escalation;
- после главы 13 ты должен уметь выносить reviewable judgments по quality и regression risk;
- после Evidence Spine ты должен видеть, как traces, policy, approvals, evals и rollout связываются в одну проверяемую цепочку.
В этой части¶
- Глава 11. Трассы, спаны и структурированные события
- Глава 12. SLO для агентных систем
- Глава 13. Офлайн-оценки, онлайн-оценки и регрессионные шлюзы
- Сквозная цепочка доказательств: от запроса к решению о rollout
Куда она ведет дальше¶
Как только система уже умеет захватывать поведение, задавать budgets и выносить judgments, следующим вопросом становится ownership. Поэтому после этой части естественно идти в Часть VI: кто владеет этими обещаниями внутри реальной организации.
