Перейти к содержанию

Часть V. Надежность и наблюдаемость

К этому моменту у нас уже есть архитектура, security perimeter, память и execution layer. Теперь вопрос меняется: как управлять системой после запуска, когда она уже может ошибаться в живой эксплуатации, дорожать, дрейфовать и ломаться не только в happy path.

Эта часть отвечает на три очень практических вопроса:

  • как восстановить реальный путь одного run;
  • как определить, что считать здоровьем и допустимым риском системы;
  • как превратить поведение системы в judgments, которыми можно пользоваться в rollout.

Короткий маршрут по этой части

Если нужен быстрый проход, иди так:

  • Глава 11: восстановить сырую историю одного реального сбоя;
  • Глава 12: задать health и risk budgets;
  • Глава 13: превратить поведение системы в reviewable judgments;
  • Evidence Spine: увидеть, как эти слои собираются в одну эксплуатационную запись.

Обложка части про надежность и наблюдаемость

Что решает эта часть

  • после главы 11 ты должен уметь восстанавливать путь run, а не гадать по симптомам;
  • после главы 12 ты должен уметь формулировать health и risk budgets через latency, cost, safety и escalation;
  • после главы 13 ты должен уметь выносить reviewable judgments по quality и regression risk;
  • после Evidence Spine ты должен видеть, как traces, policy, approvals, evals и rollout связываются в одну проверяемую цепочку.

В этой части

Куда она ведет дальше

Как только система уже умеет захватывать поведение, задавать budgets и выносить judgments, следующим вопросом становится ownership. Поэтому после этой части естественно идти в Часть VI: кто владеет этими обещаниями внутри реальной организации.