Часть V. Надежность и наблюдаемость¶

К этому моменту у нас уже есть архитектура, периметр безопасности, память и слой исполнения. Теперь вопрос меняется: как управлять системой после запуска, когда она уже может ошибаться в живой эксплуатации, дорожать, дрейфовать и ломаться не только на штатном пути.

Эта часть отвечает на три очень практических вопроса:

как восстановить реальный путь одного запуска;
как определить, что считать здоровьем и допустимым риском системы;
как превратить поведение системы в суждения, которыми можно пользоваться при поэтапном выпуске.

Короткий маршрут по этой части

Если нужен быстрый проход, иди так:

Глава 11: восстановить сырую историю одного реального сбоя;
Глава 12: задать бюджеты здоровья и риска;
Глава 13: превратить поведение системы в проверяемые суждения;
Сквозная цепочка доказательств: увидеть, как эти слои собираются в одну эксплуатационную запись.

Маршруты канонических сценариев

В слое надежности и наблюдаемости три канонических сценария требуют разных маршрутов доказательств. Разбор обращений поддержки проверяет покрытие трассировкой для записи тикетов, регрессию дублей и доказательства пути подтверждения. Внутренний ассистент знаний проверяет качество поиска, суждение об опоре на источники, бюджет свежести и доказательства происхождения памяти. Координация инцидентов проверяет задержку эскалации, доставку уведомлений, владение реагированием и послеинцидентное суждение о поэтапном выпуске.

Что решает эта часть¶

после главы 11 ты должен уметь восстанавливать путь запуска, а не гадать по симптомам;
после главы 12 ты должен уметь формулировать бюджеты здоровья и риска через задержку, стоимость, безопасность и эскалацию;
после главы 13 ты должен уметь выносить проверяемые суждения о качестве и риске регрессии;
после сквозной цепочки доказательств ты должен видеть, как трассы, политики, подтверждения, оценки и поэтапный выпуск связываются в одну проверяемую цепочку.

В этой части¶

Куда она ведет дальше¶

Как только система уже умеет захватывать поведение, задавать бюджеты и выносить суждения, следующим вопросом становится ответственность. Поэтому после этой части естественно идти в Часть VI: кто владеет этими обещаниями внутри реальной организации.