Часть V. Надежность и наблюдаемость¶
К этому моменту у нас уже есть архитектура, периметр безопасности, память и слой исполнения. Теперь вопрос меняется: как управлять системой после запуска, когда она уже может ошибаться в живой эксплуатации, дорожать, дрейфовать и ломаться не только на штатном пути.
Эта часть отвечает на три очень практических вопроса:
- как восстановить реальный путь одного запуска;
- как определить, что считать здоровьем и допустимым риском системы;
- как превратить поведение системы в суждения, которыми можно пользоваться при поэтапном выпуске.
Короткий маршрут по этой части
Если нужен быстрый проход, иди так:
- Глава 11: восстановить сырую историю одного реального сбоя;
- Глава 12: задать бюджеты здоровья и риска;
- Глава 13: превратить поведение системы в проверяемые суждения;
- Сквозная цепочка доказательств: увидеть, как эти слои собираются в одну эксплуатационную запись.
Маршруты канонических сценариев
В слое надежности и наблюдаемости три канонических сценария требуют разных маршрутов доказательств. Разбор обращений поддержки проверяет покрытие трассировкой для записи тикетов, регрессию дублей и доказательства пути подтверждения. Внутренний ассистент знаний проверяет качество поиска, суждение об опоре на источники, бюджет свежести и доказательства происхождения памяти. Координация инцидентов проверяет задержку эскалации, доставку уведомлений, владение реагированием и послеинцидентное суждение о поэтапном выпуске.
Что решает эта часть¶
- после главы 11 ты должен уметь восстанавливать путь запуска, а не гадать по симптомам;
- после главы 12 ты должен уметь формулировать бюджеты здоровья и риска через задержку, стоимость, безопасность и эскалацию;
- после главы 13 ты должен уметь выносить проверяемые суждения о качестве и риске регрессии;
- после сквозной цепочки доказательств ты должен видеть, как трассы, политики, подтверждения, оценки и поэтапный выпуск связываются в одну проверяемую цепочку.
В этой части¶
- Глава 11. Трассы, спаны и структурированные события
- Глава 12. SLO для агентных систем
- Глава 13. Офлайн-оценки, онлайн-оценки и регрессионные шлюзы
- Сквозная цепочка доказательств: от запроса к решению о поэтапном выпуске
Куда она ведет дальше¶
Как только система уже умеет захватывать поведение, задавать бюджеты и выносить суждения, следующим вопросом становится ответственность. Поэтому после этой части естественно идти в Часть VI: кто владеет этими обещаниями внутри реальной организации.
