Часть V. Надежность и observability¶
К этому моменту у нас уже есть:
- архитектурный каркас;
- контур безопасности;
- память и извлечение контекста;
- execution layer с контрактами, sandbox и дисциплиной around side effects.
Теперь появляется следующий взрослый вопрос: как вообще понимать, что делает агентная система в реальности?
Если у тебя нет хорошей observability, то даже сильная архитектура очень быстро превращается в набор догадок:
- почему run стал дороже;
- где именно сломался workflow;
- какой policy gate сработал;
- какой tool дал плохой результат;
- почему пользователю вернулся именно такой ответ.
В этой части мы разберем, как строить трассировку, SLO и циклы оценки так, чтобы агентную систему можно было не только запускать, но и уверенно поддерживать.
В этой части¶
- Глава 11. Трассы, спаны и структурированные события
- Глава 12. SLO для агентных систем
- Глава 13. Офлайн-оценки, онлайн-оценки и регрессионные шлюзы
Дальше логично переходить к организационной модели и platform operating model.