Site Reliability Engineering #10
第Ⅲ部 実践
サービスを成功裏に運用するには次の活動が必要になる。
- モニタリングシステムの開発位
- キャパシティプランニング
- インシデント対応
- サービス障害の根本原因が解決されていること
サービスの健全性はサービスの方向性をコントロールするまでに至る複数の段階に分類される。
https://landing.google.com/sre/sre-book/chapters/part3/#fig_part-practices_reliability-hierarchy
- モニタリング
- インシデント対応
- ポストモーテムと根本原因分析
- テスト
- キャパシティプランニング
- 開発 7. プロダクト
まずはサービスの動作を明らかにする、インシデントに対応して問題を深く理解する、再発防止・予防を行う。 キャパシティプランニング以降は再発防止・予防まで行えてコントロールできるようになる。