Site Reliability Engineering #10

第Ⅲ部 実践

サービスを成功裏に運用するには次の活動が必要になる。

  • モニタリングシステムの開発位
  • キャパシティプランニング
  • インシデント対応
  • サービス障害の根本原因が解決されていること

サービスの健全性はサービスの方向性をコントロールするまでに至る複数の段階に分類される。

https://landing.google.com/sre/sre-book/chapters/part3/#fig_part-practices_reliability-hierarchy

  1. モニタリング
  2. インシデント対応
  3. ポストモーテムと根本原因分析
  4. テスト
  5. キャパシティプランニング
  6. 開発 7. プロダクト

まずはサービスの動作を明らかにする、インシデントに対応して問題を深く理解する、再発防止・予防を行う。 キャパシティプランニング以降は再発防止・予防まで行えてコントロールできるようになる。