SRE
第Ⅲ部 実践 サービスを成功裏に運用するには次の活動が必要になる。 モニタリングシステムの開発位 キャパシティプランニング インシデント対応 サービス障害の根本原因が解決されていること サービスの健全性はサービスの方向性をコントロールするまでに至…
9章 単純さ そうして費用をいくらつぎ込んでも、信頼性だけは手に入らない。 信頼性は、極限まで単純さを追求することでしか手に入らないのだ。 --- C.A.R Hoare、チューリング賞記念講演にて プロダクションソフトウェアシステムの大部分では、安定性とアジ…
8章 リリースエンジニアリング リリースエンジニアはソフトウェアをビルドし、リリースするまでの全てに関わる。 リリースエンジニアのスキルセットとして開発、設定管理、テストの統合、システム管理、カスタマサポートといった複数の領域に関する深い理解…
今回から要約をしていきます。 7章 Googleにおける自動化の進化 自動化によるメリットが述べられている。 同じ手順を間違いなく行う一貫性 プラットフォーム化したときの間違いの集約とバグ修正コストの低さ 人手を介さない高速な修復によるMTTRの削減 時間…
6章 分散システムのモニタリング 6.1 定義 6.2 モニタリングの必要性 6.3 モニタリングにおける妥当な期待値の設定 6.4 症状と原因 6.5 ブラックボックスとホワイボックス 6.6 4大シグナル 6.7 テイルレイテンシに関する懸念(あるいはインスツルメンテーショ…
監視の原則やデザインパターンを体系だって学ぶことで、自己流の監視のアンラーニングを目的に読みました。 www.oreilly.co.jp 本書は監視の原則から始まり、知りたいことが体系立って書かれていました。 監視の定石であるデザインパターン 障害に対する適切…
4章サービスレベル目標 4章サービスレベル目標 ユーザに対するサービスレベルを定義する。 定義するものはサービスレベル目標(SLI)、サービスレベル目標(SLO)、サービスレベルアグリメーメント(SLA)になる。 4.1 サービスレベルに関する用語 SLI 提供されて…
第Ⅱ部 原則 3章リスクの受容 3.1 リスクの管理 3.2 サービスリスクの計測 3.3 サービスのリスク許容度 3.4 エラーバジェット 参考 第Ⅱ部 原則 トイルを撲滅することはSREにとって最も重要なタスクの一つである。 トイルの定義は日常的に繰り返される価値を生…
2章 SREの観点から覽たGoogleのプロダクション環境 2.1 ハードウェア 2.2 ハードウェアを「組織化」するシステムソフトウェア 2.3 他のシステムソフトウェア 2.4 Googleのソフトウェアインフラストラクチャ 2.5 Googleの開発環境 2.6 シェークスピア:サンプ…
GoogleのSRE本を読み始めました。 www.oreilly.co.jp 1章イントロダクション 1.1 サービス管理へのシステム管理者のアプローチ 1.2 サービス管理者へのgoogleのアプローチ:サイトリライアビリティエンジニアリング 1.3 SREの信条 1章イントロダクション 1.1…
動機 kuberntesのSREを目指すにあたって、クラウドより下のレイヤの振る舞いから理解したかった。 ladicle.com の記事を見て、NUCを買えばPCより安価にクラスタ構築ができることが分かったので構築した。 ハードウェア MasterはC-planeなので安価なCeleron、…