SRE

Site Reliability Engineering #10

SRE

第Ⅲ部 実践 サービスを成功裏に運用するには次の活動が必要になる。 モニタリングシステムの開発位 キャパシティプランニング インシデント対応 サービス障害の根本原因が解決されていること サービスの健全性はサービスの方向性をコントロールするまでに至…

Site Reliability Engineering #9

SRE

9章 単純さ そうして費用をいくらつぎ込んでも、信頼性だけは手に入らない。 信頼性は、極限まで単純さを追求することでしか手に入らないのだ。 --- C.A.R Hoare、チューリング賞記念講演にて プロダクションソフトウェアシステムの大部分では、安定性とアジ…

Site Reliability Engineering #8

SRE

8章 リリースエンジニアリング リリースエンジニアはソフトウェアをビルドし、リリースするまでの全てに関わる。 リリースエンジニアのスキルセットとして開発、設定管理、テストの統合、システム管理、カスタマサポートといった複数の領域に関する深い理解…

Site Reliability Engineering #7

SRE

今回から要約をしていきます。 7章 Googleにおける自動化の進化 自動化によるメリットが述べられている。 同じ手順を間違いなく行う一貫性 プラットフォーム化したときの間違いの集約とバグ修正コストの低さ 人手を介さない高速な修復によるMTTRの削減 時間…

Site Reliability Engineering #6

SRE

6章 分散システムのモニタリング 6.1 定義 6.2 モニタリングの必要性 6.3 モニタリングにおける妥当な期待値の設定 6.4 症状と原因 6.5 ブラックボックスとホワイボックス 6.6 4大シグナル 6.7 テイルレイテンシに関する懸念(あるいはインスツルメンテーショ…

「入門 監視」を読んで

監視の原則やデザインパターンを体系だって学ぶことで、自己流の監視のアンラーニングを目的に読みました。 www.oreilly.co.jp 本書は監視の原則から始まり、知りたいことが体系立って書かれていました。 監視の定石であるデザインパターン 障害に対する適切…

Site Reliability Engineering #4

4章サービスレベル目標 4章サービスレベル目標 ユーザに対するサービスレベルを定義する。 定義するものはサービスレベル目標(SLI)、サービスレベル目標(SLO)、サービスレベルアグリメーメント(SLA)になる。 4.1 サービスレベルに関する用語 SLI 提供されて…

Site Reliability Engineering #3

SRE

第Ⅱ部 原則 3章リスクの受容 3.1 リスクの管理 3.2 サービスリスクの計測 3.3 サービスのリスク許容度 3.4 エラーバジェット 参考 第Ⅱ部 原則 トイルを撲滅することはSREにとって最も重要なタスクの一つである。 トイルの定義は日常的に繰り返される価値を生…

Site Reliability Engineering #2

SRE

2章 SREの観点から覽たGoogleのプロダクション環境 2.1 ハードウェア 2.2 ハードウェアを「組織化」するシステムソフトウェア 2.3 他のシステムソフトウェア 2.4 Googleのソフトウェアインフラストラクチャ 2.5 Googleの開発環境 2.6 シェークスピア:サンプ…

Site Reliability Engineering #1

SRE

GoogleのSRE本を読み始めました。 www.oreilly.co.jp 1章イントロダクション 1.1 サービス管理へのシステム管理者のアプローチ 1.2 サービス管理者へのgoogleのアプローチ:サイトリライアビリティエンジニアリング 1.3 SREの信条 1章イントロダクション 1.1…

おうちkubernetesクラスタを作る

動機 kuberntesのSREを目指すにあたって、クラウドより下のレイヤの振る舞いから理解したかった。 ladicle.com の記事を見て、NUCを買えばPCより安価にクラスタ構築ができることが分かったので構築した。 ハードウェア MasterはC-planeなので安価なCeleron、…