Site Reliability Engineering #10

SRE

第Ⅲ部実践サービスを成功裏に運用するには次の活動が必要になる。モニタリングシステムの開発位キャパシティプランニングインシデント対応サービス障害の根本原因が解決されていることサービスの健全性はサービスの方向性をコントロールするまでに至…

2020-05-11

Site Reliability Engineering #9

SRE

9章単純さそうして費用をいくらつぎ込んでも、信頼性だけは手に入らない。信頼性は、極限まで単純さを追求することでしか手に入らないのだ。 --- C.A.R Hoare、チューリング賞記念講演にてプロダクションソフトウェアシステムの大部分では、安定性とアジ…

2020-05-10

Site Reliability Engineering #8

SRE

8章リリースエンジニアリングリリースエンジニアはソフトウェアをビルドし、リリースするまでの全てに関わる。リリースエンジニアのスキルセットとして開発、設定管理、テストの統合、システム管理、カスタマサポートといった複数の領域に関する深い理解…

2020-05-09

Site Reliability Engineering #7

SRE

今回から要約をしていきます。 7章 Googleにおける自動化の進化自動化によるメリットが述べられている。同じ手順を間違いなく行う一貫性プラットフォーム化したときの間違いの集約とバグ修正コストの低さ人手を介さない高速な修復によるMTTRの削減時間…

2020-05-07

Site Reliability Engineering #6

SRE

6章分散システムのモニタリング 6.1 定義 6.2 モニタリングの必要性 6.3 モニタリングにおける妥当な期待値の設定 6.4 症状と原因 6.5 ブラックボックスとホワイボックス 6.6 4大シグナル 6.7 テイルレイテンシに関する懸念(あるいはインスツルメンテーショ…

2020-05-05

「入門監視」を読んで

書籍−ノウハウ SRE

監視の原則やデザインパターンを体系だって学ぶことで、自己流の監視のアンラーニングを目的に読みました。 www.oreilly.co.jp 本書は監視の原則から始まり、知りたいことが体系立って書かれていました。監視の定石であるデザインパターン障害に対する適切…

2020-05-04

Site Reliability Engineering #4

書籍−ノウハウ SRE

4章サービスレベル目標 4章サービスレベル目標ユーザに対するサービスレベルを定義する。定義するものはサービスレベル目標(SLI)、サービスレベル目標(SLO)、サービスレベルアグリメーメント(SLA)になる。 4.1 サービスレベルに関する用語 SLI 提供されて…

2020-05-03

Site Reliability Engineering #3

SRE

第Ⅱ部原則 3章リスクの受容 3.1 リスクの管理 3.2 サービスリスクの計測 3.3 サービスのリスク許容度 3.4 エラーバジェット参考第Ⅱ部原則トイルを撲滅することはSREにとって最も重要なタスクの一つである。トイルの定義は日常的に繰り返される価値を生…

2020-05-03

Site Reliability Engineering #2

SRE

2章 SREの観点から覽たGoogleのプロダクション環境 2.1 ハードウェア 2.2 ハードウェアを「組織化」するシステムソフトウェア 2.3 他のシステムソフトウェア 2.4 Googleのソフトウェアインフラストラクチャ 2.5 Googleの開発環境 2.6 シェークスピア：サンプ…

2020-05-03

Site Reliability Engineering #1

SRE

GoogleのSRE本を読み始めました。 www.oreilly.co.jp 1章イントロダクション 1.1 サービス管理へのシステム管理者のアプローチ 1.2 サービス管理者へのgoogleのアプローチ：サイトリライアビリティエンジニアリング 1.3 SREの信条 1章イントロダクション 1.1…

2020-05-02

おうちkubernetesクラスタを作る

kubernetes SRE

動機 kuberntesのSREを目指すにあたって、クラウドより下のレイヤの振る舞いから理解したかった。 ladicle.com の記事を見て、NUCを買えばPCより安価にクラスタ構築ができることが分かったので構築した。ハードウェア MasterはC-planeなので安価なCeleron、…