/note/tech

Site Reliability Engineering (SRE)を可能にするOpenPIEのご紹介

Launch Coordination Checklist 例

  • アーキテクチャー
    • アーキテクチャー概要
    • クライアントからのリクエスト(API)
  • マシン/データセンター
    • 使⽤リソース、帯域幅、データセンター
    • 冗⻑性、QoS
    • DNS、ロードバランス
  • キャパシティプランニングと性能予測
    • トラフィック予想
    • 負荷テスト結果、最⼤応答性能/データセンター
    • 他サービスへの影響
    • ストレージ容量予想
  • 冗⻑化とフェイルオーバー
    • サーバー/ラック/クラスター障害発⽣時の挙動
    • データセンター間NW障害時の挙動
    • バックエンドサービス障害時の挙動
    • 障害発⽣時の再起動/回復の⼿順
    • バックアップ/リストア/DR回復⼿順
  • 監視と運⽤
    • 内部状態の監視と外部からの監視、アラートの設計
    • 監視システムの監視
    • ビジネス的に重要なアラートとログの定義
    • アラートメール攻撃の回避
  • セキュリティ
    • スパム対策、脆弱性対策、認証認可設定
    • リリース前のアクセス制御、ブラックリスト設定
  • ⾃動化とマニュアルタスク
    • 変更管理/プロビジョニング⼿順
    • リリース⼿順、継続的ビルド/デプロイ⼿順、カナ リー/ステージドロールアウト⼿順
  • スケーリング
    • スペアリソース、バースト対応、あらーちょ
    • スケーリングのボトルネック、HW/キャッシュ/ データ分割⽅法
  • 外部依存性
    • 依存外部システムのキャパシティ
    • 外部サービス容量超過時のデグレード⽅法