/note/tech

SREはじめの一歩

  • Pro
    • 開発スピードの向上
      • マネージドサービスを活かした設計を最初から考えられる
    • 障害対応スピードの向上
      • 開発者 = インフラ構築者なので勘所がわかっている
  • Cons
    • ノウハウがチーム内に閉じてしまう
    • サービス構成の知識の属人化
      • 作った人が主にメンテ・運用する = その人に負担が偏りがち

  • 「同じ問題を二度解かない」
    • プロダクト単位でなく社内横断でチームを作った意味
    • 特に速報の安定性とスピードはプロダクト (≒ビジネス)の生命線
  • ドキュメント化・標準化・自動化
    • 監視、アラートのガイドライン定義
    • OSSやAWSの機能でカバーできない部分を補うツールの開発
    • サービス/リポジトリの担当者でなくとも、適切な障害の一次対応ができるように
  • サービスの社会的意義を達成するため、より強固で柔軟な基盤をつくる
    • いざというときこそ、人々に最新情報を届けなければならないという使命
    • 「収集・分析/加工・配信」をそれぞれ統一していく土台作り
    • 最初の課題としての負荷試験