/note/tech

【復旧】12月23日、24日に発生しました障害に関するご報告

  • Herokuの制限によって海外に設置されていたSkebのサーバが、移管によって日本国内に設置されることになりました。日本国内からのアクセスが大幅に高速化されます。
  • スケブ社ではエンジニアに対して開発環境の指定を行わず、各々がWindows、Mac、Ubuntuといった好みのOSを用いて開発しています。
  • どのような環境でも開発ができるように、Skebのすべてのシステムはオフラインの仮想環境で動作するコンテナイメージを作成しています。
  • 今回このコンテナイメージがあったことで、事前準備なく1日未満でHerokuから新しいクラウドサービスに問題なく移管することができました。
  • 今回の障害を受けて、深夜残業および休日出勤による法定割増賃金に加え「障害対応手当」という社内制度を新設しました。
  • 復旧に向けて夜間作業にあたっていたエンジニア4名に対し、1人あたり3万円のAmazonギフト券を夜間直ちに支給しました。
  • Skebでは月間約5億円の取引がございますが、今回の障害で1,500万円相当の取引の機会損失が発生しました。しかしながら、12月24日現在もHerokuから応答はなく、詳細な原因は判明しておりません。厚いサポートを謳うエンタープライズ契約を締結しているにも関わらず、このような対応は大変遺憾です。
  • Skebが利用不可能となる事例は、サービスリリース日である2018年11月30日に発生したアクセス過多による障害を除き、事実上今回が初めての大規模障害となりました。
  • クリスマスを目前に納品タイミングを調整されていたクリエイターの方々もいらっしゃいましたが、メールマガジンの配信システムも障害で停止していたことから、納品期限延長の告知がTwitterと記事のみとなってしまい、大きく混乱を招く事態となってしまいました。
  • 今後メールマガジンの配信は外部のサービスの利用も検討してまいります。