/note/tech

Zenlogicで発生した大規模障害の障害レポート

インフラをYahooのクラウド基盤使ってるというのはあるんだろうけど、さり気なくYahooの責任という方向に誘導していて文学性を感じる。

障害の内容としては、最初にストレージシステムがオーバーフローして、そのセーフティになるはずのロードバランサ的なものに設定ミスがあってネットワーク全体が重くなり、泥縄的にスケールアップしようとした結果、大量のデータコピーが発生して手が付けられなくなったという感じか。

中の人につきましては本当にお疲れ様でしたよ。