2016/03/31

ANAシステム障害の原因判明、シスコ製スイッチの「世界初のバグ」でDBサーバーがダウン

http://itpro.nikkeibp.co.jp/atcl/news/16/033000936/?rt=nocnt
「バグ」って言うからスイッチのファームウェアに障害があったのか? いずれにせよ該当スイッチが「ボク壊れたよ」と言わなかったので原因究明が遅れた、ということか。JP1か何かで監視してて、スイッチからメッセージが上がってこなかったから後手に回ったんだな。こういうのは珍しくない。私も現役SE時代に「前代未聞の障害」には何度も遭遇してる。やっぱりそれを想定したシステム構築が必要なんだねえ。今回のに関して言えば、具体的にはスイッチ2重化かしらね。あと監視体制として、エラーメッセージが上がってこなくても全ハード片っ端から障害を疑ってかかる、っていう意識も必要だ。 …なーんて偉そうに書いたけど、私も当事者だったら同じことやってたと思うよ。ご愁傷さまとしか言いようがない。おのれシスコ、っていうんで留飲を下げてください。

0 件のコメント:

コメントを投稿

ご自身の個人情報の記載はお控えください。万一コメント投書により貴殿の個人情報が流出したとしても、本ブログ著者は一切の責任を負わないものとします。