naos92の日記

あなたは夢をみる?志を低く自我を薄く、万人に好かれる便利な奴隷を目指します。

東京証券取引所arrowhead の障害に関する原因と対策について

東京証券取引所のシステム障害の続報が10月5日に掲載されたよ。

【arrowhead の障害に関する原因と対策について】と【(参考)共有ディスク装置の内部構造】というタイトルのPDFが公表されている。

原因がなんともお粗末。

引用すると以下の通り。

--------------------------
2.原因本装置が有している障害時の切替え機能のうち、メモリ故障に起因する障害パターンが生じた場合に、自動切替えが機能していないことが判明しました。
3.対策切替え機能に関する検証を行った結果、本装置の設定を変更することで、メモリ故障に起因する障害において自動切替えを行うことが可能であることが判明しました。10月4日にシステムに適用し、自動切替え機能が動作することを確認済みです。
同様の問題が生じることのないよう、更なる原因分析、システム設定値の再点検および再発防止策等について、今後も検討を進めて参ります。
--------------------------

簡単にまとめると、設定漏れかつテストケース漏れとなる。

設定漏れというのは、メモリ障害自動切換えするパラメータとしていなかったことだ。テストケース漏れというのは、このようなミッションクリティカルなシステムにも関わらず、理論上故障が発生しうる箇所のテストを実施していなかったことだ。実施していれば発見できたはずだ。

システムに詳しくない人間からするとテスト実施済みとあるのでテストをしたと思ってしまいがちだが、報告書には、【※稼働前のテストでは、1号機と2号機間の死活監視を途絶えさせて、速やかに自動的に切替えできることは確認済み。】と記載がある。ここでのキーワードは死活監視となり、これは何をやったかというと、おそらくLANケーブルを引き抜いた→自動で切り替わった→LANケーブルを挿した→元に戻った、というレベルだろうと推測される。メモリ障害といっても、おそらくメモリは複数枚搭載しているので、1枚故障が発生しただけでは共有ディスク装置の故障とはならず、共有ディスク装置1号機がきっちりとダウンしなかったのだろう。ここでのきっちりとは、死活監視でエラーだと判定されるようなダウンではなかったのだろう。お粗末様。

システム障害が発生した当日の会見では富士通に賠償請求は行わないと宣言していたが、設定されているべき内容が設定されていないのであれば、これは富士通責任だよね。新arrowheadは昨年11月リリースといっていたし、おそらく瑕疵担保責任だね。野次馬根性だけど、要件定義ないし、基本設計書作成フェーズの議事録も公開してほしいな。

 

www.jpx.co.jp