FC2ブログ

Entries

システム障害と妥協

また、システム障害が発生してしまった。なんで、こうもシステム障害は多発するのだろう?

[続報]JR東の新幹線がシステム障害から復旧、前日データの反映に問題か

この疑問を裏返せば、”障害が起こらないシステムを構築できるか?”

与えられた条件(たとえば、ユーザの数、データ処理量など)がすべて構築したシステムでの想定範囲であれば、障害は起こらない。

手前味噌で恐縮ですが、拙著「これならわかるネットワーク」(p22-25)で触れているのは、糸電話の例。たとえば、日本国民一人一人が自分を除くすべての国民と糸電話で結べば、よほどのことが起きない限り障害は起きない。かりに起きたとしても、途中で糸が切れるくらい、そして、どの糸が切れて、どの糸が切れていないか、この原因の切り分けはとっても簡単。ある意味、極めて障害が起きにくいシステムといえそうだ。

だけど、仮にこのシステムを実現したとしたら、あまりにもコストがかかる。というわけで、まず実現はありえないだろう。じゃあ、どうするか?利用ユーザはだいたい1日1万くらいで、一日のデータ処理量1日1Gバイトとなどと最大使用量を想定して、システムを作る。いってみれば、あるレベルで妥協する。当然ながら、レベルを上げれば上げるほどコストはかかるけどシステムとしては堅牢となる。一方、妥協すればするほどコストは下がるけどシステムとしては脆弱になる。

しかるに、今回のシステム障害、上のリンクの記事から判断する限り、前日のダイヤの乱れという”想定外”の出来事が引き金になったようにみえる。


29日早朝、COSMOSのコンピュータは稼働しているものの、営業運行に向け列車が割り付けられなかった。調査したところ、前日までの処理の問題によって、当日の運転ができるシステム状態になかったという。JR東の新幹線では前日12月28日に大幅なダイヤ乱れが発生しており、それらの情報がCOSMOSに反映できなかった可能性が高い。



そういう意味で、後からみれば、当初のシステムの設計が甘い、と言われても仕方ない。

でも、問題はJR東の新幹線システムが杜撰だった、ということではなくて、どうしたら、コストと堅牢性の最適な妥協点=限りなくゼロの確率でシステム障害が起きないトレードオフ、を見いだせるか、ということ。

ポイントは、あらゆる立場、あらゆる条件から、システムの妥当性をレビューすることだと思う。たとえば、1986年のスペースシャトル・チャレンジャー号の爆発について、その原因をJST失敗知識データベースではこのように知識化している。


(1) 大事故もOリングのような機械要素のひとつの不具合から生じる。
(2) 大きなプロジェクトでは組織が分断され、そこで情報も途切れてしまう。また一度できあがった組織は、それ自体が生き延びようとして尋常でない判断がなされ、事故につながる場合が多い。
(3) 過去に成功していても、条件や環境の変化で事故が発生してしまう(今回は低温)。



この知識はシステム障害にも当てはまる。
つまり、あらゆる立場からレビューすることによって、(2)分断された情報を再構成する。あらゆる条件からレビューすることによって、(3)条件・環境の変化に対してチェックすると。

結局のところ、Linuxのようにソースをすべて公開するオープンソースの良さは、誰からも、そして、いろいろな環境・条件からレビューできる点にあると思う。新幹線システムをオープンソースにすべきとは言わないけど、今回の教訓はあらゆる立場、条件・環境からレビューすること、だと言えそうだ。

P.S.
08年はこの記事が最後です。よいお年を。

これならわかるネットワーク ― インターネットはなぜつながるのか? (ブルーバックス 1599) (ブルーバックス 1599)これならわかるネットワーク ― インターネットはなぜつながるのか? (ブルーバックス 1599) (ブルーバックス 1599)
(2008/05/20)
長橋 賢吾

商品詳細を見る
この記事にトラックバックする(FC2ブログユーザー)
http://bemasterof.blog24.fc2.com/tb.php/52-0f538be9

トラックバック

コメント

[C8] No title

東海道新幹線はもっとダイヤが過密なのにこういう話は
ないのかな。乗客のことを考えてトラブルに対する意識を
増やしてほしい。
  • 2008-12-30 00:14
  • くもりのち晴れ
  • URL
  • 編集

[C9] No title

東海道新幹線もたぶん考えてはいると思う。
ただ、想定以上のことが起きることを考えて、システムの妥当性を確認する必要があると思う。
  • 2008-12-30 08:19
  • kengo
  • URL
  • 編集

コメントの投稿

コメントの投稿
管理者にだけ表示を許可する

Appendix

プロフィール

kengo

Author:kengo
コンセプト:
①ブラックボックスとしてのITを解きほぐす:どんどん便利になっていくIT、便利になる反面、ブラックボックスになっているもの事実。ブラックボックス化しつつあるITを解きほぐしていきます。

②エンジニアのためのファイナンス:ファイナンスは企業全体を見るツールとしてとても重要。企業そしてビジネス全体をどう見ていくか、そんな情報を提供します。

③映画・書評:IT・ビジネス系の書評、見た映画についてつづっていきます。

メールはこちらまで




Disclaimer
このBlogは長橋賢吾の個人的な考えを掲載したものであり、長橋賢吾が所属ないし関係する機関、組織、グループ等の意見を反映したものでありません。

MicroAd

FC2アフィリエイト

旅ポケドットコム

メールフォーム

名前:
メール:
件名:
本文:

アクセス解析

reviewplus