コンピュータのシステムといえども、人間が作って、人間が支えているのですから・・ システム障害時に大切な事とは・・?

こんにちは!
なごみちです。

今年10月に、システム障害のため、東京証券取引所で取引が終日停止したという出来事がありました。

現代は、コンピュータシステムに依存している部分が大きいですから、いざ、何らかのシステムトラブルが発生すると大きな問題になりかねません。

【システム障害が起きると・・】

自分は以前、システム開発・運用に携わっていたシステムエンジニアの端くれなので、このようなシステム障害が起きると、どうしてもシステムサイド側から見てしまう。

システムサイドの担当者は、今頃、大変だろうな・・
システム復旧に、てんてこ舞いだろうな・・

自分の経験上、システムがダウンした時のイメージは・・
一晩、二晩、徹夜で、ろくに食事もとれず、ひたすら対応に追われる。

エンドユーザーには、早く復旧させろ、業務が止まる・・と怒鳴られ、

一方、システムサイド側は、システムダウンした当初は、なぜシステムがダウンしたのか?

何の見当もつかず・・

・まずは、システムでどんな現象が起きているのかを探し・・

・その現象を見つけたら・・その現象がなぜ起きたのか、原因を究明し・・

・原因が判明したら、その原因を解決して(場合によっては応急処置)、復旧作業を急ぐ。

・コンピュータシステムが正常にもどったら、止まっていた業務システムの復旧に入る。

・業務システムが、一通り、復旧したら・・・やっと一息・・と思いきや・・

そこで終わりではない。

・大事なのは、再発防止策をとること

そんな一連のシステム障害対応は、かなりの時間と労力を要します。

今回の、東証のシステム障害・・

報道によると・・

・バックアップ機への自動切り替えができなかった。

・自動切り替えができなかったのは、システムを更新した時点からマニュアルに不備があり、システム設定が誤っていたためだとか・・

ここで、出てくるキーワードは、

「バックアップ」と「マニュアル」

【バックアップとリストアはセット!】

システム障害が発生したら、バックアップ機に切り替わる・・とか

重要なデータは、バックアップしてある・・とか

よく聞く話しですが・・

大事なことは、システムが正常に稼働している日頃から・・

・本当にバックアップ機に切り替わるよね・・という確認を取っておくこと。

・バックアップしたデータを使う場合は、データをリストア(復元)して、確かに使えるね・・という確認を取っておくことが重要です。

「バックアップ」があると聞くと、人間、安心してしまいますが、「リストア(復元)」ができなければ「バックアップ」した意味はありません。

【誰のためのマニュアル?・・】

「マニュアルがあるから・・」

これも曲者!

システムに関わると、規模の大小にかかわらず、マニュアルを作成する機会も多々出てきます。

大事なのは・・

誰を対象に作ったマニュアルか?・・ということ

例えば・・極端な例ですが・・

「カップラーメンの作り方」というマニュアルがあったとします。

1.まずは、お湯を沸かして・・ とあったとします。

これは、お湯の沸かし方は、誰でも知っているという大前提のもとで作られています。

ですから・・

お湯の沸かし方を知らない人には、マニュアルとして機能しません。

そんな人には、

1.やかんに水を入れ、火にかける・・

そこから始まる・・


ですが、同じように・・

やかんを知らない

水の出し方を知らない人には、

マニュアルとして機能しません。

かなり極端な例ですが、誰を対象に作ったマニュアルなのか

これが大事なのです。

特に、システムに関わるマニュアルは、それなりの知識を有する必要があるかもしれません。

それと合わせて・・

システムのマニュアルや仕様書などの「ドキュメント管理」

ドキュメント類が現行のシステムと常に同期が取れている事は、よほどしっかりと管理されていないと難しいものです。

【まとめ】

正常に動いて当たり前のはずのコンピュータのシステムですが、システムは、決して不死身ではありません。

機器が故障することもあるでしょうし、肝心かなめの人間が、誤った指示をすれば、システムは、その誤った指示どおり正常に処理しますから、人的ミスも許されません。

常日頃から、「システム障害は、起きるもの」と認識し、システム障害時に、いかに素早く対応できるか・・

そのための準備や訓練を、日頃の正常に稼働している時から行っておくことが、重要だと感じます。

コメント

タイトルとURLをコピーしました