皆様お疲れ様です。
先月はお客様システムでのトラブル発生時の動き方について投稿しました。
今月は業務影響が出ているトラブルの対応方法について投稿したいと思います。
先月も記載しましたが、実際に業務影響が出ている場合は原因の調査よりも復旧が優先されます。
その為、復旧方法を提示してあげることが重要です。
とはいえ、業務影響が発生している中で悠長に確認している時間はあまりありません。
できることは限られていて大まかにいうと原因となる箇所の絞り込み(切り分け)、そして切り分けた箇所への対処となります。
例えば「〇〇サーバの△△サービスがダウンした」といったトラブルの場合は、△△サービスの再起動、復旧しなければ〇〇サーバの再起動が対処として挙げられます
それでも治らなければ対向のネットワーク機器のポートを閉塞するといった対処も必要になってきます。
問題箇所の切り分けにはサーバやアプリ、ソフトウェア、ネットワーク機器等のログから判断することになりますが、
どのようなログを採取すべきかは事前に整備しておくことでトラブル発生時の迅速な対応が可能になります。
また、各機器やアプリ、サービス等の再起動手順も同様に事前に整備していた方が良いですね。
業務影響が解消された後は、詳細ログを採取して根本原因と恒久対処の調査となります。