こんにちは、永田です。
前回の投稿で無事本番カットオーバーすることができたことを報告させていただきました。今回の投稿から、本番稼働の状況を報告させていただきます。報告の内容の中心は、本番障害発生の状況になるかと思います。本番障害の発生件数が落ち着くまでは、この内容での投稿をしようと思っています。
4月はまだ発生件数が少なかったので、それに比例して障害発生件数も少なく2件でした。そのうち1件は、オンライン処理中に異常終了してしまう事象であったため、対応には緊急を要する障害でした。本番障害発生時の対応手順や対応方法がまだ確立していなかったため、関わる全員が知っている知識を総動員しながら対応していくことになりました。障害の原因を特定するためには、テスト環境に本番環境で発生した障害にあたる契約などの情報を設定して、実際に打鍵された内容通りに再現させる必要があります。この準備に思いのほか時間がかかってしまい、この後の原因調査を行ったのがその日の深夜となってしまいました。深夜にもかかわらず頑張っていただいたメンバーのおかげで、翌日の朝には障害原因の報告と、対応方法の提案をすることができ、この日中には本番障害の解消目途をたてることができました。
この障害対応を通して、行うべき作業とその役割分担を平準化して、いち早くテスト環境で再現させて障害原因の特定することが大事であり、最も短時間で障害解消の目途が立てられることが分かりました。その旨プロジェクトリーダーへ提案し、今後本番障害が発生した時には速やかに行動できるよう対応手順を明確化して、プロジェクトメンバーへ展開していただきました。それ以降に発生した本番障害については、原因特定までの時間短縮ができており、障害解消までの期間短縮を達成できているものと思われます。
5月になり処理件数の増加に伴い、本番障害の発生件数も比例して8件発生しました。異常終了するような事象は発生しておらず、いずれも出力結果に誤りがあったとの報告を受けての障害となります。本番障害の発生している出力形態も多岐にわたっており、障害発生パターンも異なるため、今後も障害発生件数が少なくなることはないように思われます。障害発生の振り返りをしていき事前に対処できることを見つけていくことで、今後の発生件数をできるだけ抑えていくことも予定しています。この対応は一定の成果が見込めると思っています。その理由として、本番カットオーバーの投稿でも書きましたが、明らかにテストが足りていないと思っているからです。予定していたテストもいくつかカットされ、本番リリース日を遵守する方針になったからであり、このような状況はある意味予想通りと思っているからです。その予定していたテストだけでも不足してると個人的には思っており、今年いっぱいまでには本番障害がほぼ発生しない状態まで改善できればと思っています。そのための提言は繰り返ししていきたいと思います。
6月以降も本番稼働状況について投稿させていただきます。その中でどのような事が起こったのか、その際に対応した手法、今後障害発生を抑止すための施策について報告させていただき、これらが皆さんの参考の一つに慣れれば幸いと思っています。