一般社団法人 全国個人事業主支援協会

COLUMN コラム

  • ポストモーテムの書き方:障害から学びチームを強くするフレームワーク

ポストモーテムとは

ポストモーテムとは、インシデント(障害)発生後に実施する振り返りの文書とプロセスのことです。何が起きたか、なぜ起きたか、今後どう防ぐかを体系的に分析し、組織の学びに変えることが目的です。GoogleのSREチームが提唱する「Blameless Postmortem(責任追及しない振り返り)」の文化は、現在多くの企業に浸透しています。

ポストモーテムの価値は、同じ失敗を繰り返さないことだけではありません。障害対応の知見を組織全体に共有し、システムの信頼性を向上させ、チームの成長を促進する強力な学習ツールなのです。障害のない組織は存在しません。障害から学ぶ能力こそが、優れたエンジニアリング組織の証です。Etsyの元CTOであるJohn Allspawは「ポストモーテムは組織の免疫システムです」と表現しています。

ポストモーテムの構成要素

効果的なポストモーテム文書には、以下の要素を含めます。

タイトルと基本情報として、インシデントの日時、影響範囲、重大度、対応者、検知方法を記録します。一目で概要を把握できるようにサマリーも添えます。サマリーは2〜3行で、技術に詳しくないステークホルダーにも理解できる平易な言葉で書くのがポイントです。「APIサーバーの応答が10分間停止し、約5万ユーザーに影響」のように、影響を定量的に示します。

タイムラインは最も重要な要素です。インシデントの発生から検知、対応、復旧までの出来事を時系列で記録します。各エントリにはタイムスタンプ、実行者、アクション内容を含めます。「14:05 アラート発報」「14:08 オンコールエンジニアAが対応開始」「14:15 データベース接続プールの枯渇を特定」のように具体的に記載します。このタイムラインが、後の分析の基礎データとなります。できるだけ客観的に事実のみを記載し、解釈や推測は分析セクションに分離します。

根本原因分析では、5 Whys(なぜを5回繰り返す)やFishbone Diagram(特性要因図)を使って、表面的な原因だけでなく根本的な原因を掘り下げます。例えば「デプロイが失敗した」が直接原因だとしても、「テスト環境と本番環境の差異が検出されなかった」「デプロイ前のチェックリストが形骸化していた」「インフラの設定変更がコードレビューの対象外だった」という根本原因まで到達する必要があります。多くの場合、根本原因は技術的な問題だけでなく、プロセスや組織構造の問題にも及びます。単一の原因に帰着させるのではなく、複数の要因の組み合わせとして分析することが重要です。

影響範囲と指標として、ダウンタイムの長さ、影響を受けたユーザー数、失敗したリクエスト数、収益への影響などを定量的に記録します。SLO(Service Level Objectives)へのインパクトも明記し、エラーバジェットの消費量を計算します。定量データは改善の優先度付けに不可欠です。

アクションアイテムの設計

ポストモーテムの成否は、アクションアイテムの質にかかっています。「注意します」「気をつける」といった曖昧なアクションは避け、具体的で計測可能な改善策を定義します。人間の注意力に依存するアクションは、必ず再発するため無意味です。システムやプロセスで防げる仕組みを構築することに焦点を当てましょう。

各アクションアイテムには、担当者、期限、優先度、完了基準を必ず設定します。「モニタリングを強化します」ではなく、「APIのレイテンシP99が500msを超えた場合のアラートを追加する(担当:Aさん、期限:2月末)」のように具体化します。アクションは3つのカテゴリに分けるとわかりやすくなります。検知の改善(より早く気づくために)、防御の強化(そもそも発生させないために)、対応の迅速化(発生時のダメージを最小化するために)です。

アクションアイテムはJIRAやLinearなどのタスク管理ツールに登録し、進捗を追跡します。ポストモーテムで決めたアクションが実行されなければ、ポストモーテム自体の信頼性が損なわれ、チームが振り返りの意義を見失います。月次でアクションアイテムの消化率をレビューする会議を設けるのも効果的です。

Blamelessカルチャーの構築

ポストモーテムの場で個人を責めると、次回以降、正直な報告が行われなくなり、本質的な問題が隠蔽されるリスクがあります。「誰がミスをしたか」ではなく、「なぜシステムがそのミスを防げなかったか」に焦点を当てましょう。ミスを犯した個人を責めるのではなく、そのミスを可能にしたシステム設計やプロセスの改善に注力すべきです。

人間はミスをするものです。優れたシステムは、人間のミスを前提として、ミスが重大な障害に発展しないように設計されています。安全工学の世界では「スイスチーズモデル」として知られる概念で、複数の防御層のそれぞれに穴があっても、穴が一列に並ばない限り事故は起きないという考え方です。ポストモーテムは防御層の穴を見つけ、塞ぐための改善機会であり、チームの心理的安全性を高める機会でもあります。

定期的にポストモーテムのレビュー会を開催し、学びを組織全体に浸透させることが長期的な信頼性向上につながります。ポストモーテムの文書は全社で閲覧可能にし、他チームの障害から学ぶ文化を醸成しましょう。優れたポストモーテムは、新入社員のオンボーディング資料としても非常に価値があります。

この記事をシェアする

  • Twitterでシェア
  • Facebookでシェア
  • LINEでシェア