障害の一次切り分けと二次切り分け

切り分けは一次切り分けと二次切り分けの2段階で行われる

システム障害の切り分けは、通常、一次切り分けと二次切り分けの2段階で行われる。
障害の一次切り分けでは、障害発生前後の操作を把握することで、ハードウェアやソフトウェアの障害なのか、ヒューマンエラーによる障害なのかを特定する。
ヒューマンエラーの場合には、一般に復旧は難しくないため、一次切り分けの段階で解決することが多い。
一方、ハードウェアやソフトウェアの場合には、二次切り分けへと進むことになる。

「ネットワーク〜アプリケーション」の問題箇所を特定する

二次切り分けでは通常、「ネットワーク→ハードウェア→基本ソフト・ミドルウェア→アプリケーション」のどこに問題があるかを特定する。
二次切り分けの特定では、「死活監視=ネットワーク・サーバの稼働状況の確認」「リソース監視=CPU・メモリ・ディスクの使用率の確認」「プロセス監視=アプリケーションの応答状況などを確認」といった手段が使われる。
障害対応では、障害の検知方法と対応手順を事前に決めて、関係者間で共有しておくことが重要になる。

おすすめの記事