物理環境では、次の図のような障害が考えられます。
No | 障害 | 障害内容 | 障害の影響 | 復旧作業 | SSCの対応可能な動作 | その他の可用性向上方法など |
---|---|---|---|---|---|---|
1 | 管理サーバ障害 | 管理サーバのHW/OS/SSC障害 | 管理中全マシンの監視/制御不可 | 管理サーバHW交換、OS再起動など | - | 定期的なバックアップ。クラスタソフトやFTサーバ利用による管理サーバの冗長化 |
2 | 連携製品障害 | DPMやiSM/IBなどの障害 | DPM:VM作成不可/パッチ・AP適用不可、 iSM/IB:ストレージ制御不可 | 各製品のサービス再起動など | 連携動作時に障害を検出。
検出時に画面上で通知。 | クラスタソフトによる管理サーバの冗長化 |
3 | 管理サーバ通信障害 | 管理サーバNIC障害/NWケーブル断線 | 管理中全マシンの監視/制御不可 | NIC/ケーブルの交換 | 死活監視で障害を検出。*1
検出時にイベントの通知や画面上で通知を行う。 |
管理サーバの管理LAN・NICの冗長化 |
4 | NWスイッチ障害 | NWスイッチのHW障害 | 全業務実行不可。管理中全マシンの監視/制御不可 | NWスイッチHW交換・設定変更など | 死活監視で障害を検出。*1
検出時にイベントの通知や画面上で通知を行う。 | NWスイッチの冗長化 |
5 | 管理LAN通信障害 | 管理LANのNIC障害/NWケーブル断線 | 障害発生マシンの監視/制御不可 | NIC/ケーブルを交換する | 死活監視で障害を検出。*1
検出時、予備機へ切り替えを行う。
また、イベントの通知や画面上で通知を行う。 | マシンの管理LAN・NICの冗長化 |
6 | BMC通信障害 | マシンのBMC・NIC障害/NWケーブル断線 | BMC経由の電源制御/監視/診断不可 | HW障害箇所/ケーブルを交換する | BMC死活監視で障害を検出。*1
検出時にイベントの通知や画面上で通知を行う。 | - |
7 | 業務用LAN通信障害 | 業務用LAN・NIC障害/NWケーブル断線 | 障害発生マシンの業務実行不可 | マシンの再起動など | - | マシンの業務用LAN・NICの冗長化 |
8 | マシン障害 | マシンのHW/OS障害 | 障害発生マシンの業務実行不可 | 障害発生マシンを予備マシンに交換する。OS障害原因を取り除く。 | 死活監視やハードウェア監視で障害を検出。*1
検出時、予備機へ切り替えを行う。
また、イベントの通知や画面上で通知を行う。 | - |
9 | マシンHW障害予兆 | 致命的でないマシンのHW障害 | 症状が悪化した場合、マシン障害が発生する可能性がある | 障害箇所HW交換。マシン本体を交換する場合は、予備機へ移動が必要 | ハードウェア監視で障害を検出。
検出時、予備機へ切り替えを行う。
また、イベントの通知や画面上で通知を行う。 | - |
10 | 性能障害 | マシンが高負荷や容量不足の状態 | 高負荷や容量不足による業務遅延、実行不可 | - | 性能監視で障害を検出。
検出時、イベントの通知や画面上で通知を行う。
また、ポリシーアクションによる対処も可能。 | - |
11 | マシン複数同時障害 | 電源などの共有装置障害(ブレードの場合)や停電による複数マシンの停止 | 停止したマシン上の業務実行不可 | 電源などの共有装置を交換、停電復旧後に起動 | 死活監視で障害を検出。*1
検出時にイベントの通知や画面上で通知を行う。 | 電源装置の冗長化、UPSの導入 |
12 | FCパス障害 | マシンのHBA障害/FCケーブル断線 | 障害発生マシン上の業務実行不可 | HBA/FCケーブルの交換 | - | HBA冗長化 |
13 | FCスイッチ障害 | FCスイッチ障害 | 全業務実行不可 | FCスイッチの交換 | - | FCスイッチ冗長化 |
14 | ストレージ装置障害 | ストレージのポート/コントローラ/ディスク障害 | 全業務実行不可 | ストレージ障害箇所の交換。データが無くなった場合は、システム再構築が必要 | - | ポート/コントローラの冗長化。ディスクを冗長性のあるRAIDレベルで構成する |
*1 死活監視は、該当箇所の障害の影響により発生する現象を障害として検出します。そのため、該当箇所の障害を明示的に特定して検出することはできません。詳細については、「2.5. 死活監視」を参照してください。