下記表では、標準ポリシー(N+1)の環境において、「3.3.2. 物理環境の障害について(SANブート環境の場合)」で説明した障害が発生した場合の、標準ポリシー(N+1)をベースに作成したポリシーの動作について、説明します。No.6用に標準ポリシー(稼働マシンBMC死活)をベースに作成したポリシーも設定します。待機マシン用には標準ポリシー(プールマシン)をベースに作成したポリシーを環境設定の[死活監視]タブに設定します。
下記表の障害時の既定動作では、検出イベントに設定された復旧アクションの動作について説明します。
No | 障害 | 検出イベント(ポリシー規則名) | 障害の検出動作概要 | 障害時のポリシーなどの既定動作概要(一部イベントについては、デフォルト値から変更) |
---|---|---|---|---|
1 | 管理サーバ障害 | なし | なし | なし |
2 | 連携製品障害 | なし | 各製品を使用する処理でマネージャへのアクセス不可を検出 | 障害イベントは検出されないので、ポリシーによる復旧処理は実行されない。 管理コンソールのダッシュボードやサブシステムで障害マネージャ情報が表示される。 |
3 | 管理サーバ通信障害 | マシンアクセス不可能障害 | 障害により管理サーバから障害発生マシンへアクセスできなくなるため、死活監視のアクセス不可障害を検出 | 障害情報のメール通報とイベントログ出力が行われ、障害発生マシンのステータスが故障状態に変更される。 復旧のアクションとしてマシン置換が実行されるが、障害発生マシンと予備マシンと通信できないため、失敗する。 |
4 | NWスイッチ障害 | マシンアクセス不可能障害 | 障害により管理サーバから障害発生マシンへアクセスできなくなるため、死活監視のアクセス不可障害を検出 | 障害情報のメール通報とイベントログ出力が行われ、障害発生マシンのステータスが故障状態に変更される。 復旧のアクションとしてマシン置換が実行されるが、障害発生マシンと予備マシンと通信できないため、失敗する。 |
5 | 管理LAN通信障害 | マシンアクセス不可能障害 | 障害により管理サーバから障害発生マシンへアクセスできなくなるため、死活監視のアクセス不可障害を検出。 | 障害情報のメール通報とイベントログ出力が行われ、障害発生マシンのステータスが故障状態に変更される。 復旧のアクションとしてマシン置換が実行される。障害発生マシンと通信できない状態になっているが、BMCによる強制的な電源Offにより、予備マシンへの切り替えが成功する可能性がある。 |
6 | BMC通信障害 | ターゲットアクセス不可 | 障害により管理サーバからBMCへアクセスできなくなるため、SystemProvisioningがBMCのアクセス不可障害を検出 | 障害情報のメール通報とイベントログ出力が行われ、障害発生マシンが稼動マシンの場合はステータスが一部故障状態に変更される。また、障害発生マシンが待機マシンの場合はステータスが故障状態に変更される。 |
7 | 業務LAN通信障害 | なし | なし | なし |
8 | マシン障害 | マシンアクセス不可能障害 CPU温度異常 ファン/冷却装置異常(復旧不能) 電圧異常(復旧不能) 筺体温度異常(復旧不能) | マシンアクセス不可能障害 障害により管理サーバから障害発生マシンへアクセスできなくなるため、死活監視のアクセス不可障害を検出。 CPU温度異常、ファン/冷却装置異常(復旧不能)、電圧異常(復旧不能)、筺体温度異常(復旧不能) ESMPRO/ServerAgent、または、OOB管理経由でHW障害を検出する | 障害情報のメール通報とイベントログ出力が行われ、障害発生マシンのステータスが故障状態に変更される。 復旧のアクションとしてマシン置換が実行され、予備マシンへの切り替えが行われる。障害発生マシンのシャットダウンができない場合はマシン置換処理中に強制OFFが実行される。 |
9 | マシンHW障害予兆 | HW予兆:ファン/冷却装置異常 HW予兆:電圧異常 HW予兆:電源装置異常 HW予兆:冷却水漏れ HW予兆:筺体温度異常 | ESMPRO/ServerAgent、または、OOB管理経由でHW障害を検出する | 障害情報のメール通報とイベントログ出力が行われ、障害発生マシンのステータスが故障状態に変更される。 復旧のアクションとしてマシン置換が実行され、予備マシンへの切り替えが行われる。障害発生マシンのシャットダウンができない場合はマシン置換処理中に強制OFFが実行される。 |
10 | 性能障害 | 任意の通報、カスタム通報(通報元がSystemMonitorPerfのイベントを設定) | SystemMonitor性能監視による障害発生マシンの性能情報の閾値監視で、異常を検出 | ポリシーにより、任意のアクションが実行されるように、ポリシー規則を設定する必要があります。 |
11 | マシン複数同時障害 | マシンアクセス不可能障害 | 障害により管理サーバから障害発生マシンへアクセスできなくなるため、死活監視のアクセス不可障害を検出 | 障害情報のメール通報とイベントログ出力が行われ、障害発生マシンのステータスが故障状態に変更される。 復旧のアクションとしてマシン置換が実行され、予備マシンへの切り替えが行われる。複数同時障害の原因によっては、予備マシンも利用できない状態になっている可能性がある。 また、予備マシンの台数が限られているため、すべての障害発生マシンを復旧できない。 |
12 | FCパス障害 | なし | なし | なし |
13 | FCスイッチ障害 | |||
14 | ストレージ装置障害 |