下記表では、VMware(vCenter Server管理)の環境において、「4.8.6. 仮想環境の障害について」で説明した障害が発生した場合の以下の標準ポリシーをベースに作成したポリシーの動作について説明します。
3つの標準ポリシーから作成されたポリシーが以下の順番で対象の運用グループに対して、設定されている状態を想定しています。
標準ポリシー(稼働マシンBMC死活)
ストレージパス障害用ポリシー
標準ポリシー(仮想マシンサーバ 予兆)
VMwareは、vSphere6を利用した場合の説明です。
No.11のVMS低負荷状態については、ポリシーがデフォルトで無効になっているため、設定を有効に変更します。No.17については、システムポリシー(マネージャ)の説明です。
No.7とVo.12のVMの障害については、標準ポリシー(仮想マシン)の説明です。
下記表の障害時の既定動作では、検出イベントに設定された復旧アクションの動作について説明します。
No | 障害 | 検出イベント(ポリシー規則名) | 障害の検出動作概要 | 障害時のポリシーなどの既定動作概要(一部イベントについては、デフォルト値から変更) |
---|---|---|---|---|
1 | 管理サーバ障害 | なし | なし | なし |
2 | 連携製品障害 | なし | 各製品を使用する処理でマネージャへのアクセス不可を検出 | 障害イベントは検出されないので、ポリシーによる復旧処理は実行されない。 管理コンソールのダッシュボードやサブシステムで障害マネージャ情報が表示される。 |
3 | 管理サーバ通信障害 | VMSアクセス不可 | 障害により管理サーバからVMSへアクセスできなくなるため、vCenter ServerがVMSのアクセス不可障害を検出 | 障害情報のメール通報とイベントログ出力を行い、VMSのステータスを故障状態に変更する。 診断処理では、障害により全VMSへのアクセスが不可のためVM退避先はないので復旧不可と判断し、エラー終了する。 |
4 | NWスイッチ障害 | VMSアクセス不可 | 障害により管理サーバからVMSへアクセスできなくなるため、vCenter ServerがVMSのアクセス不可障害を検出 | 障害情報のメール通報とイベントログ出力を行い、VMSのステータスを故障状態に変更する。 診断処理では、障害により全VMSへのアクセスが不可のためVM退避先はないので復旧不可と判断し、エラー終了する。 |
5 | VMS通信障害 | VMSアクセス不可 (冗長性低下) | VMSアクセス不可 障害により管理サーバからVMSへアクセスできなくなるため、vCenter ServerがVMSのアクセス不可障害を検出 冗長性低下(監視設定追加が必要) vCenter Serverがネットワークの冗長性低下を示すアラームを検出。「2.8.2. ネットワークパス監視」参照。 | VMSアクセス不可 障害情報のメール通報とイベントログ出力を行い、VMSのステータスを故障状態に変更する。 診断処理では、1台のみがアクセス不可の状況のため復旧可能な障害と判断する。VM用LAN経由(DPM経由)で対象VMS上のVMのシャットダウンを行う。VMSの強制OFFを実行する。VMをFailoverで別VMSへ退避後、VMを起動し、業務の復旧を完了する。 冗長性低下 障害情報のメール通報とイベントログ出力を行い、VMSのステータスを故障状態に変更する。対象VMS上のVMをMigrationで別VMSに移動する。Migrationが失敗した場合はFailoverを実行する。 |
6 | BMC通信障害 | ターゲットアクセス不可 | 障害により管理サーバからBMCへアクセスできなくなるため、SystemProvisioningがBMCのアクセス不可障害を検出 | 障害情報のメール通報とイベントログ出力が行われ、障害発生マシンのステータスが一部故障状態に変更される。 |
7 | VM通信障害 | 既定ではなし(接続切断、冗長性低下) | 監視設定追加などにより以下の検出が可能。「2.8.2. ネットワークパス監視」参照。 接続切断 vCenter Serverがネットワークの接続切断を示すアラームを検出。 冗長性低下 vCenter Serverがネットワークの冗長性低下を示すアラームを検出。 | 障害情報のメール通報とイベントログ出力を行い、VMSのステータスを故障状態に変更する。対象VMS上のVMをMigrationで別VMSに移動する。Migrationが失敗した場合はFailoverを実行する。 |
8 | VMS障害 | VMSアクセス不可 CPU温度異常 ファン/冷却装置異常(復旧不能) 電圧異常(復旧不能) 筺体温度異常(復旧不能) | VMSアクセス不可 障害により管理サーバからVMSへアクセスできなくなるため、vCenter ServerがVMSのアクセス不可障害を検出 CPU温度異常、ファン/冷却装置異常(復旧不能)、電圧異常(復旧不能)、筺体温度異常(復旧不能) ESMPRO/ServerAgent、または、OOB管理経由でHW障害を検出する | 障害情報のメール通報とイベントログ出力を行い、VMSのステータスを故障状態に変更する。 診断処理では、1台のみがアクセス不可の状況のため復旧可能な障害と判断する。対象VMS上のVMのシャットダウンを行う。VMSの強制OFFを実行する。VMをFailoverで別VMSへ退避後、VMを起動し、業務の復旧を完了する。なお、CPU温度異常の場合はVMSダウン直前にイベントが発生するので、VMS停止は自明なため、診断処理と強制OFFは実行しない。 |
9 | VMS・HW障害予兆 | HW予兆:ファン/冷却装置異常 HW予兆:電圧異常 HW予兆:電源装置異常 HW予兆:冷却水漏れ HW予兆:筺体温度異常 | ESMPRO/ServerAgent、または、OOB管理経由でHW障害を検出する | HW障害予兆のポリシーを利用するので、あらかじめ、ESMPRO/ServerAgentの障害時自動シャットダウンの設定を無効にしておく必要がある。 ポリシーにより次の処理が行われる。 まず、センサー診断を行い、復旧処理を行うべき状況かどうかを判断する。 処理を実行すべき状況と判断した場合、VMSのステータスを故障状態に変更する。さらに障害情報のメール通報とイベントログ出力を行い、対象VMS上のVMをMigrationで別VMSに移動する。Migrationが失敗した場合はFailoverを実行する。最後に、対象VMSをシャットダウンする。 |
10 | VMS高負荷状態 | 高負荷検出(SysmonPerf) | SystemMonitor性能監視によりVMサーバ高負荷を検出 | ポリシーにより、VMSロードバランスアクションが実行される。 負荷が集中しているVMS上から、負荷があまり高くない他のVMSへVMをMigrateすることにより、高負荷状態のVMS負荷を適正化する。 |
11 | VMS低負荷状態 | 低負荷検出(SysmonPerf) | SystemMonitor性能監視によりVMサーバ低負荷を検出 | 障害イベントに対するポリシー規則を有効(デフォルトは無効)に変更しておく必要がある。 ポリシーにより、VMSパワーセーブアクションが実行される。 適正負荷を超えない範囲で、より少ない台数のVMS上に配置されるようにVMを自動集約する。また、稼動するVMが0となったVMSはシャットダウンされ、システム全体の消費電力を低減するように動作する。 |
12 | VM障害 | 既定ではなし(マシンアクセス不可) | vCenter ServerがHeartbeatアラームを検出(デフォルトは無効) *1 | ポリシーにより、障害情報のメール通報とイベントログ出力を行い、VMのステータスを故障状態に変更する |
13 | VMS複数同時障害 | VMSアクセス不可 | 障害により管理サーバからVMSへアクセスできなくなるため、vCenter ServerがVMSのアクセス不可障害を検出 | 障害情報のメール通報とイベントログ出力を行い、VMSのステータスを故障状態に変更する。診断処理では、障害発生したVMSの数が多い場合は復旧不可と判断し、エラー終了する |
14 | FCパス障害 | ストレージパス接続切断、ストレージパス冗長性低下、ストレージパス冗長性喪失、(間欠障害は既定ではなし) | 以下の検出が可能。詳細は「2.8.1. ストレージパス監視」参照。間欠障害については監視設定追加が必要。 ストレージパス接続切断 vCenter Serverがストレージパスの接続切断を示すアラームを検出。 ストレージパス冗長性低下 vCenter Serverがストレージパスの冗長性低下を示すアラームを検出。 ストレージパス冗長性喪失 vCenter Serverがストレージパスの冗長性喪失を示すアラームを検出。 間欠障害 vCenter Serverがストレージパスの間欠障害を示すアラームを検出。 | ストレージパス接続切断 障害情報のメール通報とイベントログ出力を行い、VMSのステータスを故障状態に変更する。 対象VMS上のVMをMigrationで別VMSに移動する。Migrationが成功した場合はこの時点で復旧処理を終了する。 Migrationが失敗した場合、診断処理で、1台のみがアクセス不可の状況のため復旧可能な障害と判断した場合、VM用LAN経由(DPM経由)で対象VMS上のVMのシャットダウンを行う。VMSの強制OFFを実行する。VMをFailoverで別VMSへ退避後、VMを起動し、業務の復旧を完了する。 診断処理で、障害により複数VMSでディスクアクセスが不可のためVM退避先はないので復旧不可と判断した場合は、エラー終了する。 ストレージパス冗長性低下、ストレージパス冗長性喪失、間欠障害 障害情報のメール通報とイベントログ出力を行い、VMSのステータスを故障状態に変更する。 |
15 | FCスイッチ障害 | |||
16 | ストレージ装置障害 | |||
17 | データストア容量不足 | データストア ディスク割り当て量不足 データストア ディスク使用量不足 | vCenter Serverが Datastore Overallocation 、または、 Datastore usageアラームを検出 | ポリシーにより、障害情報のメール通報とイベントログ出力を行う |
*1
大量のVMが存在する大規模な環境では、VMが高負荷な状態やVMの電源制御により 頻繁にHeartbeatアラームのイベントが発生し、管理サーバの性能に影響が出る場合があります。 そのため、デフォルトではHeartbeatアラームの監視が動作しないように無効になっています。