各標準ポリシーでは、ハードウェア監視のイベントに対して、利用する環境に応じた復旧アクションが設定されています。ハードウェア監視のイベントが設定されている標準ポリシーは以下の通りです。
標準ポリシー(物理マシン)
標準ポリシー(N+1)
標準ポリシー(仮想マシンサーバ)
標準ポリシー(仮想マシンサーバ 予兆)
標準ポリシー(仮想マシンサーバ 省電力)
標準ポリシー(仮想マシンサーバ Hyper-V)
標準ポリシー(仮想マシンサーバ Hyper-V 予兆)
標準ポリシー(仮想マシンサーバ Hyper-V 省電力)
標準ポリシー(仮想マシンサーバ スタンドアロン ESXi)
vSAN予兆障害用ポリシー
本標準ポリシーのみ、上述の「標準ポリシー(仮想マシンサーバ 予兆)」と「標準ポリシー(仮想マシンサーバ 省電力)」との組み合わせで使用します。「2.4.1. 管理対象の種類別の利用可能な監視機能について」の「(2)仮想マシンサーバ」や「2.8.4. vSAN環境の監視」を参照してください。
標準ポリシー(N+1)、標準ポリシー(仮想マシンサーバ 予兆)、標準ポリシー(仮想マシンサーバ Hyper-V 予兆)、標準ポリシー(仮想マシンサーバ スタンドアロン ESXi)では、ハードウェア監視イベントは主にハードウェア障害の復旧処理を起動するための契機として利用され、イベントに対して各環境用の復旧処理が設定されています。
標準ポリシー(仮想マシンサーバ)、標準ポリシー(仮想マシンサーバ 省電力)、 標準ポリシー(仮想マシンサーバ Hyper-V)、標準ポリシー(仮想マシンサーバ Hyper-V 省電力)では、ハードウェア監視のイベントのポリシー規則は無効に設定されていますが、前述の標準ポリシーと同様の設定が行われているため、ポリシー規則を有効にすることで、前述の標準ポリシーと同じように利用することが可能です。
標準ポリシー(物理マシン)は、主にイベントの記録・通報が目的のため、ハードウェア監視のイベントのポリシー規則についても、具体的な復旧アクションは設定されず通報、ステータス設定のみが行われています。
下記の予兆系イベントは、稼動中のOSに影響が未だ出ていない障害(温度の異常上昇、電圧低下など)をセンサー情報を元にしたイベントやセンサー状態を確認することで、OSが異常停止する前に可能な限り安全に停止したり、仮想マシンを退避したりする事ができるように想定されたものです。
予兆イベントを契機としたポリシーアクションは、BMC経由でのセンサー診断でハードウェアの状態を再度チェックした後、仮想マシンのMigrationによる自動事前退避やN+1リカバリなどの復旧処理が設定されています。仮想環境の場合、仮想マシンのMigrationが利用できるように、ESMPRO/ServerAgentの障害時自動シャットダウンの設定を無効にしておく必要があります。「4.8.2. HW障害予兆発生時のVM退避」を参照してください。標準ポリシー(N+1)ではセンサー診断のアクションが設定されていないので、必要に応じて設定してください。
HW予兆:ファン/冷却装置異常
HW予兆:電圧異常
HW予兆:電源装置異常
HW予兆:冷却水漏れ
HW予兆:筺体温度異常
下記の復旧不能イベントは上記の予兆のイベントが発生している状態からさらに深刻な状態になっている場合に発生します。一部ハードウェアでは、下記の復旧不能イベント発生時に自動的にシャットダウンや強制OFFの処理が行われる場合があります。このような自動処理が行われるかどうかについては、ハードウェアの問い合わせ窓口に問い合わせてください。
復旧不能イベントを契機としたポリシーアクションは、N+1リカバリや別仮想マシンサーバへの仮想マシンのFailoverによる復旧処理などが設定されています。
ファン/冷却装置異常(復旧不能)
電圧異常(復旧不能)
筺体温度異常(復旧不能)
その他の深刻な障害のイベントについてもハードウェア監視により取得できますが、このようなケースでは障害が判明した時点で既にマシンが異常な状態となっておりイベントを正しく送信できない状態になっている場合が多いです。そのため、イベントの送信がマシンが復旧した後に行われるなど、障害復旧の契機としては利用できないものがほとんどです。また、障害によりマシンがダウンした場合は、死活監視により障害を検出することができます。
以上を考慮し、各標準ポリシーでは上記以外のハードウェア障害イベントに対しては、ポリシー規則として定義されていないか、定義されている場合でもメール通報やステータス変更のアクションのみが設定されています。
ただし、以下のイベントについては、障害発生時にイベントが発生する可能性があるため、N+1リカバリや別仮想マシンサーバへの仮想マシンのFailoverによる復旧処理などが設定されています。
CPU温度異常
ハードウェア監視で検出されるイベントの詳細について、各標準ポリシーのポリシー規則別に、次の表で説明します。
数値で閾値監視するセンサーに関して、SigmaSystemCenterのWebコンソールで確認可能な項目については、閾値監視の詳細についても説明します。センサーの情報は、Webコンソールの[リソース]ビュー上でマシンを選択し、[IPMI情報]→[センサー]タブで確認することが可能です。閾値が"---"と表示されている場合、そのマシンでは閾値は管理されていません。
イベントの発生可否や詳細な発生条件は、ハードウェアによって異なります。詳細については、ハードウェアの問い合わせ窓口に問い合わせてください。
分類 | 各標準ポリシーのポリシー規則 | 説明 |
---|---|---|
CPU | CPU障害 | CPUに何らかの異常が検出された時、あるいは、異常状態から回復した時に検出されるイベントです。
|
CPU縮退障害 | ||
CPU温度異常 | ||
CPU温度回復 | ||
メモリ | メモリ障害 | メモリに何らかの異常が検出された時、あるいは、異常状態から回復した時に検出されるイベントです。
|
メモリ縮退障害 | ||
メモリ障害回復 | ||
ファン/冷却装置 | ファン/冷却装置異常(復旧不能) | ファン/冷却装置に何らかの異常が検出された時、あるいは、異常状態から回復した時に検出されるイベントです。
|
HW予兆:ファン/冷却装置異常 | ||
HW予兆:ファン/冷却装置異常回復 | ||
HW予兆:ファン/冷却装置正常回復 | ||
電圧 | 電圧異常(復旧不能) | 電圧の状態に何らかの異常が検出された時、あるいは、異常状態から回復した時に検出されるイベントです。
|
HW予兆:電圧異常 | ||
HW予兆:電圧異常回復 | ||
HW予兆:電圧正常回復 | ||
電源装置 | HW予兆:電源装置異常 | 電源装置の異常が検出された時に検出されるイベントです。 |
冷却水 | HW予兆:冷却水漏れ | 冷却水の異常が検出された時に検出されるイベントです。 |
筐体温度 | 筺体温度異常(復旧不能) | 筐体温度の異常が検出された時、、あるいは、異常状態から回復した時に検出されるイベントです。
|
HW予兆:筺体温度異常 | ||
HW予兆:筺体温度異常回復 | ||
HW予兆:筐体温度正常回復 |