仮想マシンの次は、物理サーバであるESXi用のポリシーを用意します。物理サーバのグループ([Datacenter]グループ)にも仮想マシン用ポリシーと同様に、先ほどインポートしたポリシーを適用します。
仮想マシン用と同様に、ポリシーを適用する前にどのようなルールが定義されているのかを確認します。[管理]ビューを開いたらツリービューにある[ポリシー]をクリックし、[ポリシー一覧]を表示させます。
物理サーバであるESXi用にインポートしたポリシーは、[仮想マシンサーバ用ポリシー(VMware)]です。[仮想マシンサーバ用ポリシー(VMware)]の[プロパティ]アイコンをクリックして「ポリシープロパティ設定」画面を開き[ポリシー規則]タブをクリックします。
[ポリシー規則一覧]の枠の[状態]が[有効]になっているイベントに注目します。
[仮想マシンサーバ用ポリシー(VMware)]では大まかに次の考えに基づいた設定がデフォルトとなっています。
イベント発生時点、ESXiが機能停止している可能性が高い障害
対処として、故障マーク設定、通報、イベントログ出力を行った上で、ESXiが停止していない可能性もあるため、ESXiと仮想マシンをシャットダウン(できない場合は強制停止)します。その後、別のESXiで仮想マシンの再起動(Failover)を行います。
「VMSアクセス不可」、「ファン/冷却装置異常(復旧不能)」、「電圧異常(復旧不能)」、「筺体温度異常(復旧不能)」が該当します。
イベント発生時点、ESXiが機能停止している障害
対処として、故障マーク設定、通報、イベントログ出力を行った上で、他のESXiへ仮想マシンを移動し、再起動(Failover)を行います。
「CPU温度異常」が該当します。
イベント発生時点、ESXiは稼動しているが、その後、致命的な障害に陥る可能性がある障害
対処として、故障マーク設定、通報、イベントログ出力を行った上で、他のESXiへ仮想マシンの移動を行います。まず、移動(Migration(vMotion))により仮想マシンを稼動させたままの移動を試し、移動(Migration)できない場合には続けて再起動(Failover)を試します。
その後、障害イベントが発生したESXiを停止させます。
「予兆:○○」が該当します。
イベント発生時点、ストレージに異常がある場合
対処として、故障マーク設定、通報、イベントログ出力を行った上で、他のESXiへ仮想マシンの移動を行います。まず、移動(Migration(vMotion))により仮想マシンを稼動させたままの移動を試し、移動(Migration)できない場合には、ESXiと仮想マシンをシャットダウン(できない場合は強制停止)し、仮想マシンの再起動(Failover)を行います。
「ハードディスク障害」が該当します。
イベント発生時点、ストレージパスの冗長性について低下・喪失がある場合
対処として、故障マーク設定、通報、イベントログ出力のみ行います。障害箇所によっては複数経路でイベントが発生し、状況が複雑になる可能性があります。そのため、単純に仮想マシンを移動する対処では、有効な対処を実行できない可能性が考えられます。また、前述の「予兆:○○」のイベントとは異なり、冗長性の低下・喪失が直ちに全パス障害としてストレージパスの接続障害につながる可能性が低いことが考えられます。これらを考慮して、ストレージパスの冗長性の障害については通知の対処のみとします。
「ストレージパス冗長性喪失」、「ストレージパス冗長性低下」が該当します。
環境によっては、対処を実施した方がよい場合もあります。必要に応じて以下の設定を行ってください。FCスイッチがなく、ストレージとマシンが直結している環境のような場合は、前述のような懸念がないため、対処を実施しておくことで有効な場合が考えられます。
「ストレージパス冗長性喪失」、「ストレージパス冗長性低下」の「ポリシー規則設定(編集)」画面にて、[イベントに対するアクション]に[VMS操作/稼動中のVMを移動(Migration, Failover)]のアクションを追加してください。
イベント発生時点、ハードウェア自身の機能により縮退動作している場合
対処として、故障マークを設定、通報、イベントログ出力を行います。
「CPU障害」、「メモリ縮退障害」が該当します。
イベント発生時点、経過を観察する判断になる障害、効果的な対応処置がない障害
対処として、故障マークを設定、通報、イベントログ出力を行います。
「メモリ障害」が該当します。
ESXiの負荷が設定した閾値を上回った(下回った)場合
対処として、通報、イベントログ出力を行います。
「CPU使用率(%)異常(回復)」、「メモリ空き容量割合(%)異常(回復)」が該当します。
vCenter上でvSphere HAを利用する設定をしているESXiに対しては、SSCから、ESXiの停止/強制停止、仮想マシンの再起動(Failover)のアクションが動作しないようにしてください。障害発生時に双方の復旧処理が競合し、意図しない動作となる可能性があります。
上記のアクションを動作させないようにするためには、次のいずれかの方法があります。
[運用]ビューのグループのプロパティのポリシー設定で、ESXiの停止/強制停止、仮想マシンの再起動(Failover)のアクションを含むポリシーを設定しない。
ポリシー規則一覧で、ESXiの停止/強制停止、仮想マシンの再起動(Failover)のアクションを含むポリシー規則を無効に設定する。
ポリシー規則の設定のアクションの一覧から、ESXiの停止/強制停止、仮想マシンの再起動(Failover)が行われるアクションを削除する。
また、仮想マシンの再起動(Failover)の失敗した後に仮想マシンの移動(Migration)を行うアクションを、仮想マシンの移動(Migration)のみを行うアクションに、以下のように変更する。
[VMS操作/ 稼働中のVMを移動(Migration, Failover)] → [VMS操作/ 稼働中のVMを移動(Migration)]
[VMS操作/ 全VMを移動(Migration, Failover)] → [VMS操作/ 全VMを移動(Migration)]
図 仮想マシンサーバ用ポリシー(VMware)の[ポリシー規則]タブ
物理サーバ(ESXi)に障害が発生すると、先ほどのポリシーが動作して、故障マークが設定された物理サーバ(ESXi)は、下の図のように[ハードウェアステータス]に[故障]と表示されます。
図 障害発生後の物理サーバの詳細情報([リソース]ビュー)
故障状態になったESXiでは、仮想マシンを新たに起動できないようにSSCの動作が制限されます。故障状態になったESXiは、移動(Migration(vMotion))や再起動(Failover)による仮想マシンの移動先とすることもできません。
まず、ESXiで発生した障害を解消する必要がありますが、さらに、故障状態を解除して、ESXiを通常の運用で利用できるようにする必要があります。
SSCで故障状態を解除するためには、次の操作を行います。
画面右上の[リソース]をクリックします。
[リソース]ビューが表示されたら、ツリービューで、故障マークがついているESXiをクリックします。
ESXiの詳細画面が表示されたら、中央の[マシンステータス情報]の枠の[ハードウェアステータス]の[(状態詳細)]をクリックします。
状態詳細画面が表示されたら、[状態一覧]の枠の[状態]が[正常]以外のステータス名のチェックボックスをチェックし、右上の[リセット(正常)]をクリックします。
再び、ツリービューで、故障マークがついているESXiをクリックします。
左側の[操作]メニューの[故障状態の解除]をクリックします。
SSCでは自動的に故障状態を解除するポリシーを設定することもできますが、管理者がESXiに問題ないことを実際に確認した上で、手動で故障状態を解除することをお勧めします。
次に、仮想マシンと同様に[運用]ビューの「グループプロパティ設定」画面でポリシーの適用作業を行います。
[esxi1]、[esxi2]にポリシーを適用するために、[Datacenter]グループに先ほどインポートした[仮想マシンサーバ用ポリシー(VMware)]を適用することにします。手順は以下のとおりです。
画面右上の[運用]をクリックします。
ツリービューで対象グループ(ここでは[Datacenter])をクリックします。
[設定]メニューの[プロパティ]をクリックします。
[全般]タブをクリックします。
[ポリシー名#1]のドロップダウンリストで適用するポリシー、ここでは[仮想マシンサーバ用ポリシー(VMware)]を選択します。
[適用]をクリック後、[戻る]をクリックします。
図 物理サーバへのポリシー適用