仮想マシンの次は、物理サーバであるESXi用のポリシーを用意します。物理サーバのグループ([新規データセンター]グループ)にも仮想マシン用ポリシーと同様に、先ほどインポートしたポリシーを適用します。
仮想マシン用と同様に、ポリシーを適用する前にどのようなルールが定義されているのかを確認します。[管理]ビューを開いたらツリービューにある[ポリシー]をクリックし、[ポリシー一覧]を表示させます。
物理サーバであるESXi用にインポートしたポリシーは、[仮想マシンサーバ用ポリシー(VMware)]です。[仮想マシンサーバ用ポリシー(VMware)]の[プロパティ]アイコンをクリックして「ポリシープロパティ設定」画面を開き[ポリシー規則]タブをクリックします。
[ポリシー規則一覧]の枠の[状態]が[有効]になっているイベントに注目します。
[仮想マシンサーバ用ポリシー(VMware)]では大まかに次の考えに基づいた設定がデフォルトとなっています。
イベント発生時点、ESXiが機能停止している可能性が高い障害
対処として、故障マーク設定、通報、イベントログ出力を行った上で、ESXiが停止していない可能性もあるため、ESXiとVMをシャットダウン(できない場合は強制停止)します。その後、別のESXiでVMの再起動(Failover)を行います。
「VMSアクセス不可」、「ファン/冷却装置異常(復旧不能)」、「電圧異常(復旧不能)」、「筺体温度異常(復旧不能)」が該当します。
イベント発生時点、ESXiが機能停止している障害
対処として、故障マーク設定、通報、イベントログ出力を行った上で、他のESXiへVMを移動し、再起動(Failover)を行います。
「CPU温度異常」が該当します。
イベント発生時点、ESXiは稼動しているが、その後、致命的な障害に陥る可能性がある障害
対処として、故障マーク設定、通報、イベントログ出力を行った上で、他のESXiへVMの移動を行います。まず、Migration(vMotion)によりVMを稼動させたままの移動を試し、Migrationできない場合には続けて再起動(Failover)を試します。
その後、障害イベントが発生したESXiを停止させます。
「予兆:○○」が該当します。
イベント発生時点、ストレージに異常がある場合
対処として、故障マーク設定、通報、イベントログ出力を行った上で、他のESXiへVMの移動を行います。まず、Migration(vMotion)によりVMを稼動させたままの移動を試し、Migrationできない場合には、ESXiとVMをシャットダウン(できない場合は強制停止)し、VMの再起動(Failover)を行います。
「ハードディスク障害」が該当します。
イベント発生時点、ストレージパスの冗長性について低下・喪失がある場合
対処として、故障マーク設定、通報、イベントログ出力のみ行います。障害箇所によっては複数経路でイベントが発生し、状況が複雑になる可能性があります。そのため、単純にVMを移動する対処では、有効な対処を実行できない可能性が考えられます。また、前述の「予兆:○○」のイベントとは異なり、冗長性の低下・喪失が直ちに全パス障害としてストレージパスの接続障害につながる可能性が低いことが考えられます。これらを考慮して、ストレージパスの冗長性の障害については通知の対処のみとします。
「ストレージパス冗長性喪失」、「ストレージパス冗長性低下」が該当します。
イベント発生時点、ハードウェア自身の機能により縮退動作している場合
対処として、故障マークを設定、通報、イベントログ出力を行います。
「CPU障害」、「メモリ縮退障害」が該当します。
イベント発生時点、経過を観察する判断になる障害、効果的な対応処置がない障害
対処として、故障マークを設定、通報、イベントログ出力を行います。
「メモリ障害」が該当します。
ESXiの負荷が設定した閾値を上回った(下回った)場合
対処として、通報、イベントログ出力を行います。
「CPU使用率(%)異常(回復)」、「メモリ空き容量割合(%)異常(回復)」が該当します。
vCenter上でvSphere HAを利用する設定をしているESXiに対しては、SSCから、ESXiの停止/強制停止、VMの再起動(Failover)のアクションが動作しないようにしてください。障害発生時に双方の復旧処理が競合し、意図しない動作となる可能性があります。
上記のアクションを動作させないようにするためには、次のいずれかの方法があります。
[運用]ビューのグループのプロパティのポリシー設定で、停止、ESXiの停止/強制停止、VMの再起動(Failover)のアクションを含むポリシーを設定しない。
ポリシー規則一覧でESXiの停止/強制停止、VMの再起動(Failover)のアクションを含むポリシー規則を無効に設定する。
ポリシー規則の設定のイベントに対するアクションからESXiの停止/強制停止、VMの再起動(Failover)のアクションを削除する。
また、ポリシー規則の設定のイベントに対するアクションにMigraionが失敗した場合、再起動(Failover)を行うアクションがある場合は、Migraionのみを行うアクションに変更する。
図 仮想マシンサーバ用ポリシー(VMware)の[ポリシー規則]タブ
物理サーバ(ESXi)に障害が発生すると、先ほどのポリシーが動作して、故障マークが設定された物理サーバ(ESXi)は、下の図のように[ハードウェアステータス]に[故障]と表示されます。
図 障害発生後の物理サーバの詳細情報([リソース]ビュー)
故障状態になったESXiでは、仮想マシンを新たに起動できないようにSSCの動作が制限されます。故障状態になったESXiは、Migration(vMotion)やFailoverによる仮想マシンの移動先とすることもできません。
まず、ESXiで発生した障害を解消する必要がありますが、さらに、故障状態を解除して、ESXiを通常の運用で利用できるようにする必要があります。
SSCで故障状態を解除するためには、次の操作を行います。
画面右上の[リソース]をクリック
[リソース]ビューが表示されたら、ツリービューで、故障マークがついているESXiをクリック
ESXiの詳細画面が表示されたら、中央の[マシンステータス情報]の枠の[ハードウェアステータス]の[(状態詳細)]をクリック
状態詳細画面が表示されたら、[状態一覧]の枠の[状態]が[正常]以外のステータス名のチェックボックスをチェックし、右上の[リセット(正常)]をクリック
再び、ツリービューで、故障マークがついているESXiをクリック
左側の[操作]メニューの[故障状態の解除]をクリック
SSCでは自動的に故障状態を解除するポリシーを設定することもできますが、管理者がESXiに問題ないことを実際に確認した上で、手動で故障状態を解除することをお勧めします。
次に、仮想マシンと同様に[運用]ビューの「グループプロパティ設定」画面でポリシーの適用作業を行います。
[172-16-10-1](esxi1)、[172-16-10-2](esxi2)にポリシーを適用するために、[新規データセンター]グループに先ほどインポートした[仮想マシンサーバ用ポリシー(VMware)]を適用することにします。手順は以下のとおりです。
画面右上の[運用]をクリック
ツリービューで対象グループ(ここでは[新規データセンター])をクリック
[設定]メニューの[プロパティ]をクリック
[全般]タブをクリック
[ポリシー名#1]のドロップダウンリストで適用するポリシー、ここでは[仮想マシンサーバ用ポリシー(VMware)]を選択
[適用]をクリック後、[戻る]をクリック
図 物理サーバへのポリシー適用