NEC


8.4.2. 物理サーバ用ポリシーの確認と適用

仮想マシンの次は、物理サーバであるESXi用のポリシーを物理サーバのグループ([Datacenter]グループ)に適用します。

(1)物理サーバ用のポリシーの確認

仮想マシン用と同様に、ポリシーを適用する前にどのようなルールが定義されているのかを確認します。[管理]ビューを開いたらツリービューにある[ポリシー]をクリックし、[ポリシー一覧]を表示させます。

物理サーバであるESXi用のポリシーは、[構築ガイド用のポリシー(仮想マシンサーバ VMware)]です。[構築ガイド用のポリシー(仮想マシンサーバ VMware)]の[プロパティ]アイコンをクリックして「ポリシープロパティ設定」画面を開き、[ポリシー規則]タブをクリックします。

[ポリシー規則一覧]の枠の[状態]が[有効]になっているイベントに注目します。

このポリシーでは、大まかに次の考えに基づいた設定がデフォルトとなっています。

  • イベント発生時点、ESXiが機能停止している可能性が高い障害

    対処として、故障マーク設定、通報、イベントログ出力を行った上で、ESXiが停止していない可能性もあるため、ESXiと仮想マシンをシャットダウン(できない場合は強制停止)します。その後、別のESXiで仮想マシンの再起動(Failover)を行います。

    「VMSアクセス不可」、「ファン/冷却装置異常(復旧不能)」、「電圧異常(復旧不能)」、「筺体温度異常(復旧不能)」が該当します。

  • イベント発生時点、ESXiが機能停止している障害

    対処として、故障マーク設定、通報、イベントログ出力を行った上で、他のESXiへ仮想マシンを移動し、再起動(Failover)を行います。

    「CPU温度異常」が該当します。

  • イベント発生時点、ESXiは稼動しているが、その後、致命的な障害に陥る可能性がある障害

    対処として、故障マーク設定、通報、イベントログ出力を行った上で、他のESXiへ仮想マシンの移動を行います。まず、移動(Migration(vMotion))により仮想マシンを稼動させたままの移動を試し、移動(Migration)できない場合には続けて再起動(Failover)を試します。

    その後、障害イベントが発生したESXiを停止させます。

    「予兆:○○」が該当します。

  • イベント発生時点、ストレージに異常がある場合

    対処として、故障マーク設定、通報、イベントログ出力を行った上で、他のESXiへ仮想マシンの移動を行います。まず、移動(Migration(vMotion))により仮想マシンを稼動させたままの移動を試し、移動(Migration)できない場合には、ESXiと仮想マシンをシャットダウン(できない場合は強制停止)し、仮想マシンの再起動(Failover)を行います。

    「ハードディスク障害」が該当します。

  • イベント発生時点、ストレージパスの冗長性について低下・喪失がある場合

    対処として、故障マーク設定、通報、イベントログ出力のみ行います。障害箇所によっては複数経路でイベントが発生し、状況が複雑になる可能性があります。そのため、単純に仮想マシンを移動する対処では、有効な対処を実行できない可能性が考えられます。また、前述の「予兆:○○」のイベントとは異なり、冗長性の低下・喪失が直ちに全パス障害としてストレージパスの接続障害につながる可能性が低いことが考えられます。これらを考慮して、ストレージパスの冗長性の障害については通知の対処のみとします。

    「ストレージパス冗長性喪失」、「ストレージパス冗長性低下」が該当します。

    ヒント:

    環境によっては、対処を実施した方がよい場合もあります。必要に応じて以下の設定を行ってください。FCスイッチがなく、ストレージとマシンが直結している環境のような場合は、前述のような懸念がないため、対処を実施しておくことで有効な場合が考えられます。

    「ストレージパス冗長性喪失」、「ストレージパス冗長性低下」の「ポリシー規則設定(編集)」画面にて、[イベントに対するアクション]に[VMS操作/稼動中のVMを移動(Migration, Failover)]のアクションを追加してください。

  • イベント発生時点、ハードウェア自身の機能により縮退動作している場合

    対処として、故障マークを設定、通報、イベントログ出力を行います。

    「CPU障害」、「メモリ縮退障害」が該当します。

  • イベント発生時点、経過を観察する判断になる障害、効果的な対応処置がない障害

    対処として、故障マークを設定、通報、イベントログ出力を行います。

    「メモリ障害」が該当します。

  • ESXiの負荷が設定した閾値を上回った(下回った)場合

    対処として、通報、イベントログ出力を行います。

    「CPU使用率(%)異常(回復)」、「メモリ空き容量割合(%)異常(回復)」が該当します。

注:

vCenter上でvSphere HAを利用する設定をしているESXiに対しては、SSCから、ESXiの停止/強制停止、仮想マシンの再起動(Failover)のアクションが動作しないようにしてください。障害発生時に双方の復旧処理が競合し、意図しない動作となる可能性があります。

上記のアクションを動作させないようにするためには、次のいずれかの方法があります。

  • [運用]ビューのグループのプロパティのポリシー設定で、ESXiの停止/強制停止、仮想マシンの再起動(Failover)のアクションを含むポリシーを設定しない。

  • ポリシー規則一覧で、ESXiの停止/強制停止、仮想マシンの再起動(Failover)のアクションを含むポリシー規則を無効に設定する。

  • ポリシー規則の設定のアクションの一覧から、ESXiの停止/強制停止、仮想マシンの再起動(Failover)が行われるアクションを削除する。

    また、仮想マシンの再起動(Failover)の失敗した後に仮想マシンの移動(Migration)を行うアクションを、仮想マシンの移動(Migration)のみを行うアクションに、以下のように変更する。

    • [VMS操作/ 稼働中のVMを移動(Migration, Failover)] → [VMS操作/ 稼働中のVMを移動(Migration)]

    • [VMS操作/ 全VMを移動(Migration, Failover)] → [VMS操作/ 全VMを移動(Migration)]

図  構築ガイド用のポリシー(仮想マシンサーバ VMware)の[ポリシー規則]タブ

(2)故障状態の物理サーバの制約と故障状態の解除

物理サーバ(ESXi)に障害が発生すると、先ほどのポリシーが動作して、故障マークが設定された物理サーバ(ESXi)は、下の図のように[ハードウェアステータス]に[故障]と表示されます。

図 障害発生後の物理サーバの詳細情報([リソース]ビュー)

故障状態になったESXiでは、仮想マシンを新たに起動できないようにSSCの動作が制限されます。故障状態になったESXiは、移動(Migration(vMotion))や再起動(Failover)による仮想マシンの移動先とすることもできません。

まず、ESXiで発生した障害を解消する必要がありますが、さらに、故障状態を解除して、ESXiを通常の運用で利用できるようにする必要があります。

SSCで故障状態を解除するためには、次の操作を行います。

  1. 画面右上の[リソース]をクリックします。

  2. [リソース]ビューが表示されたら、ツリービューで、故障マークがついているESXiをクリックします。

  3. ESXiの詳細画面が表示されたら、中央の[マシンステータス情報]の枠の[ハードウェアステータス]の[(状態詳細)]をクリックします。

  4. 状態詳細画面が表示されたら、[状態一覧]の枠の[状態]が[正常]以外のステータス名のチェックボックスをチェックし、右上の[リセット(正常)]をクリックします。

  5. 再び、ツリービューで、故障マークがついているESXiをクリックします。

  6. 左側の[操作]メニューの[故障状態の解除]をクリックします。

SSCでは自動的に故障状態を解除するポリシーを設定することもできますが、管理者がESXiに問題ないことを実際に確認した上で、手動で故障状態を解除することをお勧めします。

(3)物理サーバ用のポリシーの適用

次に、仮想マシンと同様に[運用]ビューの「グループプロパティ設定」画面でポリシーの適用作業を行います。

[esxi1]、[esxi2]にポリシーを適用するために、[Datacenter]グループに[構築ガイド用のポリシー(仮想マシンサーバ VMware)]を適用することにします。手順は以下のとおりです。

  1. 画面右上の[運用]をクリックします。

  2. ツリービューで対象グループ(ここでは[Datacenter])をクリックします。

  3. [設定]メニューの[プロパティ]をクリックします。

  4. [全般]タブをクリックします。

  5. [ポリシー名#1]のドロップダウンリストで適用するポリシー(ここでは[構築ガイド用のポリシー(仮想マシンサーバ VMware)])を選択します。

  6. [適用]をクリック後、[戻る]をクリックします。

図 物理サーバへのポリシー適用