仮想マシンの次は、物理サーバであるESXi用のポリシーを、物理サーバのグループ([Datacenter]グループ)に適用します。
仮想マシン用と同様に、ポリシーを適用する前に、どのようなルールが定義されているのかを確認します。[管理]ビューを開いたらツリービューにある[ポリシー]をクリックし、[ポリシー一覧]を表示させます。
物理サーバであるESXi用のポリシーは、"構築ガイド用のポリシー(仮想マシンサーバ VMware)"です。
"構築ガイド用のポリシー(仮想マシンサーバ VMware)"の[プロパティ]アイコンをクリックして「ポリシープロパティ設定」画面を開き、[ポリシー規則]タブをクリックします。
このポリシーでは、大まかに次の考えに基づいた設定がデフォルトとなっています。
イベント発生時点、ESXiが機能停止している可能性が高い障害
「VMSアクセス不可」、「ファン/冷却装置異常(復旧不能)」、「電圧異常(復旧不能)」、「筺体温度異常(復旧不能)」が該当します。
対処として、故障マーク設定、通報、イベントログ出力を行います。
本障害の対処については、VMwareのvSphere HA機能により行われることを想定しています。ESXiが機能停止している場合、vSphere HA機能により、別のESXiで仮想マシンの再起動が行われます。
イベント発生時点、ESXiが機能停止している障害
「CPU温度異常」が該当します。
対処として、故障マーク設定、通報、イベントログ出力を行います。
本障害の対処については、vSphere HA機能により行われることを想定しています。ESXiが機能停止している場合、vSphere HA機能により、別のESXiで仮想マシンの再起動が行われます。
イベント発生時点、ESXiは稼動しているが、その後、致命的な障害に陥る可能性がある障害
「予兆:電圧異常」、「予兆:冷却水漏れ」、「予兆:筐体温度異常」が該当します。
対処として、故障マーク設定、通報、イベントログ出力を行った上で、他のESXiへ仮想マシンの移動を行います。
まず、移動(Migration(vMotion))により仮想マシンを稼動させたままの移動を試し、移動(Migration)できない場合には、続けて再起動(Failover)を試します。
その後、障害イベントが発生したESXiを停止させます。
装置の冗長化により、イベント発生後も致命的な障害に陥る可能性が低い障害
「予兆:ファン/冷却装置異常」、「予兆:電源装置異常」が該当します。
対処として、故障マーク設定、通報、イベントログ出力を行います。
装置が単体の場合、イベント発生後、致命的な障害に陥る可能性が考えられます。
一般的には装置が冗長化されていて致命的な障害に陥る可能性が低いため、仮想マシンの移動などの対処は行いません。
装置が冗長化されていない場合は、前述の「イベント発生時点、ESXiは稼動しているが、その後、致命的な障害に陥る可能性がある障害」のポリシー規則の設定を参考に、アクションを追加してください。
イベント発生時点、ストレージに異常がある場合
「ハードディスク障害」が該当します。
対処として、故障マーク設定、通報、イベントログ出力を行った上で、他のESXiへ仮想マシンの移動を行います。
まず、移動(Migration(vMotion))により仮想マシンを稼動させたままの移動を試し、移動(Migration)できない場合には、ESXiと仮想マシンをシャットダウンし(できない場合は強制停止)、仮想マシンの再起動(Failover)を行います。
イベント発生時点、ストレージパスの冗長性について低下・喪失がある場合
「ストレージパス冗長性喪失」、「ストレージパス冗長性低下」が該当します。
対処として、故障マーク設定、通報、イベントログ出力のみ行います。
障害箇所によっては、複数経路でイベントが発生し、状況が複雑になる可能性があります。そのため、単純に仮想マシンを移動する対処では、有効な対処を実行できない可能性が考えられます。
また、前述の「予兆:○○」のイベントとは異なり、冗長性の低下・喪失が、直ちに全パス障害としてストレージパスの接続障害につながる可能性が低いことが考えられます。これらを考慮して、ストレージパスの冗長性の障害については通知の対処のみとします。
環境によっては、対処を実施した方がよい場合もあります。必要に応じて、以下の設定を行ってください。FCスイッチがなくストレージとマシンが直結している環境のような場合は、前述のような懸念がないため、対処を実施しておくことで有効な場合が考えられます。
「ストレージパス冗長性喪失」、「ストレージパス冗長性低下」の「ポリシー規則設定(編集)」画面にて、[イベントに対するアクション]に[VMS操作/稼動中のVMを移動(Migration, Failover)]のアクションを追加してください。
イベント発生時点、ハードウェア自身の機能により縮退動作している場合
「CPU障害」、「メモリ縮退障害」が該当します。
対処として、故障マークを設定、通報、イベントログ出力を行います。
イベント発生時点、経過を観察する判断になる障害、効果的な対応処置がない障害
「メモリ障害」が該当します。
対処として、故障マークを設定、通報、イベントログ出力を行います。
ESXiの負荷が設定した閾値を上回った(下回った)場合
「CPU使用率(%)異常(回復)」、「メモリ空き容量割合(%)異常(回復)」が該当します。
対処として、通報、イベントログ出力を行います。
本書では、ESXiの停止を伴う障害時の対処は、VMwareのvSphere HA機能を利用する前提の設定となっています。
ESXiの停止を伴う障害時の対処をSSCを利用して行う場合は、「SigmaSystemCenter 3.9 簡易構築ガイド VMware編」を参照してください。
ESXiの停止を伴う障害時の対処をSSCを利用して行うためには、以下の条件を満たす必要があります。
SSCの管理サーバの仮想マシン、vCenter Server Appliance(vCSA)は、復旧対象のESXi上で動作していない。
また、SigmaSystemCenter 3.9 のポリシーファイルの入手方法については、お問合せください。
図 "構築ガイド用のポリシー(仮想マシンサーバ VMware)"の[ポリシー規則]タブ
物理サーバ(ESXi)に障害が発生すると、先ほどのポリシーが動作して、故障マークが設定された物理サーバ(ESXi)は、下の図のように[ハードウェアステータス]に"故障"と表示されます。
図 障害発生後の物理サーバの詳細情報([リソース]ビュー)
故障状態になったESXiでは、仮想マシンを新たに起動できないようにSSCの動作が制限されます。故障状態になったESXiは、移動(Migration(vMotion))や再起動(Failover)による仮想マシンの移動先とすることもできません。
まず、ESXiで発生した障害を解消する必要がありますが、さらに故障状態を解除して、ESXiを通常の運用で利用できるようにする必要があります。
SSCで故障状態を解除するためには、次の操作を行います。
画面右上の[リソース]をクリックします。
[リソース]ビューが表示されたら、ツリービューで故障マークがついているESXiをクリックします。
ESXiの詳細画面が表示されたら、中央の[マシンステータス情報]の[ハードウェアステータス]の[(状態詳細)]をクリックします。
状態詳細画面が表示されたら、[状態一覧]の[状態]が"正常"以外のステータス名のチェックボックスをチェックし、右上の[リセット(正常)]をクリックします。
再びツリービューで、故障マークがついているESXiをクリックします。
左側の[操作]メニューの[故障状態の解除]をクリックします。
SSCでは自動的に故障状態を解除するポリシーを設定することもできますが、管理者がESXiに問題ないことを実際に確認した上で、手動で故障状態を解除することをお勧めします。
次に、仮想マシンと同様に、[運用]ビューの「グループプロパティ設定」画面で、物理サーバにポリシーの適用作業を行います。
物理サーバ[esxi1]、[esxi2]にポリシーを適用するために、[Datacenter]グループに"構築ガイド用のポリシー(仮想マシンサーバ VMware)"を適用します。
手順は、以下のとおりです。
画面右上の[運用]をクリックします。
ツリービューで、対象グループ(ここでは[Datacenter])をクリックします。
[設定]メニューの[プロパティ]をクリックします。
[全般]タブをクリックします。
[ポリシー名#1]のドロップダウンリストで、適用するポリシー(ここでは"構築ガイド用のポリシー(仮想マシンサーバ VMware)")を選択します。
[適用]をクリック後、[戻る]をクリックします。
図 物理サーバへのポリシー適用