SigmaSystemCenterの診断機能により、マシンアクセス不可能障害のイベント発生後に、障害環境の詳細な診断を行うことができます。診断機能のポリシーアクションを、復旧処理のアクションの前に実行されるように設定することで、復旧処理実行が必要な状況のみ復旧処理が実行されるようにすることができます。
診断機能のポリシーアクションである"マシン診断・強制OFF" アクションは、障害発生マシンが正常状態であると判断した場合やグループ全体に障害の影響が波及しているため、復旧処理を実施できないと判断した場合、異常終了します。
復旧処理が成功する可能性があると判断した場合は、管理対象マシンに対して、電源操作(シャットダウン・強制停止)(センサー診断で異常を見つけたときは実施されない(後述参照))を行い、正常終了します。
診断結果が異常終了のときは復旧処理が実行されないように、"マシン診断・強制OFF" アクション後の復旧アクションの実行条件は、必ず "Success" を設定してください。
ESXiの場合、[管理] ビューから[環境設定] アイコン- [仮想リソース] タブのroot パスワード、または[管理] ビューから[サブシステム] アイコン- [サブシステム編集] でESXiのroot パスワードを設定することが必要です。設定していない場合、OS への接続確認が失敗します。
設定方法については、「SigmaSystemCenter コンフィグレーションガイド」の「2.4.7. 仮想リソースの情報を設定するには」を参照してください。
診断機能は管理対象マシンが仮想マシンサーバ(VMware) の場合のみ利用できます。仮想マシンサーバ(VMware) 以外の管理対象マシンに対して、"マシン診断・強制OFF" アクションを実行した場合、診断は実行されず、"シャットダウン" か"強制OFF" が実行されます。ポリシーアクションの詳細については、「SigmaSystemCenter リファレンスガイド データ編」の「1.3.21. マシン操作 / マシン診断・強制OFF」を参照してください。
診断機能は、以下の確認を行います。
障害が発生したマシンを管理するVMware のvCenter Server への接続可否
障害が発生したマシンが所属するグループにおいて、ハードウェアステータスが"故障"になっている管理対象マシンの台数がInvestigateMaxFaultedCount台(既定値:2台)以上ないか。
管理対象マシンの(ホスト) OS に接続できるかどうか。
(障害が発生したマシン以外に、同一グループ下の別マシンについてもInvestigateMachineCount台(既定値:5台)まで確認します。)
管理対象マシンから使用中の共有ディスクへアクセスできるかどうか。
(障害が発生したマシン以外に、同一グループ下の別マシンについてもInvestigateMachineCount台(既定値:5台)まで確認します。)
上記までの確認が正常でセンサー診断が可能な場合、障害発生マシンのセンサー診断の結果が問題ないかどうか。
センサー診断で異常が見つかった場合は、障害発生マシンに異常があると判断しますが、電源操作(シャットダウン・強制OFF)は行われません。
上記のInvestigateMaxFaultedCountとInvestigateMachineCountの値は、以下のレジストリで変更することが可能です。
キー名 : HKEY_LOCAL_MACHINE\SOFTWARE\Wow6432Node\NEC\PVM\ActionSequence
レジストリキーや値がない場合は、既定値で動作します。
値名(型) : InvestigateMaxFaultedCount (REG_DWORD) (単位:台数) (既定値:2台)
"故障"になっている管理対象マシンの台数が、指定値の台数以上の場合に異常と判断します。たとえば、指定値が3の場合、故障マシンが3台の場合、異常と判断します。
値名(型) : InvestigateMachineCount (REG_DWORD) (単位:台数) (既定値:5台)
指定値は、同一グループ下の別マシンについて、OS接続、共有ディスクアクセスの確認を行う台数の上限となります。たとえば、指定値が6の場合、同一グループ下の障害が発生したマシン以外のマシンを6台まで確認を行います。
障害発生マシンを含む障害マシンが、確認台数の過半数を占める場合に多重障害と診断します。
確認台数が2台のとき、2台
確認台数が3台以上のとき、(確認台数+1)÷2台以上(小数点以下は切り捨て)
複数のマシン上で同時多発的に多重障害が発生しているとき復旧処理を続行すると、より状況が悪化するリスクがあると考えられるため、診断機能の既定の動作としては、ポリシーを途中で終了させるように動作します。
たとえば、既に複数の管理対象マシンで障害が起きている状況の場合、電源やストレージの障害など、複数の管理対象マシンに影響がでるような障害が発生している可能性が考えられます。
このような状況のとき、復旧処理が失敗する可能性が高く、また復旧処理を実行することで状況が複雑になり、状況把握がよりむずかしくなる可能性が考えられます。
なお、OS への接続確認、共有ディスクへのアクセス確認において、障害が発生したマシンの診断で問題があったとき、他マシンの診断を行いますが、下記の条件を満たす管理対象マシンのみを診断の対象とします。診断対象でない場合は、グループ台数のカウント対象にもなりません。
障害が発生したマシンと同一運用グループ下で管理されている
稼動ステータスが"On" である
メンテナンスステータスが"On" ではない
ポリシー状態が"全て有効" である
電源状態が"On"、または、"-" である
マシン診断・強制OFF アクションの詳細な異常終了の条件は、下記表のとおりです。
上記のInvestigateMaxFaultedCountとInvestigateMachineCountの指定値は、既定値の場合です。
障害が発生したマシンの種類 | 診断が異常終了する条件 (記載: 確認順) | 備考 |
---|---|---|
vCenter Server環境のESX / ESXi |
|
|
スタンドアロンESXi環境のESXi |
|
|