マシン診断は、マシンアクセス不可能障害のイベント発生後に、障害が発生したマシン環境の詳細な診断を行うことができます。
マシン診断のポリシーアクションである "マシン診断・強制OFF" アクションは、障害発生マシンが正常状態であると判断した場合や、グループ全体に障害の影響が波及しているため復旧処理を実施できないと判断した場合、異常終了します。
復旧処理が成功する可能性があると判断した場合は、管理対象マシンに対して、電源操作 (シャットダウン・強制停止) を行い、正常終了します。
(電源操作は、センサー診断で異常が見つかった場合は実施されません (⑤ 参照)。)
マシン診断のポリシーアクション "マシン診断・強制OFF" を復旧処理のアクションの前に実行されるように設定することで、復旧処理実行が必要な状況のみ復旧処理が実行されるようにすることができます。
診断結果が異常終了のときは復旧処理が実行されないように設定する場合は、"マシン診断・強制OFF" アクション後の復旧処理アクションの実行条件を、必ず "Success" に設定してください。
ESXiの場合、rootパスワード、またはESXiのrootパスワードを設定することが必要です。
設定していない場合、OSへの接続確認が失敗します。
rootパスワード : [管理] ビューから[環境設定] アイコン- [仮想リソース] タブ
ESXiのrootパスワード : [管理] ビューから[サブシステム] アイコン- [サブシステム編集]
設定方法については、「SigmaSystemCenter コンフィグレーションガイド」の「2.4.7. 仮想リソースの情報を設定するには」を参照してください。
マシン診断は、以下の確認を行います。
① 障害が発生したマシンを管理する仮想マシン基盤への接続可否
② 障害が発生したマシンが所属するグループにおいて、ハードウェアステータスが"故障"になっている管理対象マシンの台数が、InvestigateMaxFaultedCount台 (既定値:2台) 以上ないか
③ 管理対象マシンの(ホスト) OS に接続できるかどうか
(障害が発生したマシン以外に、同一グループ下の別マシンについてもInvestigateMachineCount台(既定値:5台)まで確認します。)
④ 管理対象マシンから使用中の共有ディスクへアクセスできるかどうか
(障害が発生したマシン以外に、同一グループ下の別マシンについてもInvestigateMachineCount台(既定値:5台)まで確認します。)
⑤ 上記までの確認が "正常" でセンサー診断が可能な場合、障害発生マシンのセンサー診断の結果に問題がないかどうか
センサー診断で異常が見つかった場合は、障害発生マシンに異常があると判断しますが、電源操作(シャットダウン・強制OFF)は行われません。
センサー診断については、「2.9.2. センサー診断」を参照してください。
上記のInvestigateMaxFaultedCountとInvestigateMachineCountの値は、以下のレジストリで変更することが可能です。
キー名 : HKEY_LOCAL_MACHINE\SOFTWARE\Wow6432Node\NEC\PVM\ActionSequence
レジストリキーや値がない場合は、既定値で動作します。
値名(型) : InvestigateMaxFaultedCount (REG_DWORD) (単位:台数) (既定値:2台)
"故障"になっている管理対象マシンの台数が指定値の台数以上の場合に、異常と判断します。たとえば、指定値が "3"、故障マシンが "3台" の場合、異常と判断します。
値名(型) : InvestigateMachineCount (REG_DWORD) (単位:台数) (既定値:5台)
指定値は、同一グループ下の別マシンについて、③OSへの接続確認、④共有ディスクへのアクセス確認を行う台数の上限となります。たとえば、指定値が"6" の場合、同一グループ下の障害が発生したマシン以外のマシンを6台まで確認を行います。
障害発生マシンを含む障害マシンが確認台数の過半数を占める場合に、多重障害と診断します。
確認台数が2台のとき、2台
確認台数が3台以上のとき、(確認台数+1)÷2台以上(小数点以下は切り捨て)
複数のマシン上で同時多発的に多重障害が発生しているときに復旧処理を続行すると、より状況が悪化するリスクがあると考えられるため、診断機能の既定の動作としては、ポリシーを途中で終了させるように動作します。
たとえば、既に複数の管理対象マシンで障害が起きている状況の場合、電源やストレージの障害など、複数の管理対象マシンに影響が出るような障害が発生している可能性が考えられます。
このような状況のとき、復旧処理が失敗する可能性が高く、また復旧処理を実行することで状況が複雑になり、状況把握がより難しくなる可能性が考えられます。
なお、③OSへの接続確認、④共有ディスクへのアクセス確認において、障害が発生したマシンの診断で問題があったとき、他マシンの診断を行います。
下記の条件を満たす管理対象マシンのみを、診断の対象とします。診断対象でない場合は、グループ台数のカウント対象にもなりません。
障害が発生したマシンと同一運用グループ下で管理されている
稼動ステータスが"On" である
メンテナンスステータスが"On" ではない
ポリシー状態が"全て有効" である
電源状態が"On"、または、"-" である
"マシン診断・強制OFF" アクションの詳細な異常終了の条件は、下記表のとおりです。
上記のInvestigateMaxFaultedCountとInvestigateMachineCountの指定値は、既定値の場合です。
障害が発生したマシンの種類 | 診断が異常終了する条件 (記載: 確認順) | 備考 |
|---|---|---|
vCenter Server環境のESX / ESXi , またはHyper-Vクラスタ |
|
|
スタンドアロンESXi環境 , またはHyper-V単体環境のESXi |
|
|