管理対象マシンのシステムディスクの監視については、通常、システムディスクの障害の影響で発生する管理対象マシンの障害を、ストレージパスの死活監視で検出する方法で行います。
VMware vCenter Serverを利用できる環境では、仮想マシンサーバとディスクアレイ間のパス障害のアラームを検出することが可能です。
以下のストレージパス監視用の標準ポリシーを使用して、パス障害のアラームに対する処理を行うポリシーを作成することができます。
vCSA ストレージパス障害用ポリシー
ストレージパス障害用ポリシー
vCenter Server Appliance(vCSA)を管理対象とする環境では、「vCSA ストレージパス障害用ポリシー」の方を使用してください。
基本的な標準ポリシーと組み合わせて利用してください。「2.4.1. 管理対象の種類別の利用可能な監視機能について」の「(2)仮想マシンサーバ」を参照してください。
パス障害のイベントの詳細は、以下のとおりです。イベントは、接続が失われた場合、冗長性が低下した場合、間欠障害が発生した場合の3種類があります。それぞれ対応方法が異なります。
種類 | イベント区分 | 通報元 | イベント | 説明 |
---|---|---|---|---|
ストレージパス接続切断 | ハードディスク障害 | VMwareProvider | Storage path connectivity on VMS is lost | 仮想マシンサーバからディスクアレイに接続できない状態になっています。 死活監視で検出する仮想マシンサーバの障害と同様に、マシン診断・強制OFF、およびFailoverのポリシーアクションを実行することで、仮想マシンを復旧できる可能性があります。 しかし、仮想マシンサーバからディスクアレイ間のパス障害のため、複数の仮想マシンサーバに影響がある障害の可能性があります。この場合は、移動先の仮想マシンサーバがない状況のため復旧できません。
標準ポリシー「ストレージパス障害用ポリシー」では、本種類のイベントに対応する「ストレージパス接続切断」のポリシー規則にて、以下の対処を実行するようになっています。
|
VMFS heartbeat on VMS is timedout | ||||
VMFS heartbeat on VMS is unrecoverable | ||||
Storage path is all down | ||||
ストレージパス冗長性低下/喪失 | その他 | VMwareProvider | Storage path redundancy on VMS is lost | 仮想マシンサーバとディスクアレイ間の接続の冗長性が、低下、あるいは喪失している場合に発生します。 本障害に対しては、ポリシーでは障害の通知のみとして、実際の対処作業は、障害状況を確認した上で手動で行うことを推奨します。
最終的に接続が切断する場合を想定して、別仮想マシンサーバへのMigrateにより、障害が発生した仮想マシンサーバから事前に退避しておく方法がありますが、仮想マシンサーバからディスクアレイ間のパス障害のため、複数の仮想マシンサーバで発生する可能性があります。この場合、Migrateにより、仮想マシンの配置が偏った状態になり、高負荷障害が発生するリスクがあります。 冗長性は、低下、あるいは喪失していますが、仮想マシンサーバは正常に動作している状態のため、上記リスクを避けて、ポリシーでは障害の通知のみの対処を推奨します。
標準ポリシー「ストレージパス障害用ポリシー」では、本種類のイベントに対応する「ストレージパス冗長性喪失」と「ストレージパス冗長性低下」のポリシー規則にて、以下の対処を実行するようになっています。
本種類のイベント発生時に、障害が発生した仮想マシンサーバから事前に仮想マシンを退避させる運用を行う必要がある場合は、「ストレージパス冗長性喪失」と「ストレージパス冗長性低下」の各ポリシー規則に「VMS操作/ 稼働中のVMを移動(Migration, Failover)」のポリシーアクションを3番目に追加してください。 |
Storage path redundancy on VMS is degraded | ||||
[NEC_SATP_SPS v1]LUN is not redundant | ||||
ストレージパス間欠障害 | その他 | VMwareProvider | [NEC_SATP_SPS v1]Path HBA cannot be failbacked automatically | 仮想マシンサーバとディスクアレイ間の接続が、一時的な切断状態から短時間で接続が回復した場合に発生します。 本障害に対しても、ポリシーでは障害の通知のみとして、実際の対処作業は、障害状況を確認した上で手動で行うことを推奨します。
間欠障害では、瞬時的に接続が切断しただけで、システムへ影響が出ないままの場合があります。影響がない状況でMigrateを行うと、行きすぎた対処になってしまいます。 一方で、最終的により重大な障害が発生する前兆として発生する可能性も考えられます。
さまざまな状況が考えられ判断がむずかしいため、ポリシーでは障害の通知のみとして、十分に障害状況を確認した上で、対処を実施することを推奨します。 |
イベントに"[NEC_SATP_SPS v1]"が含まれるものは、StoragePathSaviorで検出できるアラームです。
各アラームの詳細については、VMware、StoragePathSaviorの製品窓口まで問い合わせてください。