4. 监视资源的详细信息

本章将对EXPRESSCLUSTER 中执行监视操作的单位,即监视资源进行具体说明。

4.1. 何谓监视资源?

监视资源是指对指定监视对象进行监视的资源。发现监视对象出现异常时,重启组资源或进行失效切换。

支持以下监视资源。

监视资源名

略称

功能概况

应用程序监视

appliw

请参考"理解应用程序监视资源"

磁盘RW监视

diskw

请参考"理解磁盘RW监视资源"

浮动IP监视

fipw

请参考"理解浮动IP监视资源"

IP监视

ipw

请参考"理解IP监视资源"

镜像磁盘监视

mdw

请参考"理解镜像磁盘监视资源"

NIC Link Up/Down监视

miiw

请参考"理解NIC Link Up/Down监视资源"

多目标监视

mtw

请参考"理解多目标监视资源"

注册表同步监视

regsyncw

请参考"理解注册表同步监视资源"

磁盘TUR监视

sdw

请参考"理解磁盘TUR监视资源"

服务监视

servicew

请参考"理解服务监视资源"

虚拟计算机名监视

vcomw

请参考"理解虚拟计算机名监视资源"

动态DNS监视

ddnsw

请参考"理解动态DNS监视资源"

虚拟IP监视

vipw

请参考"理解虚拟IP监视资源"

CIFS监视

cifsw

请参考"理解CIFS监视资源"

共享型镜像磁盘监视

hdw

请参考"理解共享型镜像磁盘监视资源"

共享型镜像磁盘TUR监视

hdtw

请参考"理解共享型镜像磁盘TUR监视资源"

自定义监视

genw

请参考"理解自定义监视资源"

消息接收监视

mrw

请参考"理解消息接收监视资源"

进程名监视

psw

请参考"理解进程名监视资源"

DB2监视

db2w

请参考"理解DB2监视资源"

FTP监视

ftpw

请参考"理解FTP监视资源"

HTTP监视

httpw

请参考"理解HTTP监视资源"

IMAP4监视

imap4w

请参考"理解IMAP4监视资源"

ODBC监视

odbcw

请参考"理解ODBC监视资源"

Oracle监视

oraclew

请参考"理解Oracle监视资源"

POP3监视

pop3w

请参考"理解POP3监视资源"

PostgreSQL监视

psqlw

请参考"理解PostgreSQL监视资源"

SMTP监视

smtpw

请参考"理解SMTP监视资源"

SQL Server监视

sqlserverw

请参考"理解SQL Server监视资源"

Tuxedo监视

tuxw

请参考"理解Tuxedo监视资源"

WebSphere监视

wasw

请参考"理解WebSphere监视资源"

WebLogic监视

wlsw

请参考"理解WebLogic监视资源"

WebOTX监视

otxw

请参考"理解WebOTX监视资源"

JVM监视

jraw

请参考"理解JVM监视资源"

系统监视

sraw

请参考"理解系统监视资源"

进程资源监视

psrw

请参考"理解进程资源监视资源"

用户空间监视

userw

请参考"理解用户空间监视资源"

AWS Elastic IP监视

awseipw

请参考"理解AWS Elastic IP监视资源"

AWS虚拟IP监视

awsvipw

请参考"理解AWS 虚拟IP监视资源"

AWS辅助IP监视

awssipw

请参考"理解AWS 辅助IP监视资源"

AWS AZ监视

awsazw

请参考"理解AWS AZ监视资源"

AWS DNS监视

awsdnsw

请参考"理解AWS DNS 监视资源"

Azure 探头端口监视

azureppw

请参考"理解Azure探头端口监视资源 "

Azure负载均衡监视

azurelbw

请参考"理解Azure 负载均衡监视资源"

Azure DNS监视

azurednsw

请参考"理解Azure DNS 监视资源"

Google Cloud 虚拟 IP 监视

gcvipw

请参考"理解Google Cloud 虚拟 IP 监视资源"

Google Cloud 负载均衡监视

gclbw

请参考"理解Google Cloud 负载均衡监视资源"

Google Cloud DNS 监视

gcdnsw

请参考"理解Google Cloud DNS监视资源"

Oracle Cloud 虚拟 IP 监视

ocvipw

请参考"理解Oracle Cloud 虚拟 IP 监视资源"

Oracle Cloud 负载均衡监视

oclbw

请参考"理解Oracle Cloud 负载均衡监视资源"

4.1.1. 监视资源的监视时机

通过监视资源进行监视,分为常时监视和启动时监视2种类型。

因监视资源不同可以设置的监视时机也不同。

  1. 不间断监视
    监视资源不间断进行监视。
  2. 启动时监视
    在指定的组资源处于启动状态期间进行监视。在组资源处于停止状态时不进行监视。
  1. Cluster startup: 集群启动

  2. Group activation: 组启动

  3. Group deactivation: 组停止

  4. Stop cluster: 集群停止

从集群启动到集群停止,不间断监视的区间和启动时监视的区间

图 4.1 监视资源的不间断监视和启动时监视

各监视资源的监视时机初始设置如下。

常时监视(集群启动时~集群停止时)

  • IP监视资源

  • 镜像磁盘监视资源

  • 共享型镜像磁盘监视资源

  • 共享型镜像磁盘TUR监视资源

  • NIC Link Up/Down监视资源

  • 磁盘TUR监视资源

  • 自定义监视资源

  • 消息接收监视资源

  • 进程名监视资源

  • 系统监视资源

  • 进程资源监视资源

  • 用户空间监视资源

  • AWS AZ监视资源

  • Azure负载均衡监视资源

  • Google Cloud 负载均衡监视资源

  • Oracle Cloud 负载均衡监视资源

启动时监视(组启动时~组停止时)

  • 应用程序监视资源

  • 磁盘RW监视资源

  • 浮动IP监视资源

  • 多目标监视资源

  • 注册表同步监视资源

  • 服务监视资源

  • 虚拟计算机名监视资源

  • 动态DNS监视资源

  • 虚拟IP监视资源

  • CIFS监视资源

  • DB2监视资源

  • FTP监视资源

  • HTTP监视资源

  • IMAP4监视资源

  • ODBC监视资源

  • Oracle监视资源

  • POP3监视资源

  • PostgreSQL监视资源

  • SMTP监视资源

  • SQL Server监视资源

  • Tuxedo监视资源

  • WebSphere监视资源

  • WebLogic监视资源

  • WebOTX监视资源

  • JVM监视资源

  • AWS Elastic IP监视资源

  • AWS虚拟IP监视资源

  • AWS辅助IP监视资源

  • AWS DNS监视资源

  • Azure 探头端口监视资源

  • Azure DNS监视资源

  • Google Cloud 虚拟 IP 监视资源

  • Oracle Cloud 虚拟 IP 监视资源

监视资源

监视时机

对象资源

应用程序监视资源

启动时 (固定)

appli

磁盘RW监视资源

不间断监视或启动时

全部

浮动IP监视资源

启动时 (固定)

fip

IP监视资源

不间断监视或启动时

全部

镜像磁盘监视资源

不间断监视 (固定)

-

NIC Link Up/Down监视资源

不间断监视或启动时

全部

多目标监视资源

不间断监视或启动时

全部

注册表同步监视资源

不间断监视或启动时

regsync

磁盘TUR监视资源

不间断监视或启动时

sd

服务监视资源

不间断监视或启动时

全部

虚拟计算机名监视资源

启动时 (固定)

vcom

动态DNS监视资源

启动时 (固定)

ddns

虚拟IP监视资源

启动时 (固定)

vip

CIFS监视资源

启动时 (固定)

cifs

共享型镜像磁盘监视

不间断监视 (固定)

-

共享型镜像磁盘TUR监视

不间断监视或启动时

hd

自定义监视资源

不间断监视或启动时

全部

消息接收监视资源

不间断监视 (固定)

-

进程名监视资源

不间断监视或启动时

全部

DB2监视资源

启动时 (固定)

全部

FTP监视资源

启动时 (固定)

全部

HTTP监视资源

启动时 (固定)

全部

IMAP4监视资源

启动时 (固定)

全部

ODBC监视资源

启动时 (固定)

全部

Oracle监视资源

启动时 (固定)

全部

POP3监视资源

启动时 (固定)

全部

PostgreSQL监视资源

启动时 (固定)

全部

SMTP监视资源

启动时 (固定)

全部

SQL Server监视资源

启动时 (固定)

全部

Tuxedo监视资源

启动时 (固定)

全部

WebSphere监视资源

启动时 (固定)

全部

WebLogic监视资源

启动时 (固定)

全部

WebOTX监视资源

启动时 (固定)

全部

JVM监视资源

不间断监视或启动时

全部

系统监视资源

不间断监视 (固定)

全部

进程资源监视资源

不间断监视(固定)

全部

用户空间监视资源

不间断监视 (固定)

-

AWS Elastic IP监视资源

启动时 (固定)

awseip

AWS虚拟IP监视资源

启动时 (固定)

awsvip

AWS辅助IP监视资源

启动时 (固定)

awssip

AWS AZ监视资源

不间断监视 (固定)

-

AWS DNS监视资源

启动时 (固定)

awsdns

Azure 探头端口监视资源

启动时 (固定)

azurepp

Azure负载均衡监视资源

不间断监视 (固定)

azurelb

Azure DNS监视资源

启动时 (固定)

azuredns

Google Cloud 虚拟 IP 监视资源

启动时 (固定)

gcvip

Google Cloud 负载均衡监视资源

不间断监视 (固定)

gcvip

Google Cloud DNS 监视资源

启动时 (固定)

gcdns

Oracle Cloud 虚拟 IP 监视资源

启动时 (固定)

ocvip

Oracle Cloud 负载均衡监视资源

不间断监视 (固定)

ocvip

4.1.2. 发生/解除监视资源的模拟故障

可使监视资源发生模拟故障。此外,也可解除模拟故障。发生/解除模拟故障的方法有以下 2种。

  • 使用Cluster WebUI (验证模式)进行操作
    Cluster WebUI (验证模式)中,不能控制的监视资源的右点击菜单变为无效。
  • 使用[clpmonctrl]命令进行操作
    使用[clpmonctrl]命令,对执行命令的服务器或者指定的服务器的监视资源进行控制。如果对不能控制的监视资源执行命令时,虽然命令执行上成功,但是不能使监视资源发生模拟故障。

监视资源中含有可发生/解除模拟故障的资源和不能发生/解除模拟故障的资源。请参照本指南的"9. EXPRESSCLUSTER命令参考"的"控制监视资源(clpmonctrl命令)"。

如果在模拟故障发生状态中进行了下述的操作,则监视资源的模拟故障将被解除。

  • Cluster WebUI (验证模式)中执行监视资源的[解除模拟故障]时
  • 在Cluster WebUI的模式从[验证模式]变更为其他模式时输出的对话框中,选择 [确定]时
  • Clpmonctrl命令中指定了-n选项时
  • 停止了集群时
  • 挂起了集群时

4.1.3. 监视资源监视间隔机制

所有监视资源每隔固定的监视间隔时间执行监视。

下面通过时序来说明根据设置的监视间隔时间进行正常监视以及异常时对监视资源进行监视的流程。

发现监视正常执行时

图中显示在集群启动后开始或者重启监视时的动作。 主监视进程(Main monitoring process)收到监视结果后,在监视间隔(Monitor interval)后将重复开始监视。

设置值如下所示时的运行示例:

<监视>
监视间隔 30秒
监视超时 60秒
监视重试次数 0次
主监视进程,子监视进程以及监视间隔

图 4.2 监视间隔(发现监视正常执行时)

发现监视出现异常时(未进行监视重试设置)

图中显示了监视对象(Monitor target)发生了异常,在发现异常后的动作。 主监视进程(Main monitoring process)收到监视结果(异常)后,对复归对象组执行失效切换。

发现监视异常后,在下次监视时会查出监视异常,然后对恢复对象执行失效切换。

设置值如下所示时的运行示例:

<监视>
监视间隔 30秒
监视超时 60秒
监视重试次数 0次

<发现异常>

复归对象 group
复归脚本执行次数 0次
重启动次数 0次
失效切换次数 1次
最终动作 无操作
主监视进程,子监视进程以及监视间隔

图 4.3 监视间隔(查出监视异常时 ・无监视重试设置)

查出监视异常时(对监视重试进行设置)

图中显示了监视对象(Monitor target)发生了异常,在发现异常后的动作。 主监视进程(Main monitoring process)收到监视结果(异常)后,执行监视操作直到达到监视重试次数为止。如果监视对象仍然无法复归时,对复归对象执行失效切换。

发生监视异常后,会在每次监视时发现监视异常,若在重试监视次数内无法恢复,则对恢复对象执行失效切换。

设置值如下所示时的运行示例:

<监视>
监视间隔 30秒
监视超时 60秒
监视重试次数 2次
<发现异常>
复归对象 组
复归脚本执行次数 0次
重启动次数 0次
失效切换次数 1次
最终动作 无操作
主监视进程,子监视进程以及监视间隔

图 4.4 监视间隔(查出监视异常时 ・有监视重试设置)

查出监视超时时(未进行监视重试设置)

图中显示在设置的时间内没有结束监视处理时的动作。 主监视进程(Main monitoring process)在启动监视后,如果在监视超时中设置的时间内无法取得监视结果,则对复归对象组进行失效切换。

发生监视超时后,会立即对针对恢复对象执行的恢复操作执行失效切换。

设置值如下所示时的运行示例:

<监视>
监视间隔 30秒
监视超时 60秒
监视重试次数 0次
<发现异常>
复归对象 组
复归脚本执行次数 0次
重启动次数 0次
失效切换次数 1次
最终动作 无操作
主监视进程,子监视进程以及监视间隔

图 4.5 监视间隔(查出监视超时时 ・无监视重试设置)

查出监视超时时(对监视重试进行了设置)

图中显示在设置的时间内没有结束监视处理时的动作。 主监视进程(Main monitoring process)在启动监视后,如果在监视超时中设置的时间内无法取得监视结果,则执行监视操作直到达到监视重试次数为止。如果仍然无法取得监视结果,则对复归对象组进行失效切换。

监视超时发生后,进行监视重试,对恢复对象执行失效切换。

设置值如下所示时的运行示例:

<监视>
监视间隔 30秒
监视超时 60秒
监视重试次数 1次
<发现异常>
复归对象 组
复归脚本执行次数 0次
重启动次数 0次
失效切换次数 1次
最终动作 无操作
主监视进程,子监视进程以及监视间隔

图 4.6 监视间隔(查出监视超时时 ・有监视重试设置)

4.1.4. 监视资源发现异常时的操作

发现异常时对恢复对象执行的恢复操作如下所示。

  • 发现监视对象的异常后,执行复归脚本。

  • 按次数执行复归脚本后,重新启动复归对象。若设置有重新启动前执行脚本,则执行脚本后再重新启动。

  • 按照重新启动界限值重新启动后仍失败,则执行失效切换。若设置有失效切换前执行脚本,则执行脚本后再进行失效切换。

  • 按照失效切换界限值的设置执行失效切换后仍然查出异常,则执行最终动作。(如果复归对象为组资源或者失效切换组时,失效切换的次数在集群内共享,如果复归对象为所有组时,则按每个服务器来计数。)若设置有最终动作前执行脚本,则执行脚本后再执行最终动作。

恢复操作针对的恢复对象必须处于以下状态。

恢复对象

状态

重新启动 1

失效切换 2

最终运行 3

组资源/
失效切换组

已停止

No

No

No

正在启动/停止

No

No

No

已启动

Yes

Yes

Yes

异常

Yes

Yes

Yes

LocalServer

-

-

-

Yes

1

仅在重新启动界限值设置为大于等于1的值时生效。

2

仅在失效切换界限值设置为大于等于1的值时生效。

3

仅在最终运行设置为"无操作"之外的值时生效。

注解

在设置查出监视资源异常的情况下将恢复对象指定为组资源(例:磁盘资源,应用程序资源),而监视资源发现异常时,处于恢复操作过渡(重新启动 -> 失效切换 -> 最终运行)的状态下,请不要执行以下命令或在Cluster WebUI中执行以下操作。

  • 停止/暂停集群

  • 启动/停止/移动组

若由于监视资源出现异常而处于恢复操作过渡状态中执行上述控制操作,可执行其他组的组资源不会停止。
并且即便监视资源处于异常状态,只要执行了最终运行,也可执行上述控制操作。
[失效切换次数计算单位]是"服务器"时
当监视资源的异常状态恢复(正常)后,重新启动次数,失效切换次数以及是否执行最终运行的设置均被重置。

[失效切换次数计算单位]是"集群"时

当监视资源的异常状态恢复(正常)后,重新启动次数,失效切换次数以及是否执行最终运行的设置均被重置。但是,作为恢复对象,指定了组资源/失效切换组时,只有在指定了同一恢复对象的所有监视资源的状态都正常时,此计数器才会被重置。
请注意,即便恢复操作失败,重新启动恢复操作的次数以及失效切换的次数均为一次。

以下对于指定IP监视资源的IP地址为网关时,仅发现一侧服务器异常的流程进行说明。

设置值如下所示时的运行示例:

<监视>
间隔 30秒
超时 30秒
重试次数 3次
<发现异常>
复归对象 Failover Group A
复归脚本执行次数 3次
重启动次数 3次
失效切换次数 与服务器数一致(以下情况下为2次)
最终动作 无操作
  1. 图中显示的是在2台服务器中IP监视资源进行监视时的示例。IP monitor resource 1在每个时间间隔对Gateway的IP地址进行死活确认。

    网关以及2台服务器和其中的IP监视资源

    图 4.7 查出IP监视资源异常的流程(仅1台服务器查出异常) (1)

    Server 1
    IP monitor resource 1
    Server 2
    IP monitor resource 1

    复归脚本执行次数

    0

    0

    重启动次数

    0

    0

    失效切换次数

    0

    0

  2. 查出IP monitor resource 1监视异常(LAN电缆断开,NIC故障等)。

    网关以及2台服务器和其中的IP监视资源

    图 4.8 查出IP监视资源异常的流程(仅1台服务器查出异常) (2)

  3. IP monitor resource 1重试监视3次。

    网关以及2台服务器和其中的IP监视资源

    图 4.9 查出IP监视资源异常的流程(仅1台服务器查出异常) (3)

  4. 监视重试结束时,在Server 1中开始执行复归脚本。
    “复归脚本执行次数”为各服务器中的复归脚本的执行次数。
    这是在Server 1中执行的第一次复归脚本。
    在Server 2中,由于Failover group A为“已停止”,因此不执行复归操作。
    网关以及2台服务器和其中的IP监视资源

    图 4.10 查出IP监视资源异常的流程(仅1台服务器查出异常) (4)

    Server 1
    IP monitor resource 1
    Server 2
    IP monitor resource 1

    复归脚本执行次数

    3

    0

    重启动次数

    0

    0

    失效切换次数

    0

    0

  5. 如果在Server 1中超过复归脚本执行次数,则在Server 1中开始Failover group A的重启动处理。
    “重启动次数”指的是各服务器中的重启动的次数。
    这是在Server 1中的第一次重启动处理。
    网关以及2台服务器和其中的IP监视资源

    图 4.11 查出IP监视资源异常的流程(仅1台服务器查出异常) (5)

    Server 1
    IP monitor resource 1
    Server 2
    IP monitor resource 1

    复归脚本执行次数

    3

    0

    重启动次数

    3

    0

    失效切换次数

    0

    0

  6. 当Server 1中超过重启动界限值时,则在Server 1中开始Failover group A的失效切换处理。
    “失效切换界限值”指的是各服务器中的失效切换次数。
    这是在Server 1中第一次失效切换处理。
    网关以及2台服务器和其中的IP监视资源

    图 4.12 查出IP监视资源异常的流程(仅1台服务器查出异常) (6)

  7. 将Failover group A从Server 1失效切换到Server 2。
    在Server 2中完成Failover group A的失效切换处理。
    网关以及2台服务器和其中的IP监视资源

    图 4.13 查出IP监视资源异常的流程(仅1台服务器查出异常) (7)

    Server 1
    IP monitor resource 1
    Server 2
    IP monitor resource 1

    复归脚本执行次数

    3

    0

    重启动次数

    3

    0

    失效切换次数

    1

    1

服务器2中,由于IP监视资源1处于正常状态,所以可通过失效切换组A执行失效切换,实现持续运行。

下面将对指定IP监视资源的IP地址为网关时,发现双方服务器异常的流程进行说明。

设置值如下所示时的运行示例:

<监视>
间隔 30秒
超时 30秒
重试次数 3次
<发现异常>
复归对象 Failover Group A
复归脚本执行次数 3次
重启动次数 3次
失效切换次数 与服务器数一致(以下情况下为2次)
最终动作 无操作
  1. 图中显示的是在2台服务器中IP监视资源进行监视时的示例。
    IP monitor resource 1在每个时间间隔对Gateway的IP地址进行死活确认。
    网关以及2台服务器和其中的IP监视资源

    图 4.14 查出IP监视资源异常的流程(两台服务器上查出异常) (1)

    Server 1
    IP monitor resource 1
    Server 2
    IP monitor resource 1

    复归脚本执行次数

    0

    0

    重启动次数

    0

    0

    失效切换次数

    0

    0

  2. 在Server 1,Server 2中查出IP monitor resource 1监视异常(LAN电缆断开,NIC故障等)

    网关以及2台服务器和其中的IP监视资源

    图 4.15 查出IP监视资源异常的流程(两台服务器上查出异常) (2)

  3. IP monitor resource 1重试监视最多3次。

    网关以及2台服务器和其中的IP监视资源

    图 4.16 查出IP监视资源异常的流程(两台服务器上查出异常) (3)

  4. 监视重试结束时,在Server 1中开始执行复归脚本。
    “复归脚本执行次数”为各服务器中的复归脚本的执行次数。
    这是在Server 1中执行的第一次复归脚本。
    在Server 2中,由于Failover group A为“已停止”,因此不执行复归操作。
    网关以及2台服务器和其中的IP监视资源

    图 4.17 查出IP监视资源异常的流程(两台服务器上查出异常) (4)

    Server 1
    IP monitor resource 1
    Server 2
    IP monitor resource 1

    复归脚本执行次数

    3

    0

    重启动次数

    0

    0

    失效切换次数

    0

    0

  5. 如果在Server 1中超过复归脚本执行次数,则在Server 1中开始Failover group A的重启动处理。
    “重启动次数”指的是各服务器中的重启动的次数。
    这是在Server 1中的第一次重启动处理。
    在Server 2中,由于Failover group A为“已停止”,因此不执行复归操作。
    网关以及2台服务器和其中的IP监视资源

    图 4.18 查出IP监视资源异常的流程(两台服务器上查出异常) (5)

    Server 1
    IP monitor resource 1
    Server 2
    IP monitor resource 1

    复归脚本执行次数

    3

    0

    重启动次数

    3

    0

    失效切换次数

    0

    0

  6. 当Server 1中超过重启动界限值时,则在Server 1中开始Failover group A的失效切换处理。
    “失效切换界限值”指的是各服务器中的失效切换次数。
    这是在Server 1中第一次失效切换处理。
    在Server 2中,由于Failover group A为“已停止”,因此不执行复归操作。
    网关以及2台服务器和其中的IP监视资源

    图 4.19 查出IP监视资源异常的流程(两台服务器上查出异常) (6)

    Server 1
    IP monitor resource 1
    Server 2
    IP monitor resource 1

    复归脚本执行次数

    3

    0

    重启动次数

    3

    0

    失效切换次数

    1

    1

  7. 将Failover group A从Server 1失效切换到Server 2。
    Server 2中持续IP monitor resource 1的监视异常。
    网关以及2台服务器和其中的IP监视资源

    图 4.20 查出IP监视资源异常的流程(两台服务器上查出异常) (7)

    Server 1
    IP monitor resource 1
    Server 2
    IP monitor resource 1

    复归脚本执行次数

    3

    0

    重启动次数

    3

    0

    失效切换次数

    1

    1

  8. IP monitor resource 1重试监视最多3次。

    网关以及2台服务器和其中的IP监视资源

    图 4.21 查出IP监视资源异常的流程(两台服务器上查出异常) (8)

  9. IP monitor resource 1进行监视重试时,如果持续异常,则最多重试3次复归脚本执行。

    网关以及2台服务器和其中的IP监视资源

    图 4.22 查出IP监视资源异常的流程(两台服务器上查出异常) (9)

  10. 即使在Server 2中重试了复归脚本执行处理,如果持续异常,则最多重试3次Failover group A的重启动处理。

网关以及2台服务器和其中的IP监视资源

图 4.23 查出IP监视资源异常的流程(两台服务器上查出异常) (10)

Server 1
IP monitor resource 1
Server 2
IP monitor resource 1

复归脚本执行次数

3

3

重启动次数

3

3

失效切换次数

1

1

  1. 当Server 2中已重试重启动处理时,则在Server 2中开始Failover group A的失效切换处理。
    这是Server 2中第一次失效切换处理。
网关以及2台服务器和其中的IP监视资源

图 4.24 查出IP监视资源异常的流程(两台服务器上查出异常) (11)

Server 1
IP monitor resource 1
Server 2
IP monitor resource 1

复归脚本执行次数

3

3

重启动次数

3

3

失效切换次数

2

2

  1. 将Failover group A从Server 2失效切换到Server 1。
    Server 1中持续IP monitor resource 1的监视异常。
网关以及2台服务器和其中的IP监视资源

图 4.25 查出IP监视资源异常的流程(两台服务器上查出异常) (12)

Server 1
IP monitor resource 1
Server 2
IP monitor resource 1

复归脚本执行次数

3

3

重启动次数

3

3

失效切换次数

2

2

  1. Server 1中最多重试3次IP monitor resource 1的监视。

网关以及2台服务器和其中的IP监视资源

图 4.26 查出IP监视资源异常的流程(两台服务器上查出异常) (13)

  1. 在Server 1中,如果再次重试Disk monitor resource 1的监视,则由于重启动界限值为3次,所以不执行重启动处理。
    此外,由于失效切换界限值为1,因此也不执行失效切换处理,直接开始进行设置为最终动作的操作。
    在Server 1中开始IP monitor resource 1的最终动作。
    “最终动作”是指重试失效切换后的动作。
网关以及2台服务器和其中的IP监视资源

图 4.27 查出IP监视资源异常的流程(两台服务器上查出异常) (14)

【补充】

若正在监视的服务器中监视资源状态由异常转为正常,重新启动次数和失效切换次数被重置为0,则下次监视出现异常时同样执行恢复操作。

4.1.5. 监视状态由异常恢复(正常)

若发现监视异常,恢复操作过渡中或全部恢复操作结束后发现监视资源恢复,则该监视资源所保留的以下界限值的计数器被重置。但是,作为恢复对象,指定了组资源/失效切换组时,只有在指定了同一恢复对象的所有监视资源的状态都正常时,此计数器才会被重置。

  • 重新启动界限值

  • 失效切换界限值

最终运行的是否执行也被重置(重置为需要执行)。

以下将对执行 "监视资源发现异常时的操作"的最终运行后,监视状态恢复正常,下次监视出现异常时的流程进行说明。

[设置示例]

<监视>
间隔 30秒
超时 30秒
重试次数 3次
<发现异常>
复归对象 Failover Group A
复归脚本执行次数 3次
重启动次数 3次
失效切换次数 与服务器数保持一致(以下情况下为2次)
最终动作 不操作

指定以上值时的运行示例

  1. 图中显示的是在2台服务器中IP监视资源进行监视时的示例。
    执行完所有复归操作后,持续监视异常。
    Server 1处于 IP monitor resource 1的最终动作已执行的状态。
    网关以及2台服务器和其中的IP监视资源

    图 4.28 查出IP监视资源异常的流程(从监视异常中恢复·正常) (1)

    Server 1
    IP monitor resource 1
    Server 2
    IP monitor resource 1

    复归脚本执行次数

    3

    3

    重启动次数

    3

    3

    失效切换次数

    2

    2

  2. 网关恢复时,查出IP monitor resource 1的监视正常。

    网关以及2台服务器和其中的IP监视资源

    图 4.29 查出IP监视资源异常的流程(从监视异常中恢复·正常) (2)

    Server 1
    IP monitor resource 1
    Server 2
    IP monitor resource 1

    复归脚本执行次数

    0

    0

    重启动次数

    0

    0

    失效切换次数

    0

    0

    由于发现监视对象资源处于正常状态,则重新启动次数以及失效切换次数被重置。

  3. 再一次查出IP monitor resource 1的监视异常时。

    网关以及2台服务器和其中的IP监视资源

    图 4.30 查出IP监视资源异常的流程(从监视异常中恢复·正常) (3)

  4. 最多重试3次IP monitor resource 1的监视。
    "重试次数"是该服务器上的重试次数。
    网关以及2台服务器和其中的IP监视资源

    图 4.31 查出IP监视资源异常的流程(从监视异常中恢复·正常) (4)

    Server 1
    IP monitor resource 1

    复归脚本执行次数

    0

    重启动次数

    0

    失效切换次数

    0

  5. 重试了监视后,在Server 1中开始复归脚本执行处理。 “复归脚本执行次数”为各服务器中的复归脚本的执行次数。 这是在Server 1中第一次复归脚本执行处理。 在Server 2中,由于Failover group A为“已停止”,因此不执行复归操作。

    网关以及2台服务器和其中的IP监视资源

    图 4.32 查出IP监视资源异常的流程(从监视异常中恢复·正常) (5)

    Server 1
    IP monitor resource 1
    Server 2
    IP monitor resource 1

    复归脚本执行次数

    3

    0

    重启动次数

    0

    0

    失效切换次数

    0

    0

  6. 如果在Server 1中超过复归脚本执行次数,则在Server 1中开始Failover group A的重启动处理。
    “重启动次数”指的是各服务器中的重启动的次数。
    这是在Server 1中第一次重启动处理。
    由于查出之前的监视对象资源变为正常,并且已重置重启动次数,因此要再一次进行重启动处理。
    网关以及2台服务器和其中的IP监视资源

    图 4.33 查出IP监视资源异常的流程(从监视异常中恢复·正常) (6)

    Server 1
    IP monitor resource 1
    Server 2
    IP monitor resource 1

    复归脚本执行次数

    3

    0

    重启动次数

    3

    0

    失效切换次数

    0

    0

4.1.6. 恢复操作时启动/停止恢复对象出现异常

当监视资源的监视目标与恢复对象的组资源为同一设备,发现监视异常时,可执行会在执行恢复操作过程中发生启动/停止组资源异常。

以下将对磁盘TUR监视资源的监视目标与失效切换组A的磁盘资源被指定为同一设备时的恢复操作流程进行说明。

[磁盘TUR监视资源的设置示例]

<监视>
间隔 60秒
超时 120秒
重试次数 0次
<发现异常>
复归对象 Failover Group A
复归脚本执行次数 0次
重启动次数 0次
失效切换次数 与服务器数保持一致(以下情况下为2次)
最终动作 组停止

[失效切换组A:磁盘资源的设置示例]

<启动异常>
启动重试次数 0次
最大失效切换次数 与服务器数保持一致(以下情况下为2次)
最终动作 无任何动作 (不启动下一个资源)
<停止异常>
停止重试次数 0次
最终动作 停止集群服务并关闭操作系统

监视资源的重新启动界限值与组资源的启动重试界限值都被设置为0次,所以在过程迁移图中被省略。

  1. 图中显示在2台服务器中磁盘TUR监视资源进行监视时的示例。 在Server 1,Server 2中开始 Disk TUR monitor resource 1,Failover group A的启动处理。 在每个间隔中,向设备执行TUR的ioctl。

    2台服务器和其中的磁盘TUR监视资源以及共享磁盘

    图 4.34 查出磁盘TUR监视资源异常的流程 (1)

    Server 1

    Server 2

    Disk TUR monitor resource 1
    失效切换次数

    0

    0

    Disk resource 1
    失效切换次数

    0

    0

  2. 在Server 1,Server 2中查出 Disk TUR monitor resource 1的监视异常(TUR的ioctl失败)。
    根据磁盘设备的故障位置,可执行会在磁盘资源的停止处理中查出异常。
    2台服务器和其中的磁盘TUR监视资源以及共享磁盘

    图 4.35 查出磁盘TUR监视资源异常的流程 (2)

  3. 由于在Server 1中Disk TUR monitor resource 1监视异常,开始进行Failover group A的失效切换处理。
    监视资源的失效切换界限值为各服务器的失效切换次数。
    这是在Server 1中第一次失效切换处理。
    2台服务器和其中的磁盘TUR监视资源以及共享磁盘

    图 4.36 查出磁盘TUR监视资源异常的流程 (3)

    Server 1

    Server 2

    Disk TUR monitor resource 1
    失效切换次数

    1

    1

    Disk resource 1
    失效切换次数

    0

    0

  4. 由于Server 2的失效切换处理,导致Disk resource 1的启动失败。

    2台服务器和其中的磁盘TUR监视资源以及共享磁盘

    图 4.37 查出磁盘TUR监视资源异常的流程 (4)

  5. 由于在Server 2中的Disk resource 1启动异常,因此要开始进行Failover group A的失效切换处理。
    组资源的失效切换界限值为各服务器的失效切换次数。
    这是在Server 2中第一次失效切换处理。
    根据磁盘设备的故障位置,可执行会在磁盘资源的停止处理中查出异常。
    2台服务器和其中的磁盘TUR监视资源以及共享磁盘

    图 4.38 查出磁盘TUR监视资源异常的流程 (5)

    Server 1

    Server 2

    Disk TUR monitor resource 1
    失效切换次数

    1

    1

    Disk resource 1
    失效切换次数

    1

    1

    服务器2中与服务器1一样,发现磁盘TUR监视资源1出现异常,由于恢复对象的"失效切换组A"正在启动,所以不执行恢复操作。

    关于监视资源针对恢复对象执行恢复操作的条件,请参考 "监视资源发现异常时的操作"。

  6. 由于在Server 1上的失效切换处理,导致启动Disk resource 1失败。
    根据磁盘设备的故障位置,可执行会在磁盘资源的停止处理中查出异常。
    2台服务器和其中的磁盘TUR监视资源以及共享磁盘

    图 4.39 查出磁盘TUR监视资源异常的流程 (6)

    Server 1

    Server 2

    Disk TUR monitor resource 1
    失效切换次数

    1

    1

    Disk resource 1
    失效切换次数

    1

    1

  7. 由于在Server 1中的Disk resource 1启动异常,因此要开始进行Failover group A的失效切换处理。
    这是在Server 1中第一次失效切换处理。
    2台服务器和其中的磁盘TUR监视资源以及共享磁盘

    图 4.40 查出磁盘TUR监视资源异常的流程 (7)"

    Server 1

    Server 2

    Disk TUR monitor resource 1
    失效切换次数

    1

    1

    Disk resource 1
    失效切换次数

    2

    2

  8. 由于Server 2的失效切换处理,导致Disk resource 1的启动失败。
    根据磁盘设备的故障位置,可执行会在磁盘资源的停止处理中查出异常。
    2台服务器和其中的磁盘TUR监视资源以及共享磁盘

    图 4.41 查出磁盘TUR监视资源异常的流程 (8)

    服务器2中,由于启动磁盘资源1出现异常,失效切换次数超过设置的界限值,执行最终运行。

    但由于最终运行设置为"无任何动作 (不启动下一个资源)",则失效切换组A剩余的组资源不会被启动,启动处理异常结束。

  9. 由于在Server 2中的Disk resource 1启动异常,执行最终动作。
    失效切换组A为启动异常状态。
    根据磁盘设备的故障位置,可执行会在磁盘资源的停止处理中查出异常。
    2台服务器和其中的磁盘TUR监视资源以及共享磁盘

    图 4.42 查出磁盘TUR监视资源异常的流程 (9)

  10. 由于在Server 2中的Disk TUR monitor resource 1监视异常,因此要开始进行Failover group A的失效切换处理。
    这是在Server 2中第一次失效切换处理。
2台服务器和其中的磁盘TUR监视资源以及共享磁盘

图 4.43 查出磁盘TUR监视资源异常的流程 (10)

Server 1

Server 2

Disk TUR monitor resource 1
失效切换次数

2

2

Disk resource 1
失效切换次数

2

2

  1. 通过在Server 1上的失效切换处理启动Disk resource 1失败。

    2台服务器和其中的磁盘TUR监视资源以及共享磁盘

    图 4.44 查出磁盘TUR监视资源异常的流程 (11)

    服务器1中也和服务器2一样,由于启动磁盘资源1出现异常,失效切换次数超过设置界限值,所以执行最终运行。

    但是,由于最终运行被设置为"无任何动作 (不启动下一个资源)",则失效切换组A的剩余组资源不会被启动,启动处理异常结束。

    根据磁盘设备的故障位置不同,有时可执行会查出磁盘资源的停止处理中的错误。

  2. 由于在Server 1中Disk TUR monitor resource 1监视异常,开始进行Failover group A的最终动作(组停止)处理。

    服务器1中,由于监视磁盘TUR监视资源1出现异常,失效切换次数超过设置界限值,执行最终运行。

2台服务器和其中的磁盘TUR监视资源以及共享磁盘

图 4.45 查出磁盘TUR监视资源异常的流程 (12)

  1. 由于服务器1中对磁盘TUR监视资源1执行了最终运行,失效切换组A已经停止,所以之后即便监视磁盘TUR监视资源1出现异常,也不会引起任何后果。

但是由于服务器2中磁盘TUR监视资源1的最终运行尚未执行,手动启动失效切换组A时,磁盘TUR监视资源1的最终运行会被执行。

4.1.7. 关于复归脚本,复归操作前的脚本

可在查出监视资源异常后执行复归脚本。此外,在重新启动复归对象,执行失效切换及最终动作前,也可执行复归操作前的脚本。

任何情况下都会运行共同的脚本文件。

复归脚本,复归操作前脚本使用的环境变量

EXPRESSCLUSTER在执行脚本时,需要在环境变量中设置脚本执行时的状态(复归操作类型)等信息。

在脚本内可以以下图中的环境变量为分支条件说明与系统操作相符的处理内容。

环境变量

环境变量的值

含义

CLP_MONITORNAME
...监视资源名

监视资源名

显示查出异常(该异常导致需要执行复归脚本,复归操作前脚本)的监视资源名称。

CLP_VERSION_FULL
...EXPRESSCLUSTER完整版

EXPRESSCLUSTER完整版

显示EXPRESSCLUSTER完整版
(例) 13.01
CLP_VERSION_MAJOR
...EXPRESSCLUSTER主版本

EXPRESSCLUSTER主版本

显示EXPRESSCLUSTER主版本
(例)13
CLP_PATH
...EXPRESSCLUSTER安装路径

EXPRESSCLUSTER安装路径

显示EXPRESSCLUSTER安装路径
(例)C:\ProgramFiles\EXPRESSCLUSTER
CLP_OSNAME
...服务器OS名

服务器OS名

显示执行脚本的服务器的OS名。
(例)Windows Server 2016 Standard
CLP_OSVER
...服务器OS版本

服务器OS版本

显示执行脚本的服务器的OS版本。
(例)10.0.14393
CLP_ACTION
复归操作类型

RECOVERY

作为复归脚本执行时。

RESTART

重新启动前执行时。

FAILOVER

失效切换前执行时。

FINALACTION

最终动作前执行时。

CLP_RECOVERYCOUNT
复归脚本的执行次数

复归脚本执行次数

显示第几次执行复归脚本。

CLP_RESTARTCOUNT
...重新启动次数

重新启动次数

显示第几次重新启动。

CLP_FAILOVERCOUNT
...失效切换次数

失效切换次数

显示第几次失效切换。

复归脚本,复归操作前脚本的描述流程

本节讲解了上节中说明的环境变量与实际脚本描述之间的关系。

复归脚本,复归操作前脚本的例子

rem ******************************************************
rem *                    preaction.bat                   *
rem ******************************************************

echo START

IF "%CLP_ACTION%"=="" GOTO NO_CLP

IF "%CLP_ACTION%"=="RECOVERY" GOTO RECOVERY
IF "%CLP_ACTION%"=="RESTART" GOTO RESTART
IF "%CLP_ACTION%"=="FAILOVER" GOTO FAILOVER
IF "%CLP_ACTION%"=="FINALACTION" GOTO FINALACTION


:RECOVERY
echo RECOVERY COUNT: %CLP_RECOVERYCOUNT%

rem 在这里记述了复归处理。
rem 该处理在以下时机执行。
rem
rem  复归动作: 复归脚本

GOTO EXIT


:RESTART
echo RESTART COUNT: %CLP_RESTARTCOUNT%

rem 在这里记述了重启动前处理。
rem 该处理在以下时机执行。
rem
rem  复归动作:重启动

GOTO EXIT


:FAILOVER
echo FAILOVER COUNT: %CLP_FAILOVERCOUNT%

rem 在这里记述了复归处理。
rem 该处理在以下时机执行。
rem
rem  复归动作: 失效切换

GOTO EXIT


:FINALACTION
echo FINALACTION

rem 在这里记述了复归处理。
rem 该处理在以下时机执行。
rem
rem  复归动作: 最终动作

:NO_CLP

:EXIT
echo EXIT
exit

创建复归脚本,复归操作前脚本时的注意事项

创建脚本时请注意以下内容。

  • 如果要执行一些需要时间的命令,请在脚本中保留用于表示命令执行完成的跟踪信息。发生故障时,可以使用这些信息来区分故障。可使用clplogcmd保留跟踪信息。

复归脚本,复归操作前脚本的注意事项

  • 关于最终动作时的复归操作前脚本的执行条件
    最终动作时的复归操作前脚本是在监视资源的监视异常引发的最终动作之前被执行。在最终动作中设定了[无操作]时,复归操作前脚本也会被执行。
    最大重起动次数,监视资源的复归操作的抑制功能,其它服务器全部停止时的最终动作抑制功能等导致的最终动作没有被执行时,复归操作前脚本不会被执行。

4.1.8. 监视资源延迟警告

监视资源由于业务应用程序的集中等原因,可执行会出现服务器负荷过大,出现监视超时的情况。发现监视超时之前,当监视的监视处理时间(实测时间)达到监视超时时间的一定比例后,可以发出警告通知。

以下用时序图对监视资源被发出延迟警告之前的过程进行说明。

指定监视超时为60秒,延迟警告是当延迟时间达到默认值的80%时发出。

图为监视超时设置为60秒,延迟警告比率指定为默认值的80%(48秒)时的情况。 箭头表示监视轮询时间。

监视资源延迟警告之前的时间

图 4.46 监视轮询时间和延迟警告

  1. 监视处理时间为10秒,监视资源处于正常状态。
    此时不发出警告。
  2. 监视处理时间为50秒,发现监视延迟,监视资源处于正常状态。
    此时,由于延迟时间超过默认监视超时时间的80%,所以发警告通知。
  3. 监视处理时间超过监视超时时间,即60秒,发生监视超时,监视资源处于异常状态。
    此时不发出警告。

心跳资源也同样发出心跳的延迟警告通知。

参见

监视资源的延迟警告是在[集群的属性]->[延迟警告]标签页中的[监视延迟警告]中进行设置。具体请参考本指南的"2. 参数的详细信息"。

4.1.9. 等待开始监视监视资源

等待开始监视时间是指从指定监视的等待监视开始时间开始。

以下将使用时序对等待监视开始时间设置为0秒的情况和指定为30秒的情况下进行监视的区别进行说明。

监视开始等待时间为0时,集群启动或者重新启动监视之后开始监视资源轮询。

[监视资源配置]

<监视>
间隔 30秒
超时 60秒
重试次数 0次
监视开始等待时间 0秒
每个监视开始等待时间的行为差异

图 4.47 监视资源的监视开始等待(监视开始等待时间0秒)

监视开始等待时间为30秒时,在集群启动或者重新开始监视后等待30秒之后开始监视资源轮询。

[监视资源配置]

<监视>
间隔 30秒
超时 60秒
重试次数 0次
监视开始等待时间 30秒
每个监视开始等待时间的行为差异

图 4.48 监视资源的监视开始等待(监视开始等待时间30秒)

注解

使用监视控制命令,临时停止/重新启动监视资源时也是在指定的等待监视开始时间后进行。

注解

在消息接受监视资源中没有监视开始等待时间功能。

应用程序监视资源监视的应用程序资源可执行会由于应用程序设置错误导致开始监视后立即退出,等待监视开始时间就是用于此类重新启动也无法恢复的情况。

例如下列情况中,若将等待监视开始时间设置为0,可执行会出现无限重复执行恢复操作的情况。

这种情况下,应用程序将启动一次。 此外,开始通过应用程序监视资源进行监视,由应用程序监视资源进行的轮询会正常结束。 但是随后,由于某种原因,应用程序会异常结束。

[应用程序监视资源配置]

<监视>
间隔 5秒
超时 60秒
重试次数 0次
监视开始等待时间 0秒 (默认值)
<发现异常>
复归对象 appli1
重启动次数 1
失效切换次数 1
最终动作 停止组
应用程序资源,应用程序监视资源,应用程序动作转换

图 4.49 监视资源的监视开始等待(监视开始等待时间0秒)

该恢复操作无限重复进行的原因是由于第一次监视处理正常结束。当监视资源处于正常状态时,监视资源恢复操作的当前次数被重置。因此,当前次数总被重置为0,重新启动的恢复操作就会无限重复进行。

通过设置等待监视开始时间,可以避免以上现象的发生。

等待监视开始时间设置在应用程序启动后,结束时间默认设置为60秒。

这种情况下,应用程序将启动一次。 之后,在设定的开始监视等待时间之后,开始由应用程序监视资源进行监视。 随后,虽然由于某种原因,应用程序异常结束,但是这是由应用程序监视的首次轮询检测到的。

[应用程序监视资源配置]

<监视>
间隔 5秒
超时 60秒
重试次数 0次
监视开始等待时间 60秒
<发现异常>
复归对象 appli1
重启动次数 1
失效切换次数 1
最终动作 停止组
应用程序资源,应用程序监视资源,应用程序动作转换

图 4.50 监视资源的监视开始等待(监视开始等待时间60秒)

组的失效切换目标服务器中应用程序异常结束时,最终运行也是停止组。

4.1.10. 监视资源发现异常时的重启次数的限制

监视资源发现异常时的最终运行设置若为[停止集群服务并关闭操作系统]或[停止集群服务并操作系统重启],可设置由于监视资源出现异常而产生的关闭次数或重启次数。

注解

重启次数是按各台服务器分别记录的,因此最大重启次数则为各台服务器重启次数的上限值。

另外,启动,停止组出现异常时的最终运行引起的重启次数以及监视资源出现异常时的最终运行引起的重启次数也是分别记录的。

若将重置最大重启次数的时间设置为0,则不会重置重启次数。

以下设置示例中将对限制重启次数的流程进行说明。

最大重启次数被设为1次,因此仅重启一次,就会执行最终运行[停止集群服务并操作系统重启]。

另外,由于重置最大重启次数的时间设置为10分钟,集群关闭后重启时,若监视资源的正常状态持续10分钟,则重启次数会被重置。

[设置示例]

<监视>
监视 60秒
超时 120秒
重试次数 3次
<发现异常>
复归对象 Failover group A
重启动次数 0
失效切换次数 0
最终动作 停止集群服务并操作系统重启
<重启次数限制>
最大再启动次数 1次
重置再启动次数的时间 10分
指定以上值时的运行示例
  1. 图中显示在2台服务器中磁盘TUR监视资源进行监视时的示例。 开始进行Disk TUR monitor resource 1的启动处理。 在每个间隔,执行对设备的I/O处理。

    2台服务器和其中的磁盘TUR监视资源以及共享磁盘

    图 4.51 重启次数限制 (1)

    Server 1

    Server 2

    最大重启次数

    1

    1

    重启次数

    0

    0

  2. 查出Disk TUR monitor resource 1的监视异常(ioctl,read异常等)。

    2台服务器和其中的磁盘TUR监视资源以及共享磁盘

    图 4.52 重启次数限制 (2)

  3. 停止集群服务后,重启OS。 由于"启动重试界限值","失效切换界限值"为0,执行最终动作。 在重启次数中记录1。 之后,开始进行Failover group A的失效切换处理。 "最大重启次数"为各服务器上的重启次数的上限值。 Server 2上的重启次数为0。

    2台服务器和其中的磁盘TUR监视资源以及共享磁盘

    图 4.53 重启次数限制 (3)

    Server 1

    Server 2

    最大重启次数

    1

    1

    重启次数

    1

    0

  4. Server 1重启结束。 使用clpgrp命令,Cluster WebUI,将Failover group A移动到Server 1中。

    2台服务器和其中的磁盘TUR监视资源以及共享磁盘

    图 4.54 重启次数限制 (4)

    Server 1

    Server 2

    最大重启次数

    1

    1

    重启次数

    1

    0

  5. 查出Disk TUR monitor resource 1的监视异常(ioctl,read异常等)。 由于Server 1中已达到最大重启次数,因此不执行最终动作。 即使经过10分钟,也不会重置重启次数。

    2台服务器和其中的磁盘TUR监视资源以及共享磁盘

    图 4.55 重启次数限制 (5)

    Server 1

    Server 2

    最大重启次数

    1

    1

    重启次数

    1

    0

  6. 除去Shared disk的异常,使用clpstdn命令,Cluster WebUI,在集群关闭后重启。

    2台服务器和其中的磁盘TUR监视资源以及共享磁盘

    图 4.56 重启次数限制 (6)

    Server 1

    Server 2

    最大重启次数

    1

    1

    重启次数

    1

    0

  7. Server 1的Disk TUR monitor resource 1变为正常状态。 10分钟后,重启次数被重置。 在下一次查出 Disk TUR monitor resource 1异常时执行最终动作。

    2台服务器和其中的磁盘TUR监视资源以及共享磁盘

    图 4.57 重启次数限制 (7)

    Server 1

    Server 2

    最大重启次数

    1

    1

    重启次数

    0

    0

4.1.11. 需要License的监视资源

由于下表里的监视资源为可选产品,所以需要License。

使用时,请购买产品License,注册License。

可选产品名

监视资源名

EXPRESSCLUSTER X Professional Edition Database Agent 5.0 for Windows

DB2监视资源

ODBC监视资源

Oracle监视资源

PostgreSQL监视资源

SQL Server监视资源

EXPRESSCLUSTER X Professional Edition Internet Server Agent 5.0 for Windows

FTP监视资源

HTTP监视资源

IMAP4监视资源

POP3监视资源

SMTP监视资源

EXPRESSCLUSTER X Professional Edition Application Server Agent 5.0 for Windows

Tuxedo监视资源

WebSphere监视资源

WebLogic监视资源

WebOTX监视资源

EXPRESSCLUSTER X Professional Edition Java Resource Agent 5.0 for Windows

JVM监视资源

EXPRESSCLUSTER X Professional Edition System Resource Agent 5.0 for Windows

系统监视资源

进程资源监视资源

关于License的注册步骤,请参考《安装&设置指南》的"注册License"。

4.2. 监视器共通属性

显示监视资源列表。
可以更改各种设定值。
点击名称链接,跳转到该监视资源的属性页面。
点击CSV下载,则组监视资源列表中显示的信息将以CSV形式下载。
关于各显示项目的详细内容,请参考"监视资源的属性"。

4.3. 监视资源的属性

4.3.1. 信息标签页

名称

显示监视资源名。

注释(127 字节以内)

设置监视资源的注释。只能输入半角英文数字。

4.3.2. 监视(共通)标签页

间隔(1~999)

设置确认监视对象状态的时间间隔。

超时(5~999)

若在指定时间内没有发现监视对象的正常状态,则判断为异常。

注解

不推荐更改镜像磁盘监视资源以及共享型镜像磁盘监视资源的超时值。

超时发生时获取监视进程的dump文件 (只在Oracle监视资源的场合)

指定发生超时时,是否收集监视进程的dump文件。

收集的dump文件存放在EXPRESSCLUSTER 安装目录的work\rm\资源名\errinfo.cur文件夹下。多次收集的情况下,之前收集的文件夹的名字重命名为errinfo.1,errinro.2等,并且只存放最新的5次收集的dump文件。

超时发生时不重试

选中时,监视资源发生超时立即执行回复动作。

超时发生时不做回复动作

选中时,监视资源发生超时不做回复动作。

此外,发生超时时重试的次数和和计数被重置。

只有在[超时发生时不重试]选中时才能设定。

注解

以下监视资源,不能使用[超时发生时不重试],[超时发生时不做回复动作]功能。

  • 多目标监视资源

  • 用户监视资源 (只有监视方式是[异步]时)

  • 消息接收监视资源

  • JVM监视资源

  • 系统监视资源

  • 进程资源监视资源

  • 用户空间监视资源

重试次数(0~999)

发现异常状态后,若连续指定次数发现异常,则判断为异常。

若指定为0,则在最初发现异常时即判断为异常。

开始监视的等待时间(0~9999)

设置等待监视开始的时间。

监视时间

设置监视的时机。

  • [不间断监视]
    一直进行监视。
  • [指定资源被启动后开始监视]
    指定资源启动之前不进行监视。

目标资源

显示启动时进行监视的对象资源。

参照

显示[选择对象资源[对话框。树形显示LocalServer和集群中登录的组名,资源名。选择要设置的对象资源,点击[确定]。

选择监视服务器

设置进行监视的服务器。

所有服务器

在全部服务器中执行监视。

独自设置

在[可用服务器]中登录的服务器中进行监视。需要设置多台[可以启动组的服务器]。

  • 添加
    将[可用服务器]中选择的服务器添加到[可以启动组的服务器]。
  • 删除
    从[可以启动组的服务器]中删除选中的服务器。

发送监视处理时间指标

设置监视处理时间指标的发送功能。

  • 选中复选框
    发送监视资源的监视处理时间指标。
  • 不选中复选框
    不发送监视资源的监视处理时间指标。

注解

使用Amazon Cloud Watch联动功能时,启用本功能,可以发送任意的监视资源的监视处理时间指标。
下面的监视资源中,不能设置[发送监视处理时间指标]功能。
  • 消息接收监视资源

4.3.3. 监视(固有)标签页

有些监视资源需要设置监视操作时的参数。参数请参考各个资源的说明。

4.3.4. 复归动作标签页

通常的监视资源(外部监视关联资源以外)的场合

[集群的属性] - [扩展]标签页 - [失效切换次数计算单位]是[服务器]时

[集群的属性] - [扩展]标签页 - [失效切换次数计算单位]是[集群]时

外部监视关联资源的场合

设置复归对象和查出异常时的运行。查出异常时可重新启动组的失效切换,资源和集群。但是,如果复归对象处于停止状态则不进行恢复运行。

复归操作

选择异常检出时的复归操作。

  • [对复归对象进行失效切换]
    监视异常检出时,对复归对象里选择的失效切换组或者组资源所属的组进行失效切换。
  • [对复归对象进行重新启动和失效切换]
    对复归对象里选择的失效切换组或者组资源所属的组进行重新启动。重新启动失败,或者重新启动后发生相同的异常时,则进行失效切换。
  • [对复归对象进行重新启动]
    对复归对象里选择的失效切换组或者组资源所属的组进行重新启动。
  • [只在最终动作时执行]
    执行最终动作里选择的动作。
  • [自定义设置]
    执行复归脚本的最大脚本执行次数。执行脚本后继续检测出异常状态时,在重启动次数范围内对复归对象里选择的失效切换组或者组资源所属的组进行重新启动。重新启动失败,或者重新启动后发生相同的异常,或者达到重启动次数上限,对选做复归对象的组或这组资源执行最大失效切换次数的失效切换。失效切换失败,或者失效切换后继续检测出同样的异常,并已达到最大失效切换次数的情况下,则执行最终动作里选择的动作。

复归对象

当发现资源异常时,显示要进行恢复的对象。

参照

显示[选择复归对象]对话框。树形显示LocalServer,All Groups和集群中登录的组名,资源名。选择要设置的恢复对象,点击[确定]。

复归脚本运行回数 (0~99)

发现异常时,设置[脚本设置]中脚本的运行回数。若设置为0,则不执行脚本。

重启动前运行脚本

指定是否在进行重新启动前运行脚本。

重启动次数(0~99)

设置出现异常时进行重新启动的次数。若设置为0,则不重新启动。若选择组或组资源为恢复对象,可进行设置。外部关联监视资源的场合该值不能设定。

作为IP监视资源或者 NIC Link Up/Down监视资源的复归对象, 当设置了失效切换属性(扩展)的[从失效切换目标中排除在指定的监视资源中检测到异常的服务器]的组或者组所属的资源时, 因为指定的监视资源查到异常,重新启动处会失败。

失效切换运行前运行脚本

指定是否在进行失效切换前执行脚本。

失效切换目标服务器

查出异常时再次启动失败次数为[失效切换次数] 所指定的次数时,从下列中选择失效切换时的失效切换目标服务器。

  • 状态稳定服务器
    启动组后,向查出资源异常次数最少的服务器进行失效切换。
    当满足以上条件的服务器不唯一时,从中根据组的失效切换方案的设置进行失效切换。
  • 优先级最高的服务器
    根据组的失效切换方案的设置进行失效切换。

在服务器组外进行失效切换

只可设置消息接收监视资源。设置是否在接收到异常检测通知时,让非主服务器组的其他服务器组执行失效切换。

失效切换次数 (0~99)

设置当出现异常时,重新启动[重启动次数]中指定的次数后仍然失败,进行失效切换时的次数。若设置为0,则不执行失效切换。当选择组或组资源或All Groups为恢复对象时,可进行设置。外部关联监视资源的场合该值不能设定。

[集群的属性] - [扩展] - [失效切换次数计算单位]是[服务器]时,设置失效切换次数为任意值。

[集群的属性] - [扩展] - [失效切换次数计算单位]是[集群]时,以下可用于失效切换次数设置

  • 与服务器数目相同
    设置失效切换界限值为服务器数。
  • 指定次数
    设置失效切换界限值为任意值。

关于失效切换次数计算单位的设定,请参考本指南的"2. 参数的详细信息"-"集群属性"-"扩展标签页"。

在最终动作前运行脚本

指定是否在最终动作前运行脚本。

  • 选中复选框
    在最终动作前运行脚本。要进行脚本/命令设置时,请点击[脚本设置]按钮。
  • 未选中复选框
    不运行脚本/命令。

复归操作前运行脚本

指定是否在执行复归运行前执行脚本
仅在消息接收监视资源可设置。
  • 选中复选框
    执行复归运行前执行脚本/命令。要进行脚本/命令的设置,请点击[脚本设置]。
  • 未选中复选框
    不执行脚本/命令。

脚本设置

显示[编辑脚本]对话框。设置复归脚本/命令。

用户应用程序

使用作为脚本的可在服务器上执行的文件(可执行的批处理文件,执行文件)。在文件名中设置服务器上的本地磁盘绝对路径或者可执行文件名。但是,只设置可执行文件名时,需要事先在环境变量中设置路径。此外,如果在绝对路径,文件名包含空格时,如下所示,请用双引号(")括起来。

例:

"C:\Program Files\script.bat"

另外,执行VB脚本时请输入以下所记的。

例:

cscript script.vbs

各可执行文件不包含在Cluster WebUI的集群配置信息中。由于无法在Cluster WebUI中进行编辑和上传,所以需要在各服务器上准备。

用Cluster WebUI创建的脚本

使用作为脚本的在Cluster WebUI中准备的脚本文件。可以在Cluster WebUI中编辑脚本文件。脚本文件包含在集群配置信息中。

文件 (1023字节内)

选择[用户应用程序]时,设置执行的脚本(可执行的批处理文件,执行文件)。

显示

选择[用Cluster WebUI创建的脚本]时,显示脚本文件。

编辑

选择[用Cluster WebUI创建的脚本]时,编辑脚本文件。如要反映更改时,请点击[保存]。无法更改脚本文件名。

替换

选择[用Cluster WebUI创建的脚本]时,将脚本文件的内容替换为文件选择对话框中选择的脚本文件内容。如脚本已经为显示中或者编辑中时,无法替换。请选择脚本文件。请不要选择二进制文件(应用程序)。

超时 (1~9999)

指定等待脚本结束的最大时间。规定值为5秒。

执行用户

指定执行脚本的用户。可以从[集群属性]-[帐户]标签页中注册的用户中选择执行用户。
没有指定执行用户时,脚本将作为本地系统帐户执行。

最终动作

查出异常时,重新启动的失败次数达到[重启动次数]中指定的次数,而失效切换的失败次数达到在[失效切换次数]中指定的次数后的运行。

最终运行有以下选择。

  • 无操作
    不进行任何操作。

    注解

    以下情况下请使用[无操作]设置。

    • 暂时控制最终动作时

    • 查出异常后想仅显示警报时

    • 通过多目标监视资源执行实际的最终动作时

  • 停止资源
    若选择复归对象为组资源时,停止该组资源和依赖该组资源的组资源。若选择"LocalServer","All Groups",组为复归时, 无法选择本项目。
  • 停止组
    若选择监视对象为组时,停止该组,或选择组资源为监视对象时,停止该组资源所属的组。若选择"All Groups",则停止监测到异常的监视资源所在的服务器上启动的所有组。若选择集群为复归,则无法选择。
  • 停止集群服务
    停止出现异常的服务器的EXPRESSCLUSTER Server服务。
  • 停止集群服务并关闭操作系统
    停止出现异常的服务器的EXPRESSCLUSTER Server服务,关闭OS。
  • 停止集群服务并操作系统重启
    停止出现异常的服务器的EXPRESSCLUSTER Server服务,重启OS。
  • 生成主动停止错误
    有意使查出异常的服务器发生停止错误。

4.4. 理解应用程序监视资源

应用程序监视资源对应用程序资源进行监视。

4.4.1. 应用程序监视资源的监视方法

在启动了应用程序资源的服务器中进行监视。

定期对应用程序进行死活监视,发现应用程序关闭时判断为异常。

4.4.2. 应用程序监视资源相关注意事项

对成功启动的应用程序资源进行监视。仅在应用程序资源的常驻类型设置为[常驻]时,可以监视。

添加应用程序资源时,若常驻类型设置为"常驻",则本资源将自动登录。各应用程序资源对应的应用程序监视资源将自动登录。
应用程序监视资源设置了默认值,必要时请更改为合适的值。
添加应用程序资源时,若常驻类型设置为"非常驻",则无法添加本资源。

4.4.3. 监视(固有)标签页

没有应用程序监视资源的监视(固有)标签页。

4.5. 理解磁盘RW监视资源

磁盘RW监视资源通过对文件系统进行虚拟数据写入,对磁盘设备进行监视。

4.5.1. 使用磁盘RW监视资源进行监视的方法

按照指定的I/O大小写入指定的文件系统(Basic Volume 或Dynamic Volume),判断该结果(写入的大小)(作成的文件在写入后被删除)。

仅判断指定的I/O大小已经成功write,不判断写入数据是否合法。

若增大要write的I/O大小,OS或磁盘负荷将会增大。

由于使用的磁盘或接口不同,有时实现用于write的缓存可执行各种各样。因此当I/O大小很小时,可执行冲击缓存,无法查出write的错误。

请有意制造磁盘故障等,以便确认关于I/O大小足够查出故障。

注解

监视对象磁盘发生磁盘路径故障,磁盘路径冗余化软件等功能执行失效切换时,需将监视超时的时间(默认值300秒)设置成大于路径失效切换所需时间。

4.5.2. 监视(固有)标签页

文件名(1023字节以内)

输入用于访问的文件名。本文件在监视处理时创建,I/O结束时删除。

注解

文件名请指定为绝对路径。若指定为相对路径,有时监视的路径可执行是指定路径之外的其他路径。

重要

指定文件名时请不要指定已经存在的文件。若指定的文件已经存在,该文件信息将会丢失。

I/O大小 (1~9999999)

指定针对要监视的磁盘进行I/O的大小。

查出Stall异常时的动作

指定查出停止异常时的运行。

在[监视(共通)]标签页的[超时]所指定的时间内,I/O的控制不能从OS返回时,视为Stall异常。

  • 无动作
    不进行任何操作。
  • HW重置
    重置硬件。
  • 生成主动停止错误
    促使发生停止错误。

注解

有关Stall异常查出时运行,不能使其发生模拟故障。

磁盘已满时的处理

指定查出磁盘已满(监视的磁盘没有空余容量的状态)时的运行。

  • 执行复归操作
    磁盘RW监视资源将查出磁盘已满作为异常操作来处理。
  • 不执行复归操作
    磁盘RW监视资源将查出磁盘已满作为警告操作来处理。

使用Write Through方式

监视I/O方式适用于Write Through方式。

  • 有效时,提高磁盘RW监视的异常检测精确度,但会发生系统I/O负荷上升的现象。

4.6. 理解浮动IP监视资源

浮动IP监视资源对浮动IP资源进行监视。

4.6.1. 浮动IP监视资源的监视方法

在浮动IP资源启动的服务器中使用WMI进行监视。

监视IP地址列表中是否存在浮动IP地址。若IP地址列表中不存在浮动IP地址,判断为异常。

对浮动IP地址正在启动的NIC的Link Up/Down进行监视。发现NIC的Link Down时判断为异常。根据NIC驱动程序的不同,有时无法支持所需的DeviceIoControl函数。此时,无法使用该设置。

4.6.2. 浮动IP监视资源相关注意事项

本资源在添加浮动IP资源时自动登录。各浮动IP资源对应的浮动IP监视资源将自动登录。

浮动IP监视资源设置了默认值,必要时请更改为合适的值。

4.6.3. 监视(固有)标签页

监视NIC Link Up/Down

设置是否监视NIC Link Up/Down。

4.7. 理解IP监视资源

IP监视资源是使用[ping]命令,通过是否有应答,对IP地址进行监视的监视资源。

4.7.1. IP监视资源的监视方法

使用[ping]命令对指定IP地址进行监视。若指定IP地址没有任何应答,则判断为异常。

  • 在存在多个IP地址,且全部IP地址出现异常,被判断为异常的情况下,请在1个IP监视资源中登录所有IP地址。

    下图是将所有IP地址都注册到1个IP监视资源中的示例。 指定的IP地址即使只有1个是正常的情况下,IP monitor 1都会判断为正常。

    运行IP监视资源的服务器和作为监视对象的3台服务器

    图 4.58 在1个IP监视资源中注册所有IP地址(正常)

    下图是将所有IP地址都注册到1个IP监视资源中的示例。 指定的IP地址全异常时,IP monitor 1判断为异常。

    运行IP监视资源的服务器和作为监视对象的3台服务器

    图 4.59 在1个IP监视资源中注册所有IP地址(查出异常)

  • 多个IP地址中,若要判断其中某一个为异常时,需要按照各个IP地址,分别创建IP监视资源。

    图中显示的是将IP地址一个个注册到各IP监视资源中时的示例。 指定的IP地址查出异常时,IP监视资源(图中为IP monitor 1)判断为异常。

    运行IP监视资源的服务器和作为监视对象的3台服务器

    图 4.60 将IP地址一个个注册到各IP监视资源中(查出异常)

4.7.2. 监视(固有)标签页

[IP地址列表]中显示要监视的IP地址列表。

添加

添加要监视的IP地址。显示[请输入IP地址]对话框。

IP地址 (255字节以内)

输入进行监视的IP地址,点击[确定]。请输入可通过公网LAN进行通信的实际IP地址。

删除

在监视对象中删除[IP地址]中选中的IP地址。

编辑

显示输入IP地址的对话框。显示[IP地址]中选中的IP地址,编辑后点击[确定]。

Ping超时 (1~999999)

以毫秒为单位设置Ping所要监视的IP地址的超时时间。

4.8. 理解镜像磁盘监视资源

对镜像分区设备(镜像驱动程序)的完整性进行监视。

4.8.1. 镜像磁盘监视资源的注意事项

本资源在添加镜像磁盘资源时自动被登录。各镜像磁盘资源对应的镜像磁盘监视资源被自动登录。
请注意删除了本资源后,不能进行自动镜像复归。

4.8.2. 监视(固有)标签页

镜像磁盘资源

显示进行监视的镜像磁盘资源。

参照

显示[选择镜像磁盘资源]的对话框,设置进行监视的镜像磁盘资源。树形显示集群中登录的镜像磁盘资源。仅可以选择镜像磁盘资源。选择镜像磁盘资源,点击[确定]。

4.10. 理解多目标监视资源

多目标监视资源对多个监视资源进行监视。

4.10.1. 多目标监视资源的注意事项

多目标监视资源将登录中监视资源的状态下线(offline)处理为异常。为此,已登录启动时监视的监视资源时,因监视资源不能查出异常的状态下,多目标监视器资源查出异常的现象。请勿登录启动时监视的监视资源。

4.10.2. 多目标监视资源的状态

多目标监视资源的状态是根据已登录的监视资源状态进行判断。

如下设置多目标监视资源时
已登录的监视资源数 2
异常次数 2
警告次数 1

若2个监视资源均已登录,则多目标监视资源的状态如下所示。

多目标监视资源状态

监视资源1状态

正常
(normal)
异常
(error)
已停止
(offline)

监视资源2状态

正常
(normal)
正常
(normal)
警告
(caution)
警告
(caution)
异常
(error)
警告
(caution)
异常
(error)
异常
(error)
已停止
(offline)
警告
(caution)
异常
(error)
正常
(normal)
  • 多目标监视资源对已登录的监视资源状态进行监视。
    异常(error)状态的监视资源数超过异常次数时,多目标监视资源则会查出异常(error)。
    异常(error)状态的监视资源数超过警告次数时,多目标监视资源的状态会变为警告(caution)。
    若所有登录的监视资源状态都已停止(offline),多目标监视资源的状态将为正常(normal)。
    除了所有登录的监视资源状态均已停止(offline)的情况之外,多目标监视资源将已登录的监视资源状态处于已停止(offline)的情况判断为异常(error)。
  • 即便已登录的监视资源状态为异常(error),也不会执行该监视资源出现异常时的操作。
    仅在多目标监视资源出现异常(error)时,才会执行多目标监视资源出现异常时的操作。

4.10.3. 监视(固有)标签页

将监视资源分组后,对该组的状态进行监视。[监视资源一览]中最多可登录64个监视资源。

当本资源的[监视资源一览]中唯一设置的监视资源被删除时,本资源将会自动被删除。

添加

将选中监视资源添加到[监视资源一览]中。

删除

在[监视资源一览]中删除选中的监视资源。

调整

显示[多目标监视资源调整属性]对话框。进行多目标监视资源的详细设置。

多目标监视资源调整属性

参数标签页

显示与参数相关的详细设置。

异常次数

选择多目标监视器为异常的条件。

  • 与成员总数相同
    多目标监视器下指定的监视资源全都异常,或者既有异常又有已停止时,多目标监视器为异常。
    多目标监视器下指定的监视资源都为已停止时,属于正常。
  • 指定数
    在多目标监视器下指定的监视资源中,异常次数中设置的数值异常或者为已停止时,多目标监视器视为异常。
    在多目标监视器下指定的监视资源中,在多少个监视资源异常或者为已停止时,视为多目标监视器异常。设置该数值。
    异常次数的选择为[指定数]时可以进行设置。

警告次数

  • 选中复选框
    多目标监视器下指定的监视资源中,在多少个监视资源为异常或者已停止时,视为多目标监视器警告。设置该数值。
  • 未选中复选框
    多目标监视器部显示警告Alert。

默认值

返回默认值时使用。选择[默认值],则所有项目被设置成默认值。

4.11. 理解注册表同步监视资源

注册表同步监视资源对注册表同步资源进行监视。

4.11.1. 关于注册表同步监视资源的注意事项

本资源在添加注册表同步资源时自动登录。各注册表同步资源对应的注册表同步监视资源将自动登录。
注册表同步监视资源设置了默认值,必要时请更改为合适的值。

4.11.2. 监视(固有)标签页

没有注册表同步监视资源的监视(固有)标签页。

4.12. 理解磁盘TUR监视资源

磁盘TUR监视资源对磁盘资源中指定的磁盘进行监视。

4.12.1. 磁盘TUR监视资源相关注意事项

  • 在不支持SCSI的Test Unit Ready的磁盘,磁盘接口(HBA) 中无法使用。
    有时虽然硬件支持,但驱动程序不支持,所以也需要确认驱动程序的规格。
  • 相比较于通过磁盘RW监视写入数据,OS和磁盘的负载有所减少。

  • 使用Test Unit Read,有时无法发现实际媒体的I/O错误。

  • 监视对象磁盘发生磁盘路径故障时,通过磁盘路径冗余化软件等功能执行失效切换时,需将监视超时的时间(默认值300秒)设置成大于路径失效切换所需时间。

  • 本资源在添加磁盘资源时自动登录。各磁盘资源对应的磁盘TUR监视资源将自动登录。
    磁盘TUR监视资源设置了默认值,必要时请更改为合适的值。

4.12.2. 监视(固有)标签页

磁盘资源

选择磁盘资源。

参照

显示可登录的磁盘资源。

4.13. 理解服务监视资源

服务监视资源对服务资源或者服务进行监视。

4.13.1. 服务监视资源的监视方法

定期向服务控制管理器询问服务的状态,若处于"已停止"状态,则判断为出现异常。

4.13.2. 关于服务监视资源的注意事项

选择[监视时机]-[启动时监视],在[对象资源]中设置服务资源时,服务监视资源的[服务名]设置为服务资源的[服务名]。

4.13.3. 监视(固有)标签页

服务名 (1023字节以内)

设置服务资源中使用的服务名或服务显示名。

组合框的选项将显示从所有服务器中获取服务的服务名列表

如果服务名是在[监视时机]-[启动时监视]-[对象资源]中设置服务资源时,则不能更改设置。

连接

从所有服务器中获取服务列表后,将会更新[服务名]组合框中显示的服务名列表。

4.14. 理解虚拟计算机名监视资源

虚拟计算机名监视资源对虚拟计算机名资源进行监视。

4.14.1. 虚拟计算机名监视资源的监视方法

在启动了虚拟计算机名资源的服务器上进行监视。

定期监视虚拟计算机名控制进程的死活,查出进程消失时判断为异常。

4.14.2. 虚拟计算机名监视资源相关注意事项

  • 本资源在添加虚拟计算机名资源时将被自动登录。

  • 查出本资源异常时的有效最终运行只是"停止集群服务并关闭操作系统","停止集群服务并重启操作系统"或者"发生主动停止错误"。
    这是因为虚拟计算机名控制进程消失时,为了正常启动虚拟计算机名资源必须重启操作系统。
    默认设置为"停止集群服务并关闭操作系统"。请不要把这个值改为"停止集群服务并关闭操作系统","停止集群服务并重启操作系统","有意触发的停止错误"之外的值。虚拟计算机名控制进程消失时,关闭查出异常的服务器或者通过重启进行组的失效切换。

4.14.3. 监视(固有)标签页

没有虚拟计算机名监视资源的监视(固有)标签页。

4.15. 理解动态DNS监视资源

4.15.1. 动态DNS监视资源相关注意事项

关于动态DNS监视资源,没有详细设置。使用EXPRESSCLUSTER的动态DNS资源时使用。

  • 若添加动态DNS资源则自动地被新建。针对1个动态DNS资源可自动地新建1个动态DNS监视资源。

  • 不能删除动态DNS监视资源。若删除动态DNS资源则自动地被删除。

  • 请不要更改复归对象。

  • 不能通过[clpmonctrl]命令或从Cluster WebUI暂时停止,重新开始监视。

  • 在集群挂起时,若对象的动态DNS资源处于启动状态,则可以不停止动态DNS监视资源继续动作。

  • 可定期进行DDNS控制进程(clpddnsp.exe)的死活监视,检测出进程的消失时判断为异常。死活监视的间隔是[监视(共通)]标签页-[间隔]。但是,监视对象的动态域名解析资源[详细]标签页-[定期执行动态更新]复选框未选中时,会创建DDNS控制进程(clpddnsp.exe),但不进行死活监视。

  • DNS服务器宕机时,根据设置执行失效切换。因此,推荐结合IP监视资源来确认是否可以与DNS服务器通信。

4.15.2. 监视(固有)标签页

执行域名解析检查

  • 选中复选框 (默认值)
    向DDNS服务器发送DNS query包执行域名解析检查。
  • 不选中复选框
    不执行域名解析检查。

4.16. 理解虚拟IP监视资源

虚拟IP监视资源用来监视虚拟IP资源。

4.16.1. 虚拟IP监视资源的监视方法

在启动了虚拟IP资源的服务器上进行监视。

监视IP地址列表中是否存在虚拟IP地址。如果IP地址列表中不存在虚拟IP地址,则判断为异常。

使用WMI监视已启动虚拟 IP地址的NIC的Link Up/Down。若检测出NIC的Link Down,则判断为异常。

4.16.2. 关于虚拟IP监视资源的注意事项

本监视资源是添加虚拟IP资源时自动被添加的。

4.16.3. 监视(固有)标签页

没有虚拟IP监视资源的监视(固有)标签页。

4.17. 理解CIFS监视资源

CIFS监视资源用来监视CIFS资源。

4.17.1. CIFS监视资源的监视方法

在启动了CIFS资源的服务器上进行监视。

取得在服务器上公开的共享文件夹信息,监视其中是否包含通过CIFS资源公开的文件夹。通过CIFS资源公开的共享文件夹不存在时,判断为异常。

此外,实际上可以监视是否允许访问共享文件夹。

自动保存驱动器共享设置时,也实行监视和保存共享设置功能的死活监视。

4.17.2. CIFS监视资源相关注意事项

  • 执行访问检查时,作为检查方法指定的访问,必须通过CIFS监视资源对本地系统账户设定访问许可。

  • 通过监视对象的CIFS资源自动保存驱动器共享设置,[路径]不指定文件夹名,通过CIFS监视资源执行访问检查时,对自动保存对象的驱动器上的所有共享文件夹进行作为检查方法指定的访问。因此,必须对各共享文件夹设置访问许可。另外,指定作为检查方法的文件夹检查或者文件检查的[读取]时,各共享文件夹上必须存在[路径]中被指定的文件夹/文件。

  • 本资源在添加CIFS资源时自动登录。各CIFS资源对应的CIFS监视资源将自动登录。
    CIFS监视资源设置了默认值,必要时请更改为适当的值。

4.17.3. 监视(固有)标签页

检查帐户

对于共享文件夹的访问设置检查的方法。

  • 关闭 (default)
    不进行访问检查。
  • 检查文件夹
    通过[路径]确认可以参考被指定的文件夹。
  • 检查文件
    通过[路径]确认可以对被指定文件进行读写,或读入处理。

路径 (255字节以内)

通过指定共享文件夹内的路径或共享文件夹中的相对路径来作为访问检查对象的文件/文件夹。

文件夹检查时指定存在在共享文件夹上的文件夹。

选择了监视对象的CIFS资源的[执行驱动器共享设置自动保存]时,指定包含共享文件夹的绝对路径或共享文件夹的相对路径。根据指定的不同,为[检查账户]预先创建的文件/文件夹将有所不同。

  • 指定包含共享文件夹的路径来时:有必要事先创建具有指定共享名的文件夹/文件。路径请指定为「<共享名>\文件夹名\文件名」。共享名请用<>包括。

  • 通过共享文件夹的相对路径来指定时:需要在进行共享设置的所有文件夹上事先创建相同名称的文件夹。

单独指定监视对象的CIFS资源的共享设置时([执行驱动器共享设置自动保存]没有选择时),则通过共享文件夹的相对路径指定。

选择[读/写]的文件检查方法时,因为新建被指定的文件,请指定与已经存在的文件不重复的文件名。

选择[读取]的文件检查方法时,请指定存在在共享文件夹上的文件。此外,在监视对象的CIFS资源中设定为[执行驱动器共享设置自动保存]时,需要在执行了共享设定的所有的文件夹中提前做成相同名字的文件。

检查

在文件检查中选择确认访问时的方法。

  • 读/写 (default value)
    确认对文件进行写入,读入写入的内容。
  • 读取
    确认打开文件读入内容。

4.18. 理解共享型镜像磁盘监视资源

对共享型镜像磁盘的镜像分区设备(镜像驱动程序)的完整性进行监视。

4.18.1. 共享型镜像磁盘监视资源的注意事项

本资源在添加共享型镜像磁盘资源时被自动登录。各共享型镜像磁盘资源对应的共享型镜像磁盘监视资源被自动登录。

请注意删除了本资源后,不能进行自动镜像复归。
详细请参考本指南的"10. 疑难解答" - "镜像中断状态的恢复" - "自动复原镜像"。

4.18.2. 监视(固有)标签页

共享型镜像磁盘资源

显示进行监视的共享型镜像磁盘资源。

参照

显示选择共享型镜像磁盘资源的对话框,设置进行监视的共享型镜像磁盘资源。树形显示集群中登录的共享型镜像磁盘资源。仅可以选择共享型镜像磁盘资源。选择共享型镜像磁盘资源,点击[确定]。

4.19. 理解共享型镜像磁盘TUR监视资源

共享型镜像磁盘TUR监视资源是对共享型镜像磁盘资源中指定的磁盘进行监视。

4.19.1. 共享型镜像磁盘TUR监视资源的注意事项

  • 本资源在添加共享型镜像磁盘资源时被自动登录。各共享型镜像磁盘资源对应的共享型镜像磁盘TUR监视资源被自动登录。
    请注意删除了本资源后,不能进行自动镜像复归。详细请参考本指南的"10. 疑难解答" - "镜像中断状态的恢复" - "自动复原镜像"。
  • 在不支持SCSI的Test Unit Ready的磁盘,磁盘接口 (HBA)中无法使用。
    即使是在硬件支持的情况下,有时驱动程序也不支持,因此请结合驱动程序的规格进行确认。
  • 与磁盘RW监视的数据写入相比,OS及磁盘的负荷减少。

  • 在Test Unit Ready中,对实际媒体的I/O错误有时无法查出。

4.19.2. 监视(固有)标签页

共享型镜像磁盘资源

选择共享型镜像磁盘资源。

参照

显示可登录的共享型镜像磁盘资源。

4.20. 理解自定义监视资源

自定义监视资源是通过执行任意的脚本对系统进行监视的一种监视资源。

4.20.1. 自定义监视资源的监视方法

自定义监视资源通过任意的脚本进行系统监视。

监视方式为[同步]时,定期执行脚本,通过该错误代码判断是否异常。

监视方式为[异步]时,在监视开始时执行脚本,如该脚本进程消失则判断为异常。

4.20.2. 有关自定义监视资源的注意事项

  • 执行批处理文件中用于向提示符输出信息(标准输出,错误输出)的命令时,由于执行命令的过程中批处理文件有可执行停止,请在文件输出目的地指定文件或者nul(目录)。

  • 监视类型为[异步]时,请在超时中设置比监视开始等待时间大的值。

4.20.3. 监视(固有)标签页

用户应用程序

使用作为脚本的可在服务器上执行的文件(可执行的批处理文件,执行文件)。各可执行文件名在服务器上的本地磁盘绝对路径中设置。

各可执行文件不包含在Cluster WebUI的集群配置信息中。由于无法在Cluster WebUI中进行编辑和上传,所以需要在各服务器上准备。

用Cluster WebUI创建的脚本

使用作为脚本的在Cluster WebUI中准备的脚本文件。可以在Cluster WebUI中编辑脚本文件。脚本文件包含在集群配置信息中。

文件 (1023字节内)

选择[用Cluster WebUI创建的脚本]时,执行的脚本(可执行的批处理文件,执行文件)在服务器上的本地磁盘绝对路径中设置。只是,脚本后不能指定参数。

显示

选择[用Cluster WebUI创建的脚本]时,显示脚本文件。

编辑

选择[用Cluster WebUI创建的脚本]时,编辑脚本文件。如要反映更改时,请点击[保存]。无法更改脚本文件名。

替换

选择[用Cluster WebUI创建的脚本]时,将脚本文件的内容替换为文件选择对话框中选择的脚本文件内容。如脚本已经为显示中或者编辑中时,无法替换。请选择脚本文件。请不要选择二进制文件(应用程序)。

监视方式

选择监视方法。

  • 同步(默认值)
    定期执行脚本,通过该错误代码判断是否异常。
  • 异步
    在监视开始时执行脚本,如该进程消失则判断为异常。

正常的返回值 (1023字节内)

监视类型为[同步]时,对于脚本的错误代码是什么值时判断为正常进行设置。有多个值时,像0,2,3这样用逗号分隔开,或者像0-3这样用连字号指定数值范围。

默认值:0

退出时强制结束应用程序

应进行相应设置,确定是否需强制结束应用程序,以实现停止监视时的结束操作。设置完成后,系统将在结束应用程序时,采取强制终止操作,而非常规结束操作。仅当监视类型的设置值为"异步"时,才有效。

当停止集群时,等待启动时监控的停止

在集群停止时,等待自定义监视资源停止。只有在监视时机设置为[启动时]才有效。

执行用户

指定执行脚本的用户。可以从[集群属性]-[帐户]标签页中注册的用户中选择执行用户。
没有指定执行用户时,脚本将作为本地系统帐户执行。

4.21. 理解消息接收监视资源

消息接收监视资源是被动的监视。自身不执行监视处理。
是接收到EXPRESSCLUSTER的外部发行的异常发生通知时,执行消息接收监视资源的状态更改,异常发生时的恢复动作的监视资源。

4.21.1. 消息接收监视资源的监视方法

  • 接收到外部的异常发生通知时,执行设置了已通知的分类和关键词(可省略关键词)的消息接收监视资源的异常发生时的恢复动作。
    有多个设置了已通知的分类,关键词的消息接收监视资源时,执行各监视资源的恢复动作。
  • 消息接收监视可接收[clprexec] 命令。

图为使用消息接收监视资源的配置示例。 从clprexec命令接收到异常发生通知的Server2的消息接收监视资源(Message receive monitor resource),执行查出自身状态更改和异常时的复归动作。

执行clprexec命令的Server 1,运行消息接收监视资源的Server 2

图 4.61 使用消息接收监视资源的配置

4.21.2. 服务器组外失效切换

  • 接收到异常检测通知时,可使用主服务器对其他服务器组的服务器进行失效切换。

  • 需将服务器组和以下事项设置为ON。

    • 复归对象的组资源

      • 选中[使用服务器组的设置]

    • 消息接收监视资源

      • 将复归运行设置为[对复归对象执行失效切换]

      • 选中[向服务器组外失效切换]

  • 执行站点外失效切换时,动态失效切换和服务器组之间失效切换的设置无效。在失效切换源的服务器所属的服务器组以外的服务器组内的其它服务器上,向优先度最高的服务器执行失效切换。

属于运行服务器组的Server 1和Server 2,属于待机服务器组的Server 3和Server 4

图 4.62 使用消息接收监视资源的配置(服务器组外失效切换)

4.21.3. 消息接收监视资源相关注意事项

<消息接收监视资源的整体注意事项>

  • 在消息接收监视资源处于暂停状态下接收到外部的异常发生通知时,不执行异常时动作。

  • 接收到外部的异常发生通知时,消息接收监视资源的状态变成异常。变成异常的消息接收监视资源的状态不会自动恢复到正常。请使用[clprexec]命令将其状态恢复到正常。关于[clprexec]命令,请参考本指南的"9. EXPRESSCLUSTER命令参考"的"外部监视联动处理请求命令(clprexec命令)"。

  • 在接收到外部的异常发生通知,在消息接收监视资源的状态变成异常的状态下,接收到异常发生通知时,不执行异常发生时的恢复动作。

  • 复归操作为[对复归对象进行失效切换]时,若[对其他服务器组进行失效切换]设置为选中,则失效切换目标服务器与主服务器组为不同服务器组的服务器。但是上述设置中,若复归对象的组中没有设置服务器组,则失效切换目标由通常的失效切换策略决定。

4.21.4. 监视(固有)标签页

在监视类型和监视对象中使用[clprexec]命令的参数[-k]设置要传递的分类和关键字。可以省略监视对象。

分类 (32字节以内)

[clprexec]命令的参数[-k]指定传递的分类参数。
列表框中可选择既定的字符串或指定任意的字符串。

关键字 (1023字节以内)

[clprexec]命令的参数[-k]指定传递的关键字参数。

4.22. 理解进程名监视资源

进程名监视资源是监视任意的进程名的进程的监视资源。

4.22.1. 进程名监视资源的注意事项

进程数下限值为1,存在多个指定为监视对象的进程名之进程时,按以下条件选择一个进程作为监视对象,并进行监视。

存在多个指定为监视对象的进程名之进程时,按以下条件选择一个进程作为监视对象,并进行监视。

  1. 进程间存在主从关系时,监视主进程。

  2. 进程间无主从关系时,监视启动时间最早的进程。

  3. 若进程间无主从关系,且启动时间也相同,则监视进程ID最小的进程。

同一名称的进程多个存在时,根据进程的启动个数进行监视时,设置监视进程数下限值的个数。低于同一名称进程的设置个数时判断为异常发生。进程数的下限值的个数可指定为1到999之间。进程数下限值设置为1时,选择一个进程作为监视对象,并进行监视。

可指定为监视对象的进程名最多为1023字节。若指定超过1023字节的进程名之进程为监视对象时,使用通配符号(*)进行指定。

如果监视对象进程的进程名比1023字节长时,可以识别的进程名从开始位置到1023字节为止。如果通配符号(*)进行指定,则需指定包含1023字节以内的字符串。

监视对象的进程名过长时,输出到日志等的进程名信息以省略了后半部分的形式来显示。

监视的进程中如果进程名包含「"」(双引号),「,」(逗号)时,警报日志中的进程名有时可执行不能正确显示。

监视对象进程名通过以下的命令确认实际运行进程的进程名后设定。

EXPRESSCLUSTER安装路径\bin\GetProcess.vbs

执行上述命令,则输出执行命令的文件夹下属的GetProcess_Result.txt。打开GetProcess_Result.txt,请指定显示出的进程的CommandLine部分。输出信息中包含「"」(双引号)时,请将「"」一并指定。

输出文件例

20XX/07/26 12:03:13
Caption    CommandLine
services.exe    C:\WINDOWS\system32\services.exe
svchost.exe     C:\WINDOWS\system32\svchost -k rpcss
explorer.exe    C:\WINDOWS\Explorer.EXE
从上述的命令输出信息对 svchost.exe 进行监视时,
请将C:\WINDOWS\system32\svchost -k rpcss 指定为监视对象。

指定为监视对象进程名的进程名可以将进程参数也作为进程名的一部分特定为监视对象的进程。指定监视对象进程名时,请指定包括参数在内的进程名。仅监视不含参数的进程名时,请使用通配符号(*)来指定不含参数的前方一致或部分一致。

4.22.2. 进程名监视资源的监视方法

监视指定进程名的进程。进程数的下限值为1时,根据进程名确定进程ID,进程ID消失则判断为异常。无法检测出进程的停止。

进程数的下限值设置为大于1的数值时,根据个数对设置的进程名的进程进行监视。并根据进程名计算出监视对象进程的个数,低于下限值时判断为异常。不能查出进程的停止。

4.22.3. 监视(固有)标签页

进程名(1023字节以内)

设置监视的进程名。请务必进行设置。

默认值 :无

此外,可使用下述的3种模式指定进程名的通配符号。其它模式不可指定。

【前方一致】 <包含进程名中的字符串>*

【后方一致】 *<包含进程名中的字符串>

【部分一致】 *<包含进程名中的字符串>*

进程数量下限 (1~999)

设置作为监视对象的进程的监视个数。如果进程名中设置的监视对象的进程的个数低于设置值时,判断为异常。

4.23. 理解DB2监视资源

DB2监视资源是监视服务器上运行的DB2的数据库的监视资源。

4.23.1. DB2监视资源的注意事项

关于确认过运行的DB2版本,请参考《开始指南》的"EXPRESSCLUSTER的运行环境"-" EXPRESSCLUSTER Server的运行环境"-"监视可选软件已经确认完毕的应用程序信息"。

因为监视处理使用DB2的CLI,所以需要在执行监视的服务器上安装用于接口的DLL (DB2CLI.DLL/DB2CLI64.DLL)。

请在监视对象资源中指定启动DB2的服务资源或脚本资源。启动监视对象资源后,开始监视。但如果启动监视对象资源后,发生数据库不能立即运行等情况,请通过[监视开始等待时间]进行调整。

开始监视时,创建监视表。因为失效切换组停止导致监视也停止时,会删除监视表。监视暂时中断等情况下,不会删除监视表。另外,由于系统异常等导致服务器在失效切换组停止前发生宕机等现象时,不会删除监视表,所以下次开始监视时,会显示"a monitor table exists"的错误消息,这不属于异常。

关于下一节"DB2监视资源的监视方法 "中说明的监视级别的内容,请注意以下几点。
在"级别1"中开始监视时,若无监视表,则置于监视错误。请创建以下监视表。
在"级别2"中开始监视时,若无监视表,则EXPRESSCLUSTER自动生成监视表。此时,在Cluster WebUI的警告日志上显示无监视表的消息。

选择的监视级别

事先创建监视表格

级别1(在select中的监视)

有必要

级别2(在update/select中的监视)

无必要

可按以下步骤创建监视表格。

(以监视表格名为DB2watch时为例)
sql> create table DB2WATCH (num int not null primary key)
sql> insert into DB2WATCH values(0)
sql> commit

4.23.2. DB2监视资源的监视方法

DB2监视资源按从以下监视级别中选择的级别进行监视。

  • 级别1(在select中的监视)
    该监视只对监视表格进行参照。对监视表格执行的SQL语句为( select )。
    作为监视结果,如果出现以下情况则视为异常。
    1. 数据库连接失败时

    2. SQL语句响应中通知异常时

  • 级别2(在update/select中的监视)
    该监视还对监视表格进行更新。通过SQL语句,对最大为10位的数值数据进行写入和读入操作。对监视表格执行的SQL语句为( create / update / select / drop )。
    作为监视结果,如果出现以下情况则视为异常。
    1. 数据库连接失败时

    2. SQL语句响应中通知异常时

    3. 写入和读入的数据不一致时

4.23.3. 监视(固有)标签页

监视级别

从以下选项中选择一项。请务必进行设置。

  • 级别1(在select中的监视)
    该监视只对监视表格进行参照。对监视表格执行的SQL语句为(select )。
  • 级别2(在update/select中的监视)
    该监视还对监视表格进行更新。对监视表格执行的SQL语句为( create / update / select / drop )。

默认值 : 级别2 (在update/select的监视)

数据库名 (255字节以内)

指定要监视的数据库名。请务必设置。

默认值:无

实例名 (255字节以内)

指定要监视的数据库的实例名。请务必设置。

默认值:DB2

用户名 (255字节以内)

指定登录数据库时使用的用户名。

默认值:db2admin

密码 (255字节以内)

指定登录数据库时使用的密码。按下[更改]按钮,显示指定密码的对话框,可在此进行设置。

默认值:无

监视表名 (255字节以内)

指定在数据库上创建的用于监视的表格的名称。请务必设置。因为该表需要创建和删除,请注意不要与运行时用到的表格重名。另外,还需要注意不要与SQL语句的保留字重复。
根据数据库式样,监视的表名有不能设置的字符。详细请确认数据库的式样。

默认值:DB2WATCH

4.24. 理解FTP监视资源

FTP监视资源对服务器上运行的FTP服务进行监视。它监视FTP协议,而不是监视特定的应用程序。因此,可以对使用FTP协议的各种应用程序进行监视。

4.24.1. FTP监视资源的注意事项

请在监视对象资源中指定启动FTP的服务资源或脚本资源等。启动监视对象资源后,开始监视。但如果启动监视对象资源后,发生FTP不能立即运行等情况,请通过[监视开始等待时间]进行调整。

针对每个监视操作,FTP服务自身将会输出运行日志等。请根据需要,通过FTP的设置进行控制。

将FTP服务器的FTP消息(横幅,连接FTP时的通知等)从既定的设置变更时,有可执行被视为监视异常。

在[协议]中选择FTPS时,必须在[集群属性]的[加密]标签页中设置OpenSSL库的安装路径。FTPS使用的OpenSSL库的版本仅支持OpenSSL 1.1.1。

4.24.2. FTP监视资源的监视方法

FTP监视资源进行以下监视。

连接FTP服务器,执行文件列表获取命令。

作为监视结果,如果出现以下情况则视为异常。

  1. FTP资源连接失败时

  2. 在对FTP命令的响应中通知有异常时

4.24.3. 监视(固有)标签页

IP地址 (255字节以内)

指定要监视的FTP服务器的IP地址。请务必设置。
由于一般情况下连接到在自身服务器中运行的FTP服务器上,因此设置回环地址(127.0.0.1)。但因FTP服务器设置对能够连接的地址进行了限制时,设置可连接的地址(浮动IP地址等)。

默认值:127.0.0.1

端口号 (1~65535)

指定要监视的FTP的端口号。请务必设置。

默认值:21

用户名 (255字节以内)

指定登录FTP时使用的用户名。

默认值:无

密码 (255字节以内)

指定登录FTP时使用的密码。按下[更改]按钮,显示指定密码的对话框,可在此进行设置。

默认值:无

协议

设置用于与 FTP 服务器通信的协议。 通常选择 FTP,但如果需要通过 FTP over SSL / TLS 进行连接,请选择 FTPS。

默认值 : FTP

4.25. 理解HTTP监视资源

HTTP监视资源监视服务器上运行的HTTP服务。它监视HTTP协议,而不是特定的应用程序。因此,可以对使用HTTP协议的各种应用程序进行监视。

4.25.1. HTTP监视资源的注意事项

请在监视对象资源中指定启动HTTP的服务资源或脚本资源等。启动监视对象资源后,开始监视。但如果启动监视对象资源后,发生HTTP不能立即运行等情况,请通过[监视开始等待时间]进行调整。

针对每个监视操作,HTTP服务自身会输出运行日志等。请根据需要,通过HTTP的设置进行控制。

HTTP监视资源不支持客户端认证。

可用于 HTTP 监视资源的 DIGEST 认证的算法是 MD5。

4.25.2. HTTP监视资源的监视方法

HTTP监视资源进行以下监视。

连接到服务器上的HTTP Daemon,通过发送HTTP request执行HTTP daemon监视。

作为监视结果,如果出现以下情况则视为异常。

  1. 连接HTTP daemon时通知异常

  2. 应答HTTP request的信息不是以"HTTP/"开头

  3. 应答HTTP request的状态代码为400,500时(监视 URI指定默认值以外的URI时)

4.25.3. 监视(固有)标签页

连接目的端 (255字节以内)

指定要监视的HTTP服务器的IP地址。请务必设置。
由于一般情况下连接到在自身服务器中运行的HTTP服务器上,因此设置回环地址(127.0.0.1)。但因HTTP服务器设置对能够连接的地址进行了限制时,设置可连接的地址(浮动IP地址等)。

默认值:127.0.0.1

端口号 (1~65535)

指定要监视的HTTP的端口号。请务必设置。

默认值:
80(HTTP)
443 (HTTPS)

监视URI (255字节以内)

指定要监视的HTTP的URI。

如果不指定,则对document root进行监视。不需要创建监视用页面。

如果指定,则对指定的特定URI进行监视。指定的URI需要具备可匿名访问的权限。

使用从document root开始的URI进行如下描述。
(例) 监视对象Web页面的URL为
/watch/sample.htm

默认值:无

协议

设置和HTTP服务器通信使用的协议。一般选择HTTP,但是必须通过HTTP over SSL连接时选择HTTPS。

注解

如果选择了[HTTPS],则无论选择哪种请求类型选项,都将发出GET请求。

Request类型

设置连接到HTTP服务器时的HTTP Request的类型。请务必进行设置。

默认值 : HEAD

认证方式

设置连接到 HTTP 服务器时的认证方法。

默认值 : 无需认证

用户名 (255字节以内)

设置登录HTTP时的用户名。

默认值:无

密码 (255字节以内)

设置登录HTTP时的密码。

默认值:无

4.26. 理解IMAP4监视资源

IMAP4监视资源对服务器上运行的IMAP4服务进行监视。它监视IMAP4协议,而不是特定的应用程序。因此,可以对使用IMAP4协议的各种应用程序进行监视。

4.26.1. IMAP4监视资源的注意事项

请在监视对象资源中指定启动IMAP4服务器的服务资源及脚本资源等。虽然在启动对象资源后开始进行监视,但如果对象资源启动后IMAP4服务器不能立即运行或其他情况下,请通过[监视开始等待时间]进行调整。

针对每个监视动作,有时IMAP4服务器本身会输出运行日志等,请通过IMAP4服务器侧的设置进行适当控制。

4.26.2. IMAP4监视资源的监视方法

IMAP4监视资源进行以下监视。

连接IMAP4服务器,执行运行确认命令。

作为监视结果,如果出现以下情况则视为异常。

  1. 连接IMAP4服务器失败

  2. 在对命令的响应中通知有异常时

4.26.3. 监视(固有)标签页

IP地址 (255字节以内)

指定要监视的IMAP4服务器的IP地址。请务必设置。
由于一般情况下连接到在自身服务器中运行的IMAP4服务器上,因此设置回环地址(127.0.0.1)。但因IMAP4服务器设置对能够连接的地址进行了限制时,设置可连接的地址(浮动IP地址等)。

默认值:127.0.0.1

端口号 (1~65535)

指定要监视的IMAP4的端口号。请务必设置。

默认值:143

用户名 (255字节以内)

指定登录IMAP4时使用的用户名。

默认值:无

密码 (189字节以内)

指定登录IMAP4时使用的密码。按下[更改]按钮,显示指定密码的对话框,可在此进行设置。

默认值:无

认证方式

指定登录IMAP4时使用的认证方法。需要与使用的IMAP4的设置保持一致。

  • AUTHENTICATE LOGIN(默认值)
    使用AUTHENTICATE LOGIN命令的加密认证方式。
  • LOGIN
    使用LOGIN命令的明文方式。

4.27. 理解ODBC监视资源

ODBC监视资源用于监视服务器上运行的ODBC数据库。

4.27.1. ODBC监视资源的注意事项

因为监视处理使用ODBC驱动程序,所以需要事先使用Windows的ODBC数据源管理器对数据源进行设置。数据源添加到系统数据源内。

请在监视对象资源中指定启动的服务资源或脚本资源等。启动监视对象资源后,开始监视。但如果启动监视对象资源后,发生数据库不能立即运行等情况,请通过[监视开始等待时间]进行调整。

开始监视时,创建监视表。因为失效切换组停止导致监视也停止时,会删除监视表。监视暂时中断等情况下,不会删除监视表。另外,由于系统异常等导致服务器在失效切换组停止前发生宕机等现象时,不会删除监视表,所以下次开始监视时,会显示"a monitor table exists"的错误消息,这不属于异常。

针对每个监视操作,数据库自身将会输出运行日志等。请根据需要,通过数据库的设置进行控制。

关于下一节"ODBC监视资源的监视方法 "中说明的监视级别的内容,请注意以下几点。
在"级别1"中开始监视时,若无监视表,则置于监视错误。请创建以下监视表。
在"级别2"中开始监视时,若无监视表,则EXPRESSCLUSTER自动生成监视表。此时,在Cluster WebUI的Alert 日志上显示无监视表的消息。

选择的监视级别

事先创建监视表格

级别2(在select中的监视)

有必要

级别2(在update/select中的监视)

无必要

可按以下步骤创建监视表格。

(以下是监视表格名为ODBCWATCH时)
sql> create table ODBCWATCH (num int not null primary key);
sql> insert into ODBCWATCH values(0);
sql> commit;

4.27.2. ODBC监视资源的监视方法

ODBC监视资源按从以下监视级别中选择的级别进行监视。

  • 级别1(在select中的监视)
    该监视只对监视表格进行参照。对监视表格执行的SQL语句为 (select)。
    作为监视结果,如果出现以下情况则视为异常。
    1. 连接数据库失败时

    2. 在响应SQL语句过程中接到异常通知时

  • 级别2(在update/select中的监视)
    该监视还对监视表格进行更新。通过SQL语句,对最大为10位的数值数据进行写入和读入操作。监视开始,结束时将创建,删除监视表格。对监视表格执行的SQL语句为( create / update / select / drop )。
    作为监视结果,如果出现以下情况则视为异常。
    1. 连接数据库失败时

    2. 在响应SQL语句过程中接到异常通知时

    3. 写入和读入的数据不一致时

4.27.3. 监视(固有)标签页

监视级别

从以下选项中选择一项。请务必进行设置。

  • 级别1(在select中的监视)
    该监视只对监视表格进行参照。对监视表格执行的SQL语句为(select)。
  • 级别2(在update/select中的监视)
    该监视还对监视表格进行更新。对监视表格执行的SQL语句为(create / update / select / drop)。

    默认值:级别2(在update/select中的监视)

数据源名 (255字节以内)

指定要监视的数据源名。请务必设置。

默认值:无

用户名 (255字节以内)

指定登录数据库时使用的用户名。如果在设置数据源时已经设置用户名,则不需要指定。

默认值:无

密码 (255字节以内)

指定登录数据库时使用的密码。按下[更改]按钮,显示指定密码的对话框,可在此进行设置。

默认值:无

监视表名 (255字节以内)

指定在数据库上创建的用于监视的表格的名称。请务必设置。因为该表需要创建和删除,请注意不要与运行时用到的表格重名。另外,还需要注意不要与SQL语句的保留字重复。根据数据库的式样,监视的表名有不能设置的字符。详细请确认数据库的式样。

默认值:ODBCWATCH

4.28. 理解Oracle监视资源

Oracle监视资源是监视服务器上运行的Oracle的监视资源。

4.28.1. Oracle监视资源的注意事项

关于已经进行操作确认的Oracle版本,请参考《开始指南》"EXPRESSCLUSTER的运行环境"-"EXPRESSCLUSTER Server的运行环境"-"监视可选软件已经确认完毕的应用程序信息"。

因为监视处理使用Oracle的OCI,所以需要在执行监视的服务器上安装用于接口的DLL (OCI.DLL)。

请在监视对象资源中指定启动Oracle的服务资源或脚本资源。启动监视对象资源后,开始监视。但如果启动监视对象资源后,发生数据库不能立即运行等情况,请通过[监视开始等待时间]进行调整。

开始监视时,创建监视表。因为失效切换组停止导致监视也停止时,会删除监视表。监视暂时中断等情况下,不会删除监视表。另外,由于系统异常等导致服务器在失效切换组停止前发生宕机等现象时,不会删除监视表,所以下次开始监视时,会显示"a monitor table exists"的错误消息,这不属于异常。

当参数操作系统认证复选框未选中时,Oracle监视通常使用密码认证,但在以下情况下,Oracle监视通过操作系统认证执行,并忽略指定的用户名和密码参数。
・参数认证方式选择SYSDBA。
・管理员用户属于Windows OS的ora_dba组。

指定为参数用户名的用户默认为sys,但另外创建用于监视的用户时,需授予各监视级别以下访问权限。(不授予sysdba权限时)

监视级别

必要的权限

级别0(数据库状态)

对于V$PROCESS的SELECT权限/对于V$INSTANCE的SELECT权限

级别1(在select中的监视)

对于V$PROCESS的SELECT权限/对于监视表格的SELECT权限

级别2(在update/select中的监视)

对于V$PROCESS的SELECT权限/对于CREATE TABLE/DROP ANY TABLE/监视表格的INSERT权限/对于监视表格的UPDATE权限/对于监视表格的SELECT权限

针对每个监视操作,Oracle自身将会输出运行日志等。请根据需要,通过Oracle的设置进行控制。

关于下一节"Oracle监视资源的监视方法 "中说明的监视级别的内容,请注意以下几点。
在"级别1"中开始监视时,若无监视表,则置于监视错误。请创建以下监视表。
在"级别2"中开始监视时,若无监视表,则EXPRESSCLUSTER自动生成监视表。此时,在Cluster WebUI的警告日志上显示无监视表的消息。

选择的监视级别

事先创建监视表格

级别0(数据库状态)

无必要

级别1(在select中的监视)

有必要

级别2(在update/select中的监视)

有必要

可按以下步骤创建监视表格。

(以监视表格名为orawatch时为例)
sql> create table ORAWATCH (num int primary key);
sql> insert into ORAWATCH values(0);
sql> commit;

※请创建指定为参数用户名的用户架构。

4.28.2. Oracle监视资源的监视方法

Oracle监视资源按从以下监视级别中选择的级别进行监视。

  • 级别0(数据库状态)
    参考Oracle的管理表格(V$INSTANCE表格),确认DB的状态(实例的状态)。该监视为简单监视,不对监视表格执行SQL语句。
    作为监视结果,如果出现以下情况则视为异常。
    1. Oracle 的管理表( V$INSTANCE 表)的状态( status )为未启动状态( MOUNTED,STARTED )时

    2. Oracle 的管理表( V$INSTANCE 表)的数据库状态( database_status )为未启动状态( SUSPENDED,INSTANCE RECOVERY )时

  • 级别1(在select中的监视)
    该监视只对监视表格进行参照。对监视表格执行的SQL语句为(select )。
    作为监视结果,如果出现以下情况则视为异常。
    1. 数据库连接失败时

    2. SQL语句响应中通知异常时

  • 级别2(在update/select中的监视)
    该监视还对监视表格进行更新。通过SQL语句,对最大为5位的数值数据进行写入和读入操作。对监视表格执行的SQL语句为( create / update / select / drop )。
    作为监视结果,如果出现以下情况则视为异常。
    1. 数据库连接

    2. SQL语句响应中通知异常时

    3. 写入和读入的数据不一致时

4.28.3. 监视(固有)标签页

监视方式

选择作为监视对象的Oracle功能。

  • 监听器和实例都监视
    按照设置的监视级别,监视数据库的连接,参照及更新等操作。
  • 监听器监视
    执行Oracle的命令(tnsping ),监视监听器是否在运行。需在监视资源属性中预先设置ORACLE_HOME。
    若没有设置ORACLE_HOME,则只对指定为连接字符串的目标进行连接处理动作的监视。在连接异常时,利用重启监听器的服务来尝试复原时使用。
    若选择本设置,则会忽略监视级别的设置。
  • 实例监视
    不经过监听器而直接连接(BEQ连接)数据库,按照设置的监视级别,监视数据库的连接,参照,更新等操作。需在监视资源属性中预先设置ORACLE_HOME。本方法用于不经过监听器而直接监视实例来设置复归操作。
    监视对象为Oracle12c的多租户(Multi-tenant)配置的数据库时,不能进行BEQ连接的监视。
    若没有设置ORACLE_HOME,则会连接指定为连接字符串的目标,当连接处理异常时选择忽略。本方法可与[只监视监听器]方法中的Oracle监视资源并用,可以对连接处理以外的异常进行的复原动作进行设置。

默认值:监听器和实例都监视

监视级别

从以下选项中选择一项。监视方式为"只监视监听器"时,会忽略本设置。

  • 级别0(数据库状态)
    参考Oracle的管理表格(V$INSTANCE表格),确认DB的状态(实例的状态)。该监视为简单监视,不对监视表格执行SQL语句。
  • 级别1(在select中的监视)
    该监视只对监视表格进行参照。对监视表格执行的SQL语句为(select )。
  • 级别2(在update/select中的监视)
    该监视还对监视表格进行更新。对监视表格执行的SQL语句为( create / update / select / drop )。

默认值 : 级别2 (在update/select中的监视)

连接字符串 (255字节以内)

指定要监视的数据库的连接字符串。请务必设置。

监视方式为"只监视实例"时,设置ORACLE_SID。

监视方式

ORACLE_HOME

连接字符串

监视级别

监视监听器和实例

不输入

指定连接字符串

按设置的级别监视

只监视监听器

已输入时,使用Oracle的命令监视

指定连接字符串

忽略级别设置

未输入时,确认经由监听器的实例连接

指定连接字符串

忽略级别设置

只监视实例

已输入时,通过BEQ连接确认实例

指定ORACLE_SID

按设置的级别监视

未输入时,确认经由监听器的实例

指定连接字符串

按设置的级别监视

默认值 :无连接字符串的默认值

用户名 (255字节以内)

指定登录数据库时使用的用户名。作为监视方法选择[只监视监听器]以外时,以及使用OS认证时,请务必设置。

默认值:sys

密码 (255字节以内)

指定登录数据库时使用的密码。按下[Change]按钮,显示指定密码的对话框,可在此进行设置。

默认值:无

操作系统认证

指定登录Oracle时的认证方式。需要与Oracle的设置保持一致。

  • 复选框被选中
    使用OS认证。
  • 复选框没有选中(默认值)
    使用数据库认证。

认证方式

指定登录Oracle时的用户权限。需要与指定的用户名的权限保持一致。

  • SYSDBA(默认值)
    使用SYSDBA连接。
  • DEFAULT
    使用普通用户权限连接。

监视表名 (255字节以内)

指定在数据库上创建的用于监视的表格的名称。请务必设置。因为该表需要创建和删除,请注意不要与运行时用到的表格重名。另外,还需要注意不要与SQL语句的保留字重复。根据数据库的式样,监视的表名有不能设置的字符。详细请确认数据库的式样。

默认值:ORAWATCH

ORACLE_HOME (255字节以内)

指定ORACLE_HOME设置的路径名。需要设置为[/]开头的名字。当监视方式为"只监视监听器","只监视实例"时使用。

默认值 : 无

字符编码

选择Oracle的字符编码。Oracle的语言是日语或英语以外时,选择[AMERICAN_AMERICA.US7ASCII]。

  • (Following the setting of the application)(默认值)
    选择安装在服务器上的Oracle的字符编码
  • AMERICAN_AMERICA.US7ASCII
    使用普通用户权限连接。Oracle的语言是日语或英语以外时,选择[AMERICAN_AMERICA.US7ASCII]。

发生错误时收集应用程序的详细信息

指定查出Oracle数据库异常时是否收集Oracle的详细信息。

  • 复选框选中
    收集Oracle的详细信息。
  • 未选中复选框(默认值)
    不收集Oracle的详细信息。

使用本功能时,由于利用本地系统帐户执行为收集信息的数据库处理,因此,本地系统帐户需要DBA权限。收集的详细信息文件存放在EXPRESSCLUSTER安装目录的work\rm\资源名\errinfo.cur文件夹下。多次收集的情况下,之前收集的文件夹的名字重命名为errinfo.1,errinro.2等,并且只存放最新的5次收集的信息文件。

注解

在收集过程中,因为EXPRESSCLUSTER停止等原因造成Oracle服务停止的场合,有可执行无法正确收集信息文件。
收集过程中请不要执行组的停止和移动等手动操作。根据手动操作的时机,之后的监视处理可执行不能正常动作。

收集超时(1~9999)

按秒单位来指定收集详细信息时的超时时间。

默认值:600

Oracle初始化或关闭时当作错误

在运行本功能时,查出Oracle初始化或关闭中的状态,则立即判定为监视错误。

与OracleClusterware等联动运行中自动重启Oracle时,请关闭此功能。即使Oracle初始化或关闭中的状态也判定为监视正常。

但是,持续一个小时以上的Oracle初始化或关闭中的状态时,则判定为监视错误。

默认值:关闭

4.29. 理解POP3监视资源

POP3监视资源用于监视服务器上运行的POP3服务。它监视POP3协议,而不是监视特定的应用程序。因此,可以对使用POP3协议的各种应用程序进行监视。

4.29.1. POP3监视资源的注意事项

请在监视对象资源中指定启动POP3服务器的服务资源或脚本资源等。启动监视对象资源后,开始监视。但如果启动监视对象资源后,发生POP3不能立即运行等情况,请通过[监视开始等待时间]进行调整。

针对每个监视操作,POP3自身会输出运行日志等。请根据需要,通过POP3的设置进行控制。

4.29.2. POP3监视资源的监视方法

POP3监视资源进行以下监视。

连接POP3服务器,执行运行确认命令。

作为监视结果,如果出现以下情况则视为异常。

  1. POP3服务器连接失败时

  2. 在对命令的响应中通知有异常时

4.29.3. 监视(固有)标签页

IP地址 (255字节以内)

指定要监视的POP3服务器的IP地址。请务必指定。
由于一般情况下连接到在自身服务器中运行的POP3服务器上,因此设置回环地址(127.0.0.1)。但因POP3服务器设置对能够连接的地址进行了限制时,设置可连接的地址(浮动IP地址等)。

默认值:127.0.0.1

端口号 (1~65535)

指定要监视的POP3的端口号。请务必指定。

默认值:110

用户名 (255字节以内)

指定登录POP3时使用的用户名。

默认值:无

密码 (255字节以内)

指定登录POP3时使用的密码。按下[更改]按钮,显示指定密码的对话框,可在此进行设置。

默认值:无

认证方式

选择登录POP3时使用的认证方式。需要与使用的POP3的设置保持一致。

  • APOP(默认值)
    使用APOP命令的加密认证方式。
  • USER/PASS
    使用USER/PASS命令的明文方式。

4.30. 理解PostgreSQL监视资源

PostgreSQL监视资源用于监视服务器上运行的PostgreSQL数据库。

4.30.1. PostgreSQL监视资源的注意事项

关于已经进行操作确认的PostgreSQL/PowerGres版本,请参考《开始指南》的"EXPRESSCLUSTER的运行环境" - "EXPRESSCLUSTER Server的运行环境" - "监视可选软件已经确认完毕的应用程序信息"。

因为监视处理使用PostgreSQL/PowerGres的库,所以需要在执行监视的服务器上安装用于接口的DLL (LIBPQ.DLL)。执行PostgreSQL的监视时,请在环境变量中设置该DLL的路径。

请在监视对象资源中指定启动PostgreSQL/PowerGres的服务资源或脚本资源等。启动监视对象资源后,开始监视。但如果启动监视对象资源后,发生数据库不能立即运行等情况,请通过[监视开始等待时间]进行调整。

开始监视时,创建监视表。因为失效切换组停止导致监视也停止时,会删除监视表。监视暂时中断等情况下,不会删除监视表。另外,由于系统异常等导致服务器在失效切换组停止前发生宕机等现象时,不会删除监视表,所以下次开始监视时,会显示"a monitor table exists"的错误消息,这不属于异常。

针对每个监视操作,PostgreSQL/PowerGres自身将会输出运行日志等。请根据需要,通过PostgreSQL/PowerGres的设置进行控制。

PostgreSQL因为是开放源码软件 (OSS),虽然进行了运行确认,但是不保证其运行。请分别进行测试后再运行。

因OS和PostgreSQL版本的原因,执行PostgreSQL监视时,可执行出现找不到程序库的错误输出。此时,请在系统环境系数的PATH上添加PostgreSQL的bin之后,请执行集群重启。

环境系数添加PATH时(下面以PostgreSQL9.6的bin的PATH为例)

C:\Program Files\PostgreSQL\9.6\bin

如果使用本监视资源,对PostgreSQL 侧的日志输出以下的提示消息。由于监视处理而输出的提示消息,没有问题。

YYYY-MM-DD hh:mm:ss JST moodle moodle LOG: statement: DROP TABLE psqlwatch
YYYY-MM-DD hh:mm:ss JST moodle moodle ERROR: table "psqlwatch" does not exist
YYYY-MM-DD hh:mm:ss JST moodle moodle STATEMENT: DROP TABLE psqlwatch
YYYY-MM-DD hh:mm:ss JST moodle moodle LOG: statement: CREATE TABLE psqlwatch (num INTEGER NOT NULL PRIMARY KEY)
YYYY-MM-DD hh:mm:ss JST moodle moodle NOTICE: CREATE TABLE / PRIMARY KEY will create implicit index "psqlwatch_pkey" for table "psql watch"
YYYY-MM-DD hh:mm:ss JST moodle moodle LOG: statement: DROP TABLE psqlwatch
关于下一节"PostgreSQL监视资源的监视方法 "中说明的监视级别的内容,请注意以下几点。
在"级别1"中开始监视时,若无监视表,则置于监视错误。请创建以下监视表。
在"级别2"中开始监视时,若无监视表,则EXPRESSCLUSTER自动生成监视表。此时,在Cluster WebUI的警告日志上显示无监视表的消息。

选择的监视级别

事先创建监视表格

级别1(在select中的监视)

有必要

级别2(在update/select中的监视)

有必要

可按以下步骤创建监视表格。

(以监视表格名为psqlwatch时为例)
sql> create table PSQLWATCH (num int not null primary key);
sql> insert into PSQLWATCH values(0);
sql> commit;

4.30.2. PostgreSQL监视资源的监视方法

PostgreSQL监视资源按从以下监视级别中选择的级别进行监视。

  • 级别1(在select中的监视)
    该监视只对监视表格进行参照。对监视表格执行的SQL语句为(select)。
    作为监视结果,如果出现以下情况则视为异常。
    1. 数据库连接失败时

    2. SQL语句响应中通知异常时

  • 级别2(在update/select中的监视)
    该监视还对监视表格进行更新。通过SQL语句,对最大为10位的数值数据进行写入和读入操作。对监视表格执行的SQL语句为( create / update / select / reindex / drop / vacuum )。
    作为监视结果,如果出现以下情况则视为异常
    1. 数据库连接失败时

    2. SQL语句响应中通知异常时

    3. 写入和读入的数据不一致时

4.30.3. 监视(固有)标签页

监视级别

从以下选项中选择一项。请务必进行设置。

  • 级别1(在select中的监视)
    该监视只对监视表格进行参照。对监视表格执行的SQL语句为(select)。
  • 级别2(在update/select中的监视)
    该监视还对监视表格进行更新。对监视表格执行的SQL语句为( create / update / select / reindex/drop/ vacuum )。

默认值 : 级别2 (在update/select中的监视)

数据库名 (255字节以内)

指定监视的数据库名。请务必指定。

默认值:无

IP地址

指定监视的数据库服务器的IP地址。请务必指定。

默认值:127.0.0.1

端口号

指定监视的PostgreSQL的端口号。请务必指定。

默认值:5432

用户名 (255字节以内)

指定登录数据库时使用的用户名。

默认值:postgres

密码 (255字节以内)

指定登录数据库时使用的密码。按下[更改]按钮,显示指定密码的对话框,可在此进行设置。

默认值:无

监视表名 (255字节以内)

指定在数据库上创建的用于监视的表格的名称。请务必指定。因为该表需要创建和删除,请注意不要与运行时用到的表格重名。另外,还需要注意不要与SQL语句的保留字重复。根据数据库的式样,监视的表名有不能设置的字符。详细请确认数据库的式样。

默认值:PSQLWATCH

PostgreSQL初始化或关闭时当作错误

将本功能设为有效时,若检测出PostgreSQL的初始化中或关机中的状态,则马上变为监视错误。将本功能设为无效时,即使处于PostgreSQL的初始化中或关机中的状态,也能变为监视正常。但是,若PostgreSQL的初始化中或关机中的状态持续1个小时以上,则变为监视错误。

默认值:有效

4.31. 理解SMTP监视资源

SMTP监视资源对服务器上运行的SMTP服务进行监视。它监视SMTP协议,而不是监视特定的应用程序。因此,可以对使用SMTP协议的各种应用程序进行监视。

4.31.1. SMTP监视资源的注意事项

请在监视对象资源中指定启动SMTP服务器的服务资源或脚本资源等。启动监视对象资源后,开始监视。但如果启动监视对象资源后,发生SMTP不能立即运行等情况,请通过[监视开始等待时间]进行调整。

针对每个监视操作,SMTP自身会输出运行日志等。请根据需要,通过SMTP的设置进行控制。

4.31.2. SMTP监视资源的监视方法

SMTP监视资源进行以下监视。

连接SMTP服务器,执行运行确认命令。

作为监视结果,如果出现以下情况则视为异常。

  1. SMTP服务器连接失败时

  2. 在对命令的响应中通知有异常时

4.31.3. 监视(固有)标签页

IP地址

指定监视的SMTP服务器的IP地址。请务必指定。

默认值:127.0.0.1

端口号

指定监视的SMTP的端口号。请务必指定。

默认值:25

用户名 (255字节以内)

指定登录SMTP时使用的用户名。如果没有指定用户名,则不执行SMTP认证。

默认值:无

密码 (255字节以内)

指定登录SMTP时使用的密码。按下[更改]按钮,显示指定密码的对话框,可在此进行设置。

默认值:无

认证方式

指定登录SMTP时使用的认证方式。需要与使用的SMTP的设置保持一致。

  • CRAM-MD5(默认值)
    使用CRAM-MD5的密码认证方式。
  • LOGIN
    使用LOGIN命令的明文方式。

邮件地址 (255字节以内)

指定监视时的邮件地址。

如果不指定,仅通过运行确认命令进行监视。内部执行使用伪邮件地址的命令。

如果指定,则对指定的地址执行[SMTP]命令,在确认结果的基础上进行监视。建议准备一个专门用于监视的邮件地址来指定。

默认值:无

4.32. 理解SQL Server监视资源

SQL Server监视资源用于监视服务器上运行的SQL Server数据库。

4.32.1. SQL Server监视资源的注意事项

关于已经进行了操作确认的SQL Server的版本,请参考《开始指南》的"EXPRESSCLUSTER的运行环境" - "EXPRESSCLUSTER Server的运行环境" - "监视可选软件已经确认完毕的应用程序信息"。

请在监视对象资源中指定启动SQL Server的服务资源或脚本资源等。启动监视对象资源后,开始监视。但如果启动监视对象资源后,发生数据库不能立即运行等情况,请通过[监视开始等待时间]进行调整。

开始监视时,创建监视表。因为失效切换组停止导致监视也停止时,会删除监视表。监视暂时中断等情况下,不会删除监视表。另外,由于系统异常等导致服务器在失效切换组停止前发生宕机等现象时,不会删除监视表,所以下次开始监视时,会显示"a monitor table exists"的错误消息,这不属于异常。

针对每个监视操作,SQL Server自身会输出运行日志等。请根据需要,通过SQL Server的设置进行控制。

关于下一节"SQL Server监视资源的监视方法 "中说明的监视级别的内容,请注意以下几点。
在"级别1"中开始监视时,若无监视表,则置于监视错误。请创建以下监视表。
在"级别2"中开始监视时,若无监视表,则EXPRESSCLUSTER自动生成监视表。此时,在Cluster WebUI的警告日志上显示无监视表的消息。

选择的监视级别

事先创建监视表格

级别0(数据库状态)

无必要

级别1(在select中的监视)

有必要

级别2(在update/select中的监视)

有必要

可按以下步骤创建监视表格。

(以下是监视表格名为SQLWATCH时)

  • SET IMPLICIT_TRANSACTIONS设定为ON时

    sql> create table SQLWATCH (num int not null primary key)
    sql> go
    sql> insert into SQLWATCH values(0)
    sql> go
  • SET IMPLICIT_TRANSACTIONS设定为OFF时

    sql> create table SQLWATCH (num int not null primary key)
    sql> go
    sql> insert into SQLWATCH values(0)
    sql> go
    sql> commit
    sql> go

4.32.2. SQL Server监视资源的监视方法

SQL Server监视资源按从以下监视级别中选择的级别进行监视。

  • 级别0(数据库状态)
    参照SQL Server的管理表格,确认DB的状态。该监视为简单监视,不进行SQL语句的发行。
    作为监视结果,如果出现以下情况则视为异常。
    1. 数据库的状态为非通信状态

  • 级别1(在select中的监视)
    该监视只对监视表格进行参照。对监视表格执行的SQL语句为(select)。
    作为监视结果,如果出现以下情况则视为异常。
    1. 连接数据库失败时

    2. 在响应SQL语句过程中接到异常通知时

  • 级别2(在update/select中的监视)
    该监视还对监视表格进行更新。通过SQL语句,对最大为10位的数值数据进行写入和读入操作。监视开始,结束时将创建,删除监视表格。对监视表格执行的SQL语句为(create / update / select / drop)。
    作为监视结果,如果出现以下情况则视为异常。
    1. 连接数据库失败时

    2. 在响应SQL语句过程中接到异常通知时

    3. 写入和读入的数据不一致时

4.32.3. 监视(固有)标签页

监视级别

从以下选项中选择一项。请务必进行设置。

  • 级别0(数据库状态)
    参照SQL Server的管理表格,确认DB的状态。该监视为简单监视,不进行SQL语句的发行。
  • 级别1(在select中的监视)
    该监视只对监视表格进行参照。对监视表格执行的SQL语句为(select)。
  • 级别2(在update/select中的监视)
    该监视还对监视表格进行更新。对监视表格执行的SQL语句为(create / update / select / drop)。

默认值:级别2(在update/select中的监视)

数据库名 (255字节以内)

指定监视的数据库名。请务必设置。

默认值:无

实例名 (255字节以内)

指定监视的数据库的实例名。请务必设置。

默认值:MSSQLSERVER

用户名 (255字节以内)

指定登录数据库时使用的用户名。如果没有指定用户名,则使用Windows认证。

默认值:SA

密码 (255字节以内)

指定登录数据库时使用的密码。按下[更改]按钮,显示指定密码的对话框,可在此进行设置。

默认值:无

监视表名 (255字节以内)

指定在数据库上创建的用于监视的表格的名称。请务必设置。因为该表需要创建和删除,请注意不要与运行时用到的表格重名。另外,还需要注意不要与SQL语句的保留字重复。根据数据库的式样,监视的表名有不能设置的字符。详细请确认数据库的式样。

默认值:SQLWATCH

ODBC驱动名 (255字节以内)

设置[开始]菜单->[管理工具] ->[数据源(ODBC)][驱动程序]标签页中显示的对象数据库设备名。
SQL Server 2014 : 选择[SQL Server Native Client 11.0]
SQL Server 2016,SQL Server 2017 : 选择[ODBC Driver 13 for SQL Server]
SQL Server 2019 : 选择[ODBC Driver 17 for SQL Server]
或者直接输入。

默认值:ODBC Driver 13 for SQL Server

4.33. 理解Tuxedo监视资源

Tuxedo监视资源用于监视服务器上运行的Tuxedo。

4.33.1. Tuxedo监视资源的注意事项

请在监视对象资源中指定启动Tuxedo的脚本资源,应用程序资源。启动对象资源后,开始监视。但如果启动对象资源后Tuxedo不能立即运行等时,请通过[监视开始等待时间]进行调整。

针对每个监视操作,Tuxedo自身会输出运行日志等。请根据需要,通过Tuxedo的设置进行控制。

4.33.2. Tuxedo监视资源的监视方法

Tuxedo监视资源进行以下监视。

利用Tuxedo的API,执行应用程序服务器的监视。

作为监视结果,如果出现以下情况则视为异常。

  1. 应用程序服务器的连接或对状态取得的应答中通知异常时

4.33.3. 监视(固有)标签页

应用服务器名 (255字节以内)

设置要监视的应用程序服务器名。请务必设置。

默认值:BBL

TUXCONFIG文件(1023字节以内)

设置Tuxedo的配置文件名。请务必设置。

默认值:无

4.34. 理解WebSphere监视资源

WebSphere监视资源用于监视服务器上运行的WebSphere。

4.34.1. WebSphere监视资源的注意事项

有关运行确认完毕的WebSphere版本请参考《开始指南》的"EXPRESSCLUSTER的运行环境" - "EXPRESSCLUSTER Server的运行环境" - "监视可选软件已经确认完毕的应用程序信息"。

请在监视对象资源中指定启动WebSphere服务器的服务资源及脚本资源等。在启动对象资源后开始监视。 但如果对象资源启动后WebSphere不能立即运行或其他情况下,请通过[监视开始等待时间]进行调整。

为了通过本监视资源进行监视必须具备JAVA环境。因为应用程序服务器系统利用了JAVA的功能,当JAVA发生停止等时也被视为异常。

针对每个监视动作,WebSphere服务本身会输出运行日志等,请通过WebSphere侧的设置进行适当控制。

4.34.2. WebSphere监视资源的监视方法

WebSphere监视资源进行以下监视。

利用WebSphere的[serverStatus.bat]命令,执行应用程序服务器的监视。

作为监视结果,如果出现以下情况则视为异常。

  1. 取得的应用程序服务器的状态中通知异常时

4.34.3. 监视(固有)标签页

应用服务器名 (255字节以内)

设置监视的应用程序服务器名。请务必设置。

默认值:server1

配置文件名 (1023字节以内)

设置WebSphere的Profile名。请务必设置。

默认值:default

用户名 (255字节以内)

设置WebSphere的用户名。请务必设置。

默认值:无

密码 (255字节以内)

设置WebSphere的密码。

默认值:无

安装路径 (255字节以内)

设置WebSphere的安装路径。请务必设置。

默认值: C:\Program Files\IBM\Websphere\AppServer

4.35. 理解WebLogic监视资源

WebLogic监视资源用于监视服务器上运行的WebLogic。

4.35.1. WebLogic监视资源的注意事项

有关运行确认完毕的WebLogic版本请参考《开始指南》的"EXPRESSCLUSTER的运行环境" - "EXPRESSCLUSTER Server的运行环境" - "监视可选软件已经确认完毕的应用程序信息"。

在本监视资源中选择 [WLST] 为监视方式时,为了进行监视必须具备Java环境。因为应用程序服务器系统利用了Java的功能,有时发生Java的死机时也视为异常。

为了通过本监视资源进行监视必须具备JAVA环境。因为应用程序服务器系统利用了JAVA的功能,当JAVA发生停止等时也被视为异常。

针对每个监视动作,WebLogic本身会输出运行日志等,请通过WebLogic侧的设置进行适当控制。

4.35.2. WebLogic监视资源的监视方法

WebLogic监视资源进行以下监视。

  • 监视方式:选择RESTful API 时

    WebLogic提供了称为WebLogic RESTful管理服务的RESTful API。

    通过此RESTful API执行应用程序服务器监视。

    作为监视结果,当以下应答通知异常时都视为异常。

    1. RESTful API 的应答中通知异常时

    注解

    监视方式:与WLST相比,可以减少监视时应用程序服务器的CPU负荷。

  • 监视方式:选择WLST时

    利用[weblogic.Admin]命令或[weblogic.WLST]命令执行connect,执行应用程序服务器监视。[weblogic.Admin]命令可执行时,执行[weblogic.Admin]命令。[weblogic.Admin]命令不可执行时,执行[weblogic.WLST]命令。

    作为监视结果,如果出现以下情况则视为异常。

    1. connect应答中通知异常时

    根据不同的[认证方式]执行以下的动作。

    • DemoTrust: 使用WebLogic的Demo用认证文件的SSL认证方式

    • CustomTrust: 使用用户做成的认证文件的SSL认证方式

    • Not Use SSL: 不执行SSL认证

4.35.3. 监视(固有)标签页

IP地址 (79字节以内)

设置要监视的服务器的IP地址。请务必设置。

默认值:127.0.0.1

端口号 (1~65535)

设置连接服务器时的端口号。请务必设置。

默认值:7002

监视方式

设置服务器的监视方式。请务必设置。

默认值:RESTful API

协议

设置要监视的服务器的协议。[监视方式]中选择RESTful API时,请务必选择。

默认值:HTTP

用户名 (255字节以内)

设置WebLogic的用户名。[监视方式]中选择RESTful API时,请务必输入。

默认值:weblogic

密码 (255字节以内)

设置WebLogic的密码。[监视方式]中选择RESTful API时,如有必要请输入。

默认值:无

账户隐藏

直接指定用户名和密码时请指定[关闭],文件中记述时请指定[开]。请务必设置。

默认值:[关闭]

配置文件 (1023字节以内)

设置保存用户信息的文件名。帐户Shadow为[开]时,请务必设置。

默认值:无

注册文件 (1023字节以内)

以全路径的形式设置用于保存访问配置文件路径的密码的文件名。帐户Shadow为[开]时,请务必设置。

默认值:无

用户名 (255字节以内)

设置WebLogic的用户名。帐户Shadow为[关闭]时,请务必设置。

默认值:weblogic

密码 (255字节以内)

设置WebLogic的密码。

默认值:无

认证方式

设置连接应用程序服务器时的认证方式。请务必设置。

如果想使用SSL通信进行监视时,[认证方法]请指定为[DemoTrust]或[CustomTrust]。

是否选择[DemoTrust]或[CustomTrust]取决于WebLogic Administraion Console上的设置。

如果WebLogic Administraion Console的[Keystore]是[Demo Identity and Demo Trust],请指定[DemoTrust]。 在这种情况下,不必设置[密钥文件]。

如果WebLogic Administraion Console的[Keystore]是[Custom Identity and Custom Trust],请指定[CustomTrust]。 在这种情况下,必须设置[密钥文件]。

默认值:DemoTrust

密钥文件 (1023字节以内)

设置SSL认证时的认证文件。认证方式为[CustomTrust]时,请务必设置。请设定为WebLogic Administraion Console上[Custom Identity Keystore]指定的文件。

默认值:无

安装路径 (255字节以内)

设置WebLogic的安装路径。请务必设置。

默认值:C:\Oracle\Middleware\Oracle_Home\wlserver

附加命令参数 (1023字节以内)

想更改移交给[webLogic.WLST]命令的选项时进行设置。

默认值:-Dwlst.offline.log=disable -Duser.language=en_US

4.36. 理解WebOTX监视资源

WebOTX监视资源用于监视服务器上运行的WebOTX。

4.36.1. WebOTX监视资源的注意事项

关于已经进行了操作确认的WebOTX的版本,请参考《开始指南》的"EXPRESSCLUSTER的运行环境" - "EXPRESSCLUSTER Server的运行环境" - "监视可选软件已经确认完毕的应用程序信息"。

请在监视对象资源中指定启动WebOTX的服务资源或脚本资源。启动对象资源后,开始监视。但如果启动对象资源后WebOTX不能立即运行等时,请通过[监视开始等待时间]进行调整。

为了通过本监视资源进行监视必须具备JAVA环境。因为应用程序服务器系统利用了JAVA的功能,当JAVA发生停止等时也被视为异常。

针对每个监视操作,WebOTX自身会输出运行日志等。请根据需要,通过WebOTX的设置进行控制。

WebOTX监视资源是利用WebOTX提供的otxadmin.bat命令来进行应用程序服务器的监视。WebOTX V10.1以上下otxadmin.bat命令所在的位置${AS_INSTALL}\bin不再包含在环境变量PATH中。监视WebOTX V10.1以上时请按照以下任意一种方式设置。

  • 系统环境变量PATH中添加otxadmin.bat命令配置的路径。

  • 在[安装路径]中设置WebOTX Application Server的安装路径 (例. C:\WebOTX)。

4.36.2. WebOTX监视资源的监视方法

WebOTX监视资源进行以下监视。

利用[otxadmin.bat]命令,来进行应用程序服务器的监视。

作为监视结果,如果出现以下情况则视为异常。

  1. ping应答中通知异常时

4.36.3. 监视(固有)标签页

连接目的端 (255字节以内)

设置要监视的服务器的服务器名。请务必设置。

默认值:localhost

端口号 (1~65535)

设置连接服务器时的端口号。请务必设置。

监视WebOTX用户域时,请设置WebOTX域的管理端口号。管理端口号是在创建域时在<域名>.properties的domain.admin.port中设置的端口号。<域名>.properties的详细信息请参照WebOTX的相关文档。

默认值:6212

用户名 (255字节以内)

设置WebOTX的用户名。请务必设置。

监视WebOTX用户域时,请设置WebOTX域的登录用户名。

默认值:无

密码 (255字节以内)

设置WebOTX的密码。

默认值:无

安装路径(1023 字节以内)

设置WebOTX Application Server 的安装路径。监视WebOTX Application Server V10.1及其以上版本时请务必设置。

默认值:无

4.37. 理解JVM监视资源

JVM监视资源监视在服务器上操作的Java VM,或监视应用程序服务器使用的资源利用信息。

4.37.1. JVM监视资源的注意事项

  • 在新建JVM监视资源之前,需要先在[集群的属性]的[JVM监视]标签页中把[Java安装路径]设定好。

  • 请指定WebLogic Server或WebOTX等在Java VM上操作的应用程序服务器作为监视对象的资源。虽然启动JVM监视资源后Java Resource Agent会开始监视,但当刚刚启动JVM监视资源后,监视对象(WebLogic Server或WebOTX)无法立即运行时,请调整[监视开始等待时间]。

  • [监视(共通)]-[重试次数]的设定禁用。想推迟查出异常时,请更改[集群]属性-[JVM监视]标签页-[资源统计设置]-[共通]-[重试次数]的设定。

  • JVM监视资源从监视开始到实际进行监视处理之间,JVM监视资源的状态变为"警告"。另外在这个时候,下列的信息会出现在Alert日志中,因为是表示监视准备中的信息,所以请忽略。
    Monitor jraw is in the warning status. (100 : not ready for monitoring.)

4.37.2. JVM监视资源的监视方法

JVM监视资源进行以下监视。

利用JMX(Java Management Extensions),执行应用程序服务器的监视。

作为监视结果,如果出现以下情况则视为异常。

无法连接监视对象的Java VM或应用程序服务器时

获取的Java VM或应用程序服务器的资源使用量规定次数(异常判定次数)超出客户定义的界限值时

出现以下监视结果则视为恢复正常。

重新开始复原操作后的监视时低于临界值时

注解

Cluster WebUI的[收集集群日志]不收集监视对象(WebLogic Server和WebOTX)的设置文件及日志文件。

图中显示的是通过JVM监视资源进行的监视操作。
在a)中开始监视作为监视对象的Java VM。
使用JMX(Java Management Extensions)对Java VM进行监视。
Java Resource Agent通过使用JMX定期获取用于Java VM的资源量来检查Java VM的状态。
当状态从正常变为异常时,在Cluster WebUI中显示在b)中查出的Java VM异常。
可以确认状态和警报。
此外,向事件日志和JVM操作日志通知在c)中发生故障。
使用警报服务时,还可以通过电子邮件进行报告。
a)之后,状态从异常变为正常时,在Cluster WebUI中显示在d)中查出Java VM已正常恢复。
此外,向事件日志和JVM操作日志通知在e)中已正常恢复。
_images/img_w_how-jvm-monitor-resources-perform-monitoring-10.png

图 4.63 通过JVM监视资源进行监视的流程

超过基本界限值时的操作如下。

图的水平轴显示时间,垂直轴显示是否已超过监视界限值(Exceeded/Not exceeded)。
在此,如果监视时超过界限值的状态持续超过异常判定界限值(图中为5次)以上,则判定为异常。
判断其处于异常状态后,如果异常判定界限值次数连续降低3次时,判断其为正常状态。
_images/img_how-jvm-monitor-resources-perform-monitoring-20.png

图 4.64 超过界限值时的操作

连续发生异常时情况如下

如果持续超过异常判定界限值,则判断为异常状况。
判断其处于异常状态后,即使再一次持续超过异常判定界限值,也不会在Cluster WebUI中再次显示警报。
_images/img_how-jvm-monitor-resources-perform-monitoring-30.png

图 4.65 连续发生异常时的动作

以监视Full GC(Garbage Collection)为例进行说明。

图中水平轴表示时间经过。 图的上面部分显示的是各监视时间是否查出GC发生,下面部分显示在每个时间点连续多少次查出Full GC。 当异常判定界限值Full GC连续发生,则JVM监视资源会检测到监视器异常。 由于异常判定界限值设置为5次,因此当查出Full GC达到5次时会检测到监视器异常。

Full GC对系统的影响很大,因此建议将异常判定界限值设为1次。

_images/img_how-jvm-monitor-resources-perform-monitoring-40.png

图 4.66 监视图(设置异常判定界限值为5次时)

4.37.3. 何谓JVM统计日志

JVM统计日志是保存了JVM监视资源所收集的监视对象Java VM的统计信息的文件。文件格式为csv格式。目标位置如下所示。

<EXPRESSCLUSTER 安装路径>\log\ha\jra\*.stat

下述的[监视项目]表示JVM监视资源的[属性]-[监视(固有)]标签页内的设置项目。

关于各监视项目,选中[监视],并且设置了阈值时,收集统计信息,输出信息到JVM统计日志。不选中[监视],以及选中[监视]但不设置阈值时,信息不会输出至JVM统计日志。

监视项目和相应的JVM统计日志如下所示。

监视项目

相应的JVM统计日志

[内存]标签页[监视堆内存使用率]
[内存]标签页[监视非堆内存使用率]
[内存]标签页[监视堆使用量]
[内存]标签页[监视非堆使用量]

jramemory.stat

[线程]标签页[监视运行中的线程数]

jrathread.stat

[GC]标签页[监视Full GC执行时间]
[GC]标签页[监视Full GC发生次数]

jragc.stat

[WebLogic]标签页[监视Work Manager的请求]
[WebLogic]标签页[监视线程Pool的请求]
选中上述任意一个时,输出wlworkmanager.stat和wlthreadpool.stat。不提供只输出一方的设置。
wlworkmanager.stat
wlthreadpool.stat

4.37.4. 确认监视对象Java VM的Java内存领域的使用量(jramemory.stat)

记录监视对象Java VM的Java内存领域使用量的日志文件。文件名可按照日志输出设置的周转方式,采用如下的任意一种。

  • 选择[集群的属性]-[JVM监视]标签页[日志输出设置]-[周转方式]-[文件大小]时:jramemory<从0开始的整数>.stat

  • 选择[集群的属性]-[JVM监视]标签页[日志输出设置]-[周转方式]-[时间]时:jramemory<YYYYMMDDhhmm>.stat

格式如下所示。

No

格式

说明

1

yyyy/mm/dd hh:mm:ss.SSS

表示记录日志的日期和时间。

2

半字节英文数字符号

表示监视对象Java VM的名称。是在JVM监视资源的[属性]-[监视固有]标签页[识别名]上所设置的值。

3

半字节英文数字符号

Java内存Pool的名称。详情请参阅"关于Java内存Pool名"。

4

半字节英文数字符号

Java内存Pool的类型。
Heap,Non-Heap

5

半字节数字

Java VM启动时向OS要求的内存量。单位为字节。(init)
在监视对象Java VM的启动时。可在以下的Java VM启动时以选项指定大小。
・HEAP:-Xms
・NON_HEAP permanent领域(Perm Gen):-XX:PermSize
・NON_HEAP code cache领域(Code Cache):-XX:InitialCodeCacheSize

6

半字节数字

Java VM目前使用的内存量。单位为字节。(used)

7

半字节数字

保证Java VM目前使用的内存量。单位为字节。(committed)
因内存的使用状况会发生增减,但务必要在used以上,max以下。

8

半字节数字

Java VM可使用的最大内存量。单位为字节。(max)
可在以下的Java VM启动时以选项指定大小。
・HEAP:-Xmx
・NON_HEAP permanent领域(Perm Gen):-XX:MaxPermSize
・NON_HEAP code cache领域(Code Cache):-XX:ReservedCodeCacheSize
例)
java -XX:MaxPermSize=128m -XX:ReservedCodeCacheSize=128m javaAP
上述的例子中,NON_HEAP的max为 128m+128m=256m。
(注意)
若-Xms与-Xmx指定为相同的值,则可执行变为(init)>(max)。这是因为,HEAP的max为-Xmx的指定而确保的领域大小减去Survivor Space的大小的一半后的大小。

9

半字节数字

从测量对象的Java VM启动开始的使用内存量的峰值。Java内存Pool的名称为HEAP,NON_HEAP时,与Java VM目前使用的内存量(used)相同。单位为字节。

10

半字节数字

[JVM类型]选择[Oracle Java(usage monitoring)]时请忽略。
[JVM类型]选择[Oracle Java(usage monitoring)]以外时,Java内存Pool的类型(No.4的field)为HEAP时,为max(No.8的field)×阈值(%)的内存量。单位为字节。
Java内存Pool的类型为HEAP以外时,固定为0。

4.37.5. 确认监视对象Java VM的线程运行状况(jrathread.stat)

记录监视对象Java VM的线程运行状况的日志文件。文件名可按照日志输出设置的周转方式,采用如下的任意一种。

  • 选择[集群的属性]-[JVM监视]标签页[日志输出设置]-[周转方式]-[文件大小]时:jrathread<从0开始的整数>.stat

  • 选择[集群的属性]-[JVM监视]标签页[日志输出设置]-[周转方式]-[时间]时:jrathread <YYYYMMDDhhmm>.stat

格式如下所示。

No

格式

说明

1

yyyy/mm/dd hh:mm:ss.SSS

表示记录日志的日期和时间。

2

半字节英文数字符号

表示监视对象Java VM的名称。是在JVM监视资源的[属性]-[监视固有]标签页[识别名]所设置的值。

3

半字节英文数字符号

表示监视对象Java VM目前运行中的线程数。

4

[半字节数字: 半字节数字:...]

表示监视对象Java VM死锁的线程ID。反复死锁数份额的ID。

5

半字节英文数字符号

表示监视对象Java VM死锁的线程的详细信息。按照以下形式反复线程数份额。
线程名, 线程ID, 线程状态, UserTime, CpuTime, WaitedCount, WaitedTime, isInNative, isSuspended <换行>
stacktrace<换行>
:
stacktrace<换行>
stacktrace=ClassName, FileName, LineNumber, MethodName, isNativeMethod

4.37.6. 确认监视对象Java VM的GC运行状况(jragc.stat)

记录监视对象Java VM的GC运行状况的日志文件。文件名可按照日志输出设置的周转方式,采用如下的任意一种。

  • 选择[集群的属性]-[JVM监视]标签页[日志输出设置]-[周转方式]-[文件大小]时:jragc<从0开始的整数>.stat

  • 选择[集群的属性]-[JVM监视]标签页[日志输出设置]-[周转方式]-[时间]时:jragc<YYYYMMDDhhmm>.stat

JVM监视资源可输出复制GC和Full GC的2种GC信息。

在JVM监视资源为Oracle Java时,关于以下的GC,作为Full GC的发生次数的增加份额来计数。

  • MarksweepCompact

  • MarkSweepCompact

  • PS Marksweep

  • ConcurrentMarkSweep

格式如下所示。

No

格式

说明

1

yyyy/mm/dd hh:mm:ss.SSS

表示记录日志的日期和时间。

2

半字节英文数字符号

表示监视对象Java VM的名称。是在JVM监视资源的[属性]-[监视固有]标签页[识别名]所设置的值。

3

半字节英文数字符号

表示监视对象Java VM的GC名称。

监视对象Java VM为Oracle Java时
具有以下。
Copy
MarksweepCompact
MarkSweepCompact
PS Scavenge
PS Marksweep
ParNew
ConcurrentMarkSweep

4

半字节数字

表示从监视对象Java VM的启动后开始到测量点为止的GC发生次数。值中也包含JVM监视资源开始监视前发生的GC的发生次数。

5

半字节数字

表示从监视对象Java VM的启动后开始到测量点为止的GC总执行时间。单位为豪秒。值中也包含JVM监视资源开始监视前发生的GC的执行时间。

4.37.7. 确认WebLogic Server的Work Manager的运行状况(wlworkmanager.stat)

记录WebLogic Server的Work Manager的运行状况的日志文件。文件名可按照日志输出设置的周转方式,采用如下的任意一种。

  • 选择[集群的属性]-[JVM监视]标签页[日志输出设置]-[周转方式]-[文件大小]时:wlworkmanager<从0开始的整数>.stat

  • 选择[集群的属性]-[JVM监视]标签页[日志输出设置]-[周转方式]-[时间]时:wlworkmanager<YYYYMMDDhhmm>.stat

格式如下所示。

No

格式

说明

1

yyyy/mm/dd hh:mm:ss.SSS

表示记录日志的日期和时间。

2

半字节英文数字符号

表示监视对象Java VM的名称。是在JVM监视资源的[属性]-[监视固有]标签页[识别名]所设置的值。

3

半字节英文数字符号

表示应用程序名。

4

半字节英文数字符号

表示Work Manager名。

5

半字节数字

表示已执行的请求的数量。

6

半字节数字

表示待机中的请求的数量。

4.37.8. 确认WebLogic Server的线程Pool的运行状况(wlthreadpool.stat)

记录WebLogic Server的线程Pool的运行状况的日志文件。文件名可按照日志输出设置的周转方式,采用如下的任意一种。

  • 选择[集群的属性]-[JVM监视]标签页[日志输出设置]-[周转方式]-[文件大小]时:wlthreadpool<从0开始的整数>.stat

  • 选择[集群的属性]-[JVM监视]标签页[日志输出设置]-[周转方式]-[时间]时:wlthreadpool<YYYYMMDDhhmm>.stat

格式如下所示。

No

格式

说明

1

yyyy/mm/dd hh:mm:ss.SSS

表示记录日志的日期和时间。

2

半字节英文数字符号

表示监视对象Java VM的名称。是在JVM监视资源的[属性]-[监视固有]标签页[识别名]所设置的值。

3

半字节数字

表示已执行的请求的总数。

4

半字节数字

表示等待处理的请求数。

5

半字节数字

表示每一单位时间(秒)的请求处理数。

6

半字节数字

表示为了执行应用程序的线程的合计数。

7

半字节数字

表示处于idle状态的线程数。

8

半字节数字

表示执行中的线程数。

9

半字节数字

表示处于待机状态的线程数。

4.37.9. 关于Java内存Pool名

说明作为输出到JVM运行日志的消息中的memory_name输出的Java内存Pool名,以及输出到JVM统计日志jramemory.stat中的Java内存Pool名。

作为Java内存Pool名输出的字符串并非由JVM监视资源来决定,而是输出从监视对象Java VM接收的字符串。

此外,由于未公开Java VM的规格,因此有可执行因Java VM的版本升级,而未经预告而更改。

因此,不建议通过消息中的Java内存Pool名来进行消息监视。

下述的监视项目表示JVM监视资源的[属性]-[监视(固有)]标签页[内存]标签页内的设置项目。

以下所记载的Java内存Pool名为在Oracle Java的实际确认结果。

在[JVM类型]选择[Oracle Java],并且在监视对象Java VMd的启动选项附加「-XX:+UseSerialGC」时,jramemory.stat中的No3的Java内存Pool名如下所示。

监视项目

作为memory_name输出的字符串

[监视堆内存使用率]-[领域整体]

HEAP

[监视堆内存使用率]-[Eden Space]

Eden Space

[监视堆内存使用率]-[Survivor Space]

Survivor Space

[监视堆内存使用率]-[Tenured Gen]

Tenured Gen

[监视非堆内存使用率]-[领域整体]

NON_HEAP

[监视非堆内存使用率]-[Code Cache]

Code Cache

[监视非堆内存使用率]-[Perm Gen]

Perm Gen

[监视非堆内存使用率]-[Perm Gen[shared-ro]]

Perm Gen [shared-ro]

[监视非堆内存使用率]-[Perm Gen[shared-rw]]

Perm Gen [shared-rw]

在[JVM类型]选择[Oracle Java],并且在监视对象Java VM的启动选项附加「-XX:+UseParallelGC」,「-XX:+UseParallelOldGC」时,jramemory.stat中的No3的Java内存Pool名如下所示。

监视项目

作为memory_name输出的字符串

[监视堆内存使用率]-[领域整体]

HEAP

[监视堆内存使用率]-[Eden Space]

PS Eden Space

[监视堆内存使用率]-[Survivor Space]

PS Survivor Space

[监视堆内存使用率]-[Tenured Gen]

PS Old Gen

[监视非堆内存使用率]-[领域整体]

NON_HEAP

[监视非堆内存使用率]-[Code Cache]

Code Cache

[监视非堆内存使用率]-[Perm Gen]

PS Perm Gen

[监视非堆内存使用率]-[Perm Gen[shared-ro]]

Perm Gen [shared-ro]

[监视非堆内存使用率]-[Perm Gen[shared-rw]]

Perm Gen [shared-rw]

在[JVM类型]选择[Oracle Java],并且在监视对象Java VM的启动选项附加「-XX:+UseConcMarkSweepGC」时,jramemory.stat中的No3的Java内存Pool名如下所示。

监视项目

作为memory_name输出的字符串

[监视堆内存使用率]-[领域整体]

HEAP

[监视堆内存使用率]-[Eden Space]

Par Eden Space

[监视堆内存使用率]-[Survivor Space]

Par Survivor Space

[监视堆内存使用率]-[Tenured Gen]

CMS Old Gen

[监视非堆内存使用率]-[领域整体]

NON_HEAP

[监视非堆内存使用率]-[Code Cache]

Code Cache

[监视非堆内存使用率]-[Perm Gen]

CMS Perm Gen

[监视非堆内存使用率]-[Perm Gen[shared-ro]]

Perm Gen [shared-ro]

[监视非堆内存使用率]-[Perm Gen[shared-rw]]

Perm Gen [shared-rw]

在[JVM类别]选择[Oracle Java(usage monitoring)]时。并且在监视对象Java VM的启动选项附加「-XX:+UseSerialGC」时,jramemory.stat中的No3的Java内存Pool名如下所示。

监视项目

作为memory_name输出的字符串

[监视堆内存使用率]-[领域整体]

HEAP

[监视堆内存使用率]-[Eden Space]

Eden Space

[监视堆内存使用率]-[Survivor Space]

Survivor Space

[监视堆内存使用率]-[Tenured Gen]

Tenured Gen

[监视非堆内存使用率]-[领域整体]

NON_HEAP

[监视非堆内存使用率]-[Code Cache]

Code Cache (Java 9以上时不输出)

监视非堆内存使用量]-[ Metaspace]

Metaspace

[监视非堆内存使用量]-[CodeHeap non-nmethods]

CodeHeap non-nmethods

[监视非堆内存使用量]-[CodeHeap profiled]

CodeHeap profiled nmethods

[监视非堆内存使用量]-[CodeHeap non-profiled]

CodeHeap non-profiled nmethods

[监视非堆内存使用量]-[Compressed Class Space]

Compressed Class Space

在[JVM类别]选择[Oracle Java(usage monitoring)]时。并且在监视对象Java VM的启动选项附加「-XX:+UseParallelGC」,「-XX:+UseParallelOldGC」时,jramemory.stat中的No3的Java内存Pool名如下所示。

监视项目

作为memory_name输出的字符串

[监视堆内存使用率]-[领域整体]

HEAP

[监视堆内存使用率]-[Eden Space]

PS Eden Space

[监视堆内存使用率]-[Survivor Space]

PS Survivor Space

[监视堆内存使用率]-[Tenured Gen]

PS Old Gen

[监视非堆内存使用率]-[领域整体]

NON_HEAP

[监视非堆内存使用率]-[Code Cache]

Code Cache (Java 9以上时不输出)

监视非堆内存使用量]-[ Metaspace]

Metaspace

[监视非堆内存使用量]-[CodeHeap non-nmethods]

CodeHeap non-nmethods

[监视非堆内存使用量]-[CodeHeap profiled]

CodeHeap profiled nmethods

[监视非堆内存使用量]-[CodeHeap non-profiled]

CodeHeap non-profiled nmethods

[监视非堆内存使用量]-[Compressed Class Space]

Compressed Class Space

在[JVM类别]选择[Oracle Java(usage monitoring)]时。并且在监视对象Java VM的启动选项附加「-XX:+UseConcMarkSweepGC」时,jramemory.stat中的No3的Java内存Pool名如下所示。

监视项目

作为memory_name输出的字符串

[监视堆内存使用率]-[领域整体]

HEAP

[监视堆内存使用率]-[Eden Space]

Par Eden Space

[监视堆内存使用率]-[Survivor Space]

Par Survivor Space

[监视堆内存使用率]-[Tenured Gen]

CMS Old Gen

[监视非堆内存使用率]-[领域整体]

NON_HEAP

[监视非堆内存使用率]-[Code Cache]

Code Cache (Java 9以上时不输出)

监视非堆内存使用量]-[ Metaspace]

Metaspace

[监视非堆内存使用量]-[CodeHeap non-nmethods]

CodeHeap non-nmethods

[监视非堆内存使用量]-[CodeHeap profiled]

CodeHeap profiled nmethods

[监视非堆内存使用量]-[CodeHeap non-profiled]

CodeHeap non-profiled nmethods

[监视非堆内存使用量]-[Compressed Class Space]

Compressed Class Space

在[JVM类型]选择[Oracle Java(usage monitoring)],并且在监视对象Java VM的启动选项附加「-XX:+UseParNewGC」时,jramemory.stat中的No3的Java内存Pool名如下所示。Java 9以上时,附加「-XX:+UseParNewGC」会导致监视对象Java VM不启动。

监视项目

作为memory_name输出的字符串

[监视堆内存使用量]-[领域整体]

HEAP

[监视堆内存使用量]-[Eden Space]

Par Eden Space

[监视堆内存使用量]-[Survivor Space]

Par Survivor Space

[监视堆内存使用量]-[Tenured Gen]

Tenured Gen

[监视非堆内存使用量]-[领域整体]

NON_HEAP

[监视非堆内存使用量]-[Code Cache]

Code Cache

[监视非堆内存使用量]-[ Metaspace]

Metaspace

[监视非堆内存使用量]-[CodeHeap non-nmethods]

CodeHeap non-nmethods

[监视非堆内存使用量]-[CodeHeap profiled]

CodeHeap profiled nmethods

[监视非堆内存使用量]-[CodeHeap non-profiled]

CodeHeap non-profiled nmethods

[监视非堆内存使用量]-[Compressed Class Space]

Compressed Class Space

在[JVM类型]选择[Oracle Java(usage monitoring)] 并且在监视对象Java VM的启动选项附加「-XX::+UseG1GC」时,jramemory.stat中的No3的Java内存Pool名如下所示。

监视项目

作为memory_name输出的字符串

[监视堆内存使用量]-[领域整体]

HEAP

[监视堆内存使用量]-[Eden Space]

G1 Eden Space

[监视堆内存使用量]-[Survivor Space]

G1 Survivor Space

[监视堆内存使用量]-[ Tenured Gen(Old Gen)]

G1 Old Gen

[监视非堆内存使用量]-[领域整体]

NON_HEAP

[监视非堆内存使用量]-[Code Cache]

Code Cache(Java 9以上时不输出)

[监视非堆内存使用量]-[ Metaspace]

Metaspace

[监视非堆内存使用量]-[CodeHeap non-nmethods]

CodeHeap non-nmethods

[监视非堆内存使用量]-[CodeHeap profiled]

CodeHeap profiled nmethods

[监视非堆内存使用量]-[CodeHeap non-profiled]

CodeHeap non-profiled nmethods

[监视非堆内存使用量]-[Compressed Class Space]

Compressed Class Space

在JVM统计日志jramemory.stat中,Java内存Pool名和Java VM内存空间的关系如下所示。

  • Oracle Java 7时

    _images/img_java-memory-pool-name-10.png

    图 4.67 Java VM内存空间(Oracle Java 7)

    图中的No

    监视项目

    jramemory.stat的Java内存Pool名

    (1)

    [监视堆内存使用率]-[领域整体]

    HEAP

    (2)

    [监视堆内存使用率]-[Eden Space]

    EdenSpace
    PS Eden Space
    Par Eden Space

    (3)+(4)

    [监视堆内存使用率]-[Survivor Space]

    Survivor Space
    PS Survivor Space
    Par Survivor Space

    (5)

    [监视堆内存使用率]-[Tenured Gen]

    Tenured Gen
    PS Old Gen
    CMS Old Gen

    (6)

    [监视非堆内存使用率]-[Perm Gen]
    [监视非堆内存使用率]-[Perm Gen[shared-ro]]
    [监视非堆内存使用率]-[Perm Gen[shared-rw]]
    Perm Gen
    Perm Gen [shared-ro]
    Perm Gen [shared-rw]
    PS Perm Gen
    CMS Perm Gen

    (7)

    [监视非堆内存使用率]-[Code Cache]

    Code Cache

    (8)

    -

    -

    (6)+(7)

    [监视非堆内存使用率]-[领域整体]

    NON_HEAP
    ※不包含stack trace
  • Oracle Java 8/Oracle Java 9/Oracle Java 11时

    _images/img_java-memory-pool-name-20.png

    图 4.68 Java VM内存空间(Oracle Java 8/Oracle Java 9/Oracle Java 11)

    图中的No

    监视项目

    jramemory.stat的Java内存Pool名

    (1)

    [监视堆内存使用率]-[领域整体]

    HEAP

    (2)

    [监视堆内存使用率]-[Eden Space]

    EdenSpace
    PS Eden Space
    Par Eden Space
    G1 Eden Space

    (3)+(4)

    [监视堆内存使用率]-[Survivor Space]

    Survivor Space
    PS Survivor Space
    Par Survivor Space
    G1 Survivor Space

    (5)

    [监视堆内存使用率]-[Tenured Gen]

    Tenured Gen
    PS Old Gen
    CMS Old Gen
    G1 Old Gen

    (6)

    [监视非堆内存使用率]-[Code Cache]

    Code Cache(Java 9以上时不输出)

    (6)

    [监视非堆内存使用率]-[CodeHeap non-nmethods]

    CodeHeap non-nmethods (Java 9以上时输出)

    (6)

    [监视非堆内存使用率]-[CodeHeap profiled]

    CodeHeap profiled nmethods (Java 9以上时输出)

    (6)

    [监视非堆内存使用率]-[CodeHeap non-profiled]

    CodeHeap non-profiled nmethods (Java 9以上时输出)

    (7)

    [监视非堆内存使用率]-[Metaspace]

    Metaspace

    (8)

    [监视非堆内存使用率]-[Compressed Class Space]

    Compressed Class Space

    (6)+(7)+(8)

    [监视非堆内存使用率]-[领域整体]

    NON_HEAP

4.37.10. 检测出异常时想按照故障原因执行命令时

检测出监视资源的异常时,在EXPRESSCLUSTER不会按照故障原因的区分而提供不同的命令。

JVM监视资源可按照故障原因的区分执行不同的命令。并在检测出异常时执行。

按照故障原因执行的命令的设置项目如下所示。

故障原因

设置项目

・连接到监视对象的Java VM失败
・资源测量失败

[监视(固有)]标签页[命令]

・堆内存使用率
・非堆内存使用率
・堆内存使用量
・非堆内存使用量

[监视(固有)]标签页[调整]属性[内存]标签页[命令]

・运行中的线程数

[监视(固有)]标签页[调整]属性[线程]标签页[命令]

・Full GC执行时间
・Full GC发生次数

[监视(固有)]标签页[调整]属性[GC]标签页[命令]

・WebLogic的Work Manager的请求
・WebLogic的线程Pool的请求

[监视(固有)]标签页[调整]属性[WebLogic]标签页[命令]

[命令]可将故障原因的详细作为命令的参数移交。参数结合在[命令]的最后移交。通过将脚本等设置为自身制作的[命令],可更进一步展开特定故障原因的操作。作为参数移交的字符串如下所示。

记载多个作为参数移交的字符串时,按照监视对象Java VM的GC方式可移交任意的字符串。有关差异的详细,请参阅"关于Java内存Pool名"。

记载有(Oracle Java时) (Java(usage monitoring时)时,因JVM类别而异。没有记载时,没有因JVM类别的区别。

故障原因的详细

作为参数移交的字符串

・连接到监视对象的Java VM失败
・资源测量失败

[监视(固有)]标签页[调整]属性[内存]标签页[监视堆内存使用率]-[领域整体]
(Oracle Java时)

HEAP

[内存]标签页[监视堆内存使用率]-[Eden Space]
(Oracle Java时)
EdenSpace
PSEdenSpace
ParEdenSpace
[内存]标签页[监视堆内存使用率]-[Survivor Space]
(Oracle Java时)
SurvivorSpace
PSSurvivorSpace
ParSurvivorSpace
[内存]标签页[监视堆内存使用率]-[Tenured Gen]
(Oracle Java时)
TenuredGen
PSOldGen
CMSOldGen
[内存]标签页[监视非堆内存使用率]-[领域整体]
(Oracle Java时)

NON_HEAP

[内存]标签页[监视非堆内存使用率]-[Code Cache]
(Oracle Java时)

CodeCache

[内存]标签页[监视非堆内存使用率]-[Perm Gen]
(Oracle Java时)
PermGen
PSPermGen
CMSPermGen
[内存]标签页[监视非堆内存使用率]-[Perm Gen[shared-ro]]
(Oracle Java时)
PermGen[shared-ro]
[内存]标签页[监视非堆内存使用率]-[Perm Gen[shared-rw]]
(Oracle Java时)

PermGen[shared-rw]

[内存]标签页[监视堆内存使用量]-[领域整体]
(Oracle Java(usage monitoring)时)

HEAP

[内存]标签页- [监视堆内存使用量]-[Eden Space]
(Oracle Java(usage monitoring) 时)
EdenSpace
PSEdenSpace
ParEdenSpace
G1EdenSpace
[内存]标签页- [监视堆内存使用量]-[Survivor Space]
(Oracle Java(usage monitoring) 时)
SurvivorSpace
PSSurvivorSpace
ParSurvivorSpace
G1SurvivorSpace
[内存]标签页- [监视堆内存使用量]-[Tenured Gen]
(Oracle Java(usage monitoring) 时)
TenuredGen
PSOldGen
CMSOldGen
G1OldGen
[内存]标签页- [监视非堆内存使用量]-[领域整体]
(Oracle Java(usage monitoring) 时)
NON_HEAP
[内存]标签页- [监视非堆内存使用量]-[Code Cache]
(Oracle Java(usage monitoring) 时)

CodeCache

[内存]标签页- [监视非堆内存使用量]-[Metaspace]
(Oracle Java(usage monitoring) 时)

Metaspace

[内存]标签页- [监视非堆内存使用量]-[CodeHeap non-nmethods]
(Oracle Java(usage monitoring) 时)

non-nmethods

[内存]标签页- [监视非堆内存使用量]-[CodeHeap profiled]
(Oracle Java(usage monitoring) 时)

profilednmethods

[内存]标签页- [监视非堆内存使用量]-[CodeHeap non-profiled]
(Oracle Java(usage monitoring) 时)

non-profilednmethods

[内存]标签页- [监视非堆内存使用量]-[Compressed Class Space]
(Oracle Java(usage monitoring) 时)

CompressedClassSpace

[线程]标签页[监视运行中的线程数]

Count

[GC]标签页[监视Full GC执行时间]

Time

[GC]标签页[监视Full GC发生次数]

Count

[WebLogic]标签页[监视Work Manager的请求]-[待机请求 请求数]

WorkManager_PendingRequests

[WebLogic]标签页[监视线程Pool的请求]-[待机请求 请求数]

ThreadPool_PendingUserRequestCount

[WebLogic]标签页[监视线程Pool的请求]-[执行请求数]

ThreadPool_Throughput

以下表示执行例。

例1)

设置项目

设置内容

[监视(固有)]标签页[调整]属性[GC]标签页[命令]

c:\Program Files\bin\downcmd

[监视(固有)]标签页[调整]属性[GC]标签页[监视Full GC发生次数]

1

[集群]属性[JVM监视]标签页[资源测量设置]-[共通]标签页[异常判定阈值]

3

若JVM监视资源连续异常判定阈值次数(3次)发生Full GC,则检测出监视异常,作为「c:\Program Files\bin\downcmd Cont」执行命令。

例2)

设置项目

设置内容

[监视(固有)]标签页[调整]属性[GC]标签页[命令]

c:\Program Files\bin\downcmd" GC

[监视(固有)]标签页[调整]属性[GC]标签页[监视Full GC执行时间]

65536

[集群]属性[JVM监视]标签页[资源测量设置]-[共通]标签页[异常判定阈值]

3

若JVM监视资源连续异常判定阈值次数(3次),Full GC执行时间超过65535豪秒,则检测出监视异常,作为「c:\Program Files\bin\downcmd GC Time」执行命令。

例3)

设置项目

设置内容

[监视(固有)]标签页[调整]属性[内存]标签页[命令]

"c:\Program Files\bin\downcmd" memory

[监视(固有)]标签页[调整]属性[内存]标签页[监视堆内存使用率]

On

[监视(固有)]标签页[调整]属性[内存]标签页[Eden Space]

80

[监视(固有)]标签页[调整]属性[内存]标签页[Survivor Space]

80

[集群]属性[JVM监视]标签页[资源测量设置]-[共通]标签页[异常判定阈值]

3

若JVM监视资源连续异常判定阈值次数(3次),Java Eden Space的使用率以及Java Survivor Space的使用率超过了80%,则检测出监视异常,作为「c:\Program Files\bin\downcmd memory EdenSpace SurvivorSpace」执行命令。

等待在[命令]所设置的命令的结束的超时(秒),可在[集群的属性]-[JVM监视]标签页[命令超时]设置。借此,在上述各标签页的[命令]可适用相同的值。不能进行[命令]个别的设置。

发生超时时,不执行强制结束[命令]进程的处理。在[命令]进程后的处理(例:强制结束)请由客户自己执行。发生超时时,以下的消息会输出到JVM运行日志中。

action thread execution did not finish. action is alive = <命令>

注意事项如下所示。

  • 检测出Java VM的正常复归时(异常->正常时)不执行[命令]。

  • 以检测出Java VM异常时(按照异常判定阈值次数,连续发生超过阈值时)为契机执行[命令]。不是每超过阈值便执行。

  • 若在多个标签页上设置[命令],同时发生故障时,会执行多个的[命令]。因此,请注意系统负载。

  • 监视[监视(固有)]标签页[调整]属性[WebLogic]标签页[监视Work Manager的请求]-[待机请求 请求数]和[监视(固有)]标签页[调整]属性[WebLogic]标签页[监视Work Manager的请求]-[待机请求 平均值]的双方时,有可执行同时执行2次[命令]。

这是因为,有可执行同时检测出[集群]属性[JVM监视]标签页[资源测量设置]-[WebLogic]标签页[间隔请求数]和[集群]属性[JVM监视]标签页[资源测量设置]-[WebLogic]标签页[间隔平均值]的异常。作为回避的对策,请仅监视任意一方。以下的监视项目的组合也同样。

  • [监视(固有)]标签页[调整]属性[WebLogic]标签页[监视线程Pool的请求]-[待机请求数]和[监视(固有)]标签页[调整]属性[WebLogic]标签页[监视线程Pool的请求]-[待机请求平均值]

  • [监视(固有)]标签页[调整]属性[WebLogic]标签页[监视线程Pool的请求]-[执行请求 请求数]和[监视(固有)]标签页[调整]属性[WebLogic]标签页[监视线程Pool的请求]-[执行请求平均值]

4.37.11. 监视WebLogic Server

完成监视对象WebLogic Server的设置,并作为应用程序服务器运行的步骤请参考WebLogic Server的使用说明书。

本章只介绍JVM监视资源监视时所必需的设置。

  1. 启动WebLogic Server Administration Console。
    启动方法请参考WebLogic Server使用说明书的"Administration Console的概要"。
    选择域设置-域-设置-整体。在这里请先确认"启用管理端口"复选框为未选中状态。
  2. 在域设置-服务器中选择监视对象的服务器名。选择的服务器名设置为Cluster WebUI的编辑模式中可选择的[属性]-[监视(固有)]标签的识别名。

  3. 在监视对象服务器的设置-整体中,确认"监听端口"中管理连接的端口号。

  4. 停止WebLogic Server。停止方法请参考WebLogic Server使用说明书的"WebLogic Server的启动和停止"。

  5. 打开WebLogic Server的管理服务器的启动脚本(startWebLogic.cmd)。

  6. 在打开的脚本中记载以下内容。

    • 监视对象为WebLogic Server的管理服务器时

      set JAVA_OPTIONS=%JAVA_OPTIONS%
      -Dcom.sun.management.jmxremote.port=n
      -Dcom.sun.management.jmxremote.ssl=false
      -Dcom.sun.management.jmxremote.authenticate=false
      -Djavax.management.builder.initial=weblogic.management.jmx.mbeanserver.WLSMBeanServerBuilder
      

      ※在实际操作中请将上述内容记载为1行。

      注解

      n用来指定监视时使用的端口号。指定的端口号请指定为与监视对象Java VM的监听端口号不同的号码。此外,同一设备有多个监视对象的WebLogic Server时,请指定不同于监听端口号和其他应用程序端口号的号码。

    • 监视对象为WebLogic Server的管理对象服务器时

      if "%SERVER_NAME%" == "SERVER_NAME"(
      set JAVA_OPTIONS=%JAVA_OPTIONS%
      -Dcom.sun.management.jmxremote.port=n
      -Dcom.sun.management.jmxremote.ssl=false
      -Dcom.sun.management.jmxremote.authenticate=false
      -Djavax.management.builder.initial=weblogic.management.jmx.mbeanserver.WLSMBeanServerBuilder
      )
      

      ※在实际操作中,请将if语句记载为1行。

      注解

      SERVER_NAME指定为"选择监视对象服务器"中确认的监视对象服务器名。存在多个监视对象服务器时,按照同样的设置(1~6行)更改服务器名,重复设置。

      注解

      上述内容中添加的部分请放在以下记载的前面。

      %JAVA_HOME%\bin\java %JAVA_VM% %MEM_ARGS%
      -Dweblogic.Name=%SERVER_NAME%
      -Djava.security.policy=%WL_HOME%\server\lib\weblogic.policy %JAVA_OPTIONS
      % %PROXY_SETTINGS% %SERVER_CLASS%
      

      ※在实际操作中请将上述内容记载为1行

      ※因WebLogic的版本的不同,上述java参数的内容有可执行不同,在java的执行之前记载了JAVA_OPTIONS,则没有问题。

  7. 监视Work Manage或线程Pool的请求时,请进行以下设置。
    启动监视对象WebLogic Server的WLST(wlst.cmd)。
    启动方法为在[开始]菜单中选择[Oracle WebLogic]-[WebLogic Server <版本编号>]-[Tools]-[WebLogic Scripting Tool]。
    请在显示的提示画面上执行以下命令。
    >connect('USERNAME','PASSWORD','t3://SERVER_ADDRESS:SERVER_PORT')
    > edit()
    > startEdit()
    > cd('JMX/DOMAIN_NAME')
    > set('PlatformMBeanServerUsed','true')
    > activate()
    > exit()
    

    请将上面的USERNAME,PASSWORD,SERVER_ADDRESS,SERVER_PORT,DOMAIN_NAME替换为符合域环境的值。

  8. 重启监视对象WebLogic Server

4.37.12. 监视WebOTX

本指南将介绍JVM监视资源的监视对象WebOTX的设置步骤。

启动WebOTX集成操作管理控制台。启动方法请参考《WebOTX操作篇(Web版集成操作管理工具)》手册的"集成操作管理工具的启动和停止"。

以下设置中,监视WebOTX上JMX代理的Java进程与监视进程组上的Java进程其设定内容有所不同。请根据监视对象进行设置。

4.37.13. 监视WebOTX域代理的Java进程

不需要设置操作。

4.37.14. 监视WebOTX进程组的Java进程

  1. 通过集成操作管理工具连接域。

  2. 在树形图中选择[<域名>]-[TP系统]-[应用程序组]-[<应用程序组名>]-[进程组]-[<进程组名>]。

  3. 在右侧显示的[JVM选项]标签内的[其他参数]属性中,用1行指定下一个Java选项。n用来指定端口号。若同一设备有多个监视对象Java VM存在,请指定不同的端口号。这里指定的端口号在Cluster WebUI([监视资源的属性] ->[监视(固有)]标签页->[连接端口号])中也会设置。

    -Dcom.sun.management.jmxremote.port=n
    -Dcom.sun.management.jmxremote.ssl=false
    -Dcom.sun.management.jmxremote.authenticate=false
    -Djavax.management.builder.initial=com.nec.webotx.jmx.mbeanserver.JmxMBeanServerBuilder
    

    ※在WebOTX V9.2以上不需要-Djavax.management.builder.initial的指定。

  4. 完成设置后点击[更新]。完成设置后,重启进程组。

    本设置也可在WebOTX集成操作管理工具[Java系统属性]标签内的[Java系统属性]中进行指定。此时,"-D"为不指定,"="之前的字符串指定为"名称","="之后的字符串指定为"值"。

    注解

    使用WebOTX 进程组的功能设置进程故障时的重启时,如果在EXPRESSCLUSTER的恢复操作中执行进程组的重启,则WebOTX 进程组的功能有可执行不能正常运行。因此,监视WebOTX 进程组时,请从Cluster WebUI对JVM监视资源进行以下的设置。

    设置标签名

    项目名

    设置值

    监视(共通)

    监视时机

    不间断

    复归操作

    最终操作

    不操作

    复归操作

    最终操作

    不操作

4.37.15. 接收WebOTX notification通知

通过登录特定的监听器类,当WebOTX查出故障时就发行notification。JVM监视资源接收到该notification,就会向JVM运行日志发出以下的通知。

%1$s: Notification received. %2$s.
%1$s,%2$s的意思如下。
%1$s:监视对象Java VM
%2$s:notification的通知 (ObjectName=**,type=**,message=**)

现在,可监视的资源的Mbean的详细信息如下表所述。

ObjectName

[domainname]:j2eeType=J2EEDomain,name=[domainname],category=runtime

Notification类型

nec.webotx.monitor.alivecheck.not-alive

消息

failed

4.37.16. 监视Tomcat

对JVM监视资源中,监视对象的Tomcat 的设置步骤进行说明。

  1. 停止Tomcat,从[开始]-(Tomcat的文件夹)-[Configure Tomcat]打开。

  2. 在打开的窗口的[java]标签页的[Java Option]中记述以下的内容。n指定端口编号。如果同一机器中存在多个监视对象的Java VM,则需要指定不重复的端口编号。此处指定的端口编号也可通过Cluster WebUI ([监视资源的属性]->[监视(固有) ]标签页->[连接端口编号])来设置。

    -Dcom.sun.management.jmxremote.port=n
    -Dcom.sun.management.jmxremote.ssl=false
    -Dcom.sun.management.jmxremote.authenticate=false
    
  3. 保存上述的设置后,启动Tomcat。

  4. 在Cluster WebUI (JVM监视资源名->[属性]->[监视(固有)] 标签页->识别名)中,请设置为与其他监视对象不重复的任意的字符串(例:tomcat)。

4.37.17. 监视SVF

对JVM监视资源中,监视对象的SVF 的设置进行说明。

  1. 从下表中选择监视对象,从编辑器打开该当的脚本。

    监视对象

    编辑的文件

    Report Director EnterpriseServer

    <SVF安装路径>
    \launcher\ReportDirectorEnterpriseServer.run

    Report Director Svf Server

    <SVF安装路径>
    \launcher\ReportDirectorSvfServer.run

    Report Director Spool Balancer

    <SVF安装路径>
    \launcher\ReportDirectorSpoolBalancer.run

    Tomcat

    %FIT_PRODUCTS_BASE%\SetupUtils\setup_tomcat.bat

    SVF Print Spooler services

    <SVF安装路径>\svfjpd\launcher\SpoolerDaemon.run

  2. (监视对象为Tomcat时)
    setup_tomcat.bat 中的:install 的 --JvmOption 的地方,添加如下信息。n 指定端口编号。如果同一机器中存在多个监视对象的Java VM,则需要指定不重复的端口编号。此处指定的端口编号也可通过Cluster WebUI ([监视资源的属性]->[监视(固有)]标签页->[连接端口编号])来设置。

    更改前:

    --JvmOptions=...
    

    更改后:

    --JvmOptions=...;
    -Dcom.sun.management.jmxremote.port=n;
    -Dcom.sun.management.jmxremote.ssl=false;
    -Dcom.sun.management.jmxremote.authenticate=false
    
  3. (监视对象不是Tomcat时)在指定Arguments的[-Xms]后面用1行来记述以下的内容。n 指定端口编号。如果同一机器中存在多个监视对象的Java VM,则需要指定不重复的端口编号。此处指定的端口编号也可通过Cluster WebUI ([监视资源的属性]->[监视(固有)]标签页->[连接端口编号])来设置。

    -Dcom.sun.management.jmxremote.port=n
    -Dcom.sun.management.jmxremote.ssl=false
    -Dcom.sun.management.jmxremote.authenticate=false
    

4.37.18. 监视自己制造的Java应用程序

对在JVM监视资源中监视的目标的Java应用程序的设置步骤进行说明。在监视目标的Java应用程序为停止状态下,在Java应用程序启动时的参数中以下的Java参数中指定1行。n 指定用于监视的端口号。如果同一机器中存在多个监视对象的Java VM,则需要指定不重复的端口编号。此处指定的端口编号也可通过Cluster WebUI ([监视资源的属性]->[监视(固有)]标签页->[连接端口编号])来设置。

-Dcom.sun.management.jmxremote.port=n
-Dcom.sun.management.jmxremote.ssl=false
-Dcom.sun.management.jmxremote.authenticate=false

根据Java应用程序还需要添加以下内容。

-Djavax.management.builder.initial=<MBeanServerBuilder 的类名>

4.37.19. 监视(固有)标签页

监视对象

从列表中选择监视对象。监视WebSAM SVF for PDF,WebSAM Report Director Enterprise和WebSAM Universal Connect/X 时,请选择[WebSAM SVF]。监视自己制造的Java应用程序时,请选择[Java应用程序]。

默认值 : 无

JVM类型

从列表中选择监视对象应用程序操作的Java VM。

Java 8以上时请选择[Oracle Java(usage monitoring)]。Java 8则需要进行如下的规格更改。

  • 在非堆空间无法获取各内存的最大值。

  • Perm Gen被更改为Metaspace。

  • 追加了Compressed Class Space。

因此,在Java 8上,[内存]标签页的监视项目需要进行如下的更改。

  • 将使用率监视更改为使用量监视。

  • 无法监视[Perm Gen],Perm Gen[shared-ro],Perm Gen[shared-rw]。请将复选框设为OFF。

  • 可以监视[Metaspace],[Compressed Class Space]。

  • 可以监视[Metaspace]。

Java 9时有以下的设计变更。

  • Code Cache 被分割。

因此,Java 9时的[内存]标签页的监视项目需进行以下的变更。

  • 无法监视[Code Cache]。请将复选框设为OFF。

  • 可以监视[CodeHeap non-nmethods],[CodeHeap profiled],[CodeHeap non-profiled]。

默认值 : 无

识别名(255字节以内)

识别名是在JVM监视的JVM运行日志中输出监视对象信息时,为了识别与其他JVM监视资源而设定的。为此,请在JVM监视资源之间设定唯一的字符串。请务必进行设置。

  • 监视对象为[WebLogic Server]时
    参考"监视WebLogic Server"中的2,设置监视对象的服务器实例名。
  • 监视对象为[WebOTX进程组]时
    请设置进程组名。
  • 监视对象为[WebOTX域代理]时
    请设置域名。
  • 监视对象为[WebOTX ESB]时
    与"WebOTX 进程组"时一样设置。
  • 监视对象为[Tomcat]时
    请参阅"监视Tomcat"的4进行设置。
  • 监视对象为[WebSAM SVF]时
    请参阅"监视SVF"的4进行设置。
  • 监视对象为[Java应用程序]时
    请将监视对象的Java VM 进程指定为一个唯一可识别的字符串。

默认值 : 无

连接端口号 (1024~65535)

JVM监视资源设定在监视对象Java VM和JMX进行连接时使用的端口号。JVM监视资源通过监视对象Java VM连接JMX来获取信息。为此,登录JVM监视资源时,需要将监视对象Java VM中JMX连接用端口设定为开放。请务必进行设置。集群内的服务器设置相同。不建议设置42424~61000。

  • 监视对象为[WebLogic Server]时
    请参考"监视WebLogic Server"中的6,设置连接端口号。
  • 监视对象为[WebOTX进程组]时
    参考"监视WebOTX进程组的Java进程"进行设置。
  • 监视对象为[WebOTX域代理]时
    请设置"(WebOTX安装路径)\<域名>.properties"中的"domain.admin.port"。
  • 监视对象为[WebOTX ESB]时
    与"WebOTX 进程组"时一样设置。
  • 监视对象为[Tomcat]时
    请参阅"监视Tomcat"的2进行设置。
  • 监视对象为[WebSAM SVF]时
    请参阅"监视SVF"的2进行设置。
  • 监视对象为[Java应用程序]时
    请确认连接端口编号在监视对象的Java 应用程序上之后才设置。

默认值 : 无

进程名(255字节以内)

由于可以通过[连接端口号]识别监视目标Java VM ,因此不需要设置。内部版本11.35为止的版本中,在获取虚拟内存使用量时或在JVM运行日志中输出监视目标的信息时,也是用本参数识别的,因此需要指定。但是,内部版本12.00及其之后的版本中,由于"监视虚拟内存使用量"已经被删除,因此无法设置。

默认值 : 无

用户名 (255字节以内)

设置连接监视对象Java VM的管理员名称。监视对象选择为[WebOTX域代理]时
请设置"\opt\WebOTX\<域名>.properties"中"domain.admin.user"的值。

默认值 :无

密码 (255字节以内)

设置连接监视对象Java VM的管理员密码。监视对象选择为[WebOTX域代理]时
请设置"\opt\WebOTX\<域名>.properties"中"domain.admin.passwd"的值。请点击[更改],在显示的密码输入对话框内进行设置。密码将被隐藏。

默认值 : 无

命令 (255字节以内)

查出监视对象的Java VM异常时,设置要执行的命令。可指定根据不同异常原因执行的命令和参数。请指定绝对路径。另外,请用双引号("")将执行文件名括起来。
例)"\Program Files\bin\command.bat" arg1 arg2
此处无法连接监视对象Java VM或获取使用资源量时查出异常时,设置要执行的命令。

默认值 : 无

点击[调整]后,弹出的对话框中会显示以下内容。根据以下说明进行详细设置。

4.37.20. 内存标签 (在[JVM类型]选择[Oracle Java]时)

监视堆内存使用率

对监视对象Java VM使用的Java堆空间使用率进行监视设置。

  • 复选框选中(默认值)
    监视。
  • 复选框未选中
    不监视。

领域整体 (1~100)

设置监视对象Java VM使用的Java堆空间使用率之界限值。

默认值 : 80[%]

Eden Space (1~100)

设置监视对象Java VM使用的Java Eden Space使用率之界限值。作为GC方式指定G1 GC时,请改读为G1 Eden Space。

默认值 : 100[%]

Survivor Space (1~100)

设置监视对象Java VM使用的Java Survivor Space使用率之界限值。作为GC方式指定G1 GC时,请改读为G1 Survivor Space。

默认值 : 100[%]

Tenured Gen (1~100)

设置监视对象Java VM使用的JJava Tenured(Old) Gen空间使用率之界限值。作为GC方式指定G1 GC时,请改读为G1 Old Gen。

默认值 : 80[%]

监视非堆内存使用率

对监视对象Java VM使用的Java非堆空间之使用率进行监视设置。

  • 复选框选中(默认值)
    监视。
  • 复选框未选中
    不监视。

领域整体 (1~100)

设置监视对象Java VM使用的Java非堆空间使用率之界限值。

默认值 : 80[%]

Code Cache (1~100)

设置监视对象Java VM使用的Java Code Cache空间使用率之界限值。

默认值 : 100[%]

Perm Gen (1~100)

设置监视对象Java VM使用的Java Perm Gen空间使用率之界限值。

默认值 : 80[%]

Perm Gen[shared-ro] (1~100)

设置监视对象Java VM使用的Java Perm Gen [shared-ro]空间使用率之界限值。

Java Perm Gen [shared-ro]空间是将监视对象Java VM的启动选项指定为-client -Xshare:on -XX:+UseSerialGC启动时所使用的空间。

默认值 : 80[%]

Perm Gen[shared-rw] (1~100)

设置监视对象Java VM使用的Java Perm Gen [shared-rw]空间使用率之界限值。

Java Perm Gen [shared-rw] 空间是将监视对象Java VM的启动选项指定为-client -Xshare:on -XX:+UseSerialGC启动时所使用的空间。

默认值 : 80[%]

命令 (255字节以内)

查出监视对象的Java VM异常时,设置要执行的命令。可指定根据不同异常原因执行的命令和参数。请指定绝对路径。另外,请用双引号("")将执行文件名括起来。
例)"\Program Files\bin\command.bat" arg1 arg2
此处在监视对象的Java VM的Java堆内存区域,Java非堆内存区域上查出异常时,设置要执行的命令。

默认值: 无

默认值

点击[默认值]按钮后,所有项目将设置为默认值。

4.37.21. 内存标签(在[JVM类型]中选择[Oracle Java(usage monitoring)] 时)

监视堆内存使用量

对监视对象Java VM使用的Java堆空间使用量进行监视设置。

  • 复选框选中
    监视。
  • 复选框未选中(默认值)
    不监视。

领域整体(0~102400)

设置监视对象Java VM使用的Java堆空间使用量的界限值。为0时不监视。

默认值 : 0[MB]

Eden Space(0~102400)

设置监视对象Java VM使用的Java Eden Space使用量的界限值。为0时不监视。作为GC方式指定G1 GC时,请改读为G1 Eden Space。

默认值 : 0[MB]

Survivor Space(0~102400)

设置监视对象Java VM使用的Java Survivor Space使用量的界限值。为0时不监视。作为GC方式指定G1 GC时,请改读为G1 Survivor Space。

默认值 : 0[MB]

Tenured Gen(0~102400)

设置监视对象Java VM使用的Java Tenured(Old) Gen空间使用量的界限值。为0时不监视。作为GC方式指定G1 GC时,请改读为G1 Old Gen。

默认值 : 0[MB]

监视非堆内存使用量

对监视对象Java VM使用的Java非堆空间使用量进行监视设置。

  • 复选框选中
    监视。
  • 复选框未选中(默认值)
    不监视。

领域整体(0~102400)

设置监视对象Java VM使用的Java非堆空间使用量的界限值。为0时不监视。

默认值 : 0[MB]

Code Cache(0~102400)

设置监视对象Java VM使用的Java Code Cache空间使用量的界限值。为0时不监视。

默认值 : 0[MB]

CodeHeap non-nmethods(0~102400)

设置监视对象Java VM使用的Java CodeHeap non-nmethods空间使用量之界限值。为0时不进行监视。

默认值 :0[MB]

CodeHeap profiled(0~102400)

设置监视对象Java VM使用的Java CodeHeap profiled空间使用量之界限值。为0时不进行监视。

默认值 :0[MB]

CodeHeap non-profiled(0~102400)

设置监视对象Java VM使用的Java CodeHeap non-profiled空间使用量之界限值。为0时不进行监视。

默认值 :0[MB]

Compressed Class Space(0~102400)

设置监视对象Java VM使用的Java Compressed Class Space空间使用量之界限值。为0时不进行监视。

默认值 :0[MB]

Metaspace(0~102400)

设置监视对象Java VM使用的Metaspace空间使用量的界限值。

默认值 : 0[MB]

命令 (255字节以内)

查出监视对象的Java VM异常时,设置要执行的命令。可指定根据不同异常原因执行的命令和参数。请指定绝对路径。另外,请用双引号("")将执行文件名括起来。
例)"\Program Files\bin\command.bat" arg1 arg2
此处在监视对象的Java VM的Java堆内存区域,Java非堆内存区域上查出异常时,设置要执行的命令。

默认值: 无

默认值

点击[默认值]按钮后,所有项目将设置为默认值。

4.37.22. 线程标签

监视动作中的线程数 (1~65535)

设置监视对象Java VM中正在运行的线程上限值。

默认值 : 65535[线程]

命令 (255字节以内)

查出监视对象的Java VM异常时,设置要执行的命令。可指定根据不同异常原因执行的命令和参数。请指定绝对路径。另外,请用双引号("")将执行文件名括起来。
例)"\Program Files\bin\command.bat" arg1 arg2
此处在监视对象的Java VM目前运行中的线程数上查出异常时,设置要执行的命令。

默认值: 无

默认值

点击[默认值]按钮后,所有项目将设置为默认值。

4.37.23. GC标签

监视Full GC执行时间 (1~65535)

在监视对象Java VM中,设置前一次测量后的Full GC执行时间之界限值。Full GC执行时间指的是,除以前一次测量后Full GC发生次数而得出的平均值。

若希望将Full GC执行时间3000毫秒,Full GC发生次数3次的情况判定为异常,则请将前一次测量后的Full GC执行时间设置为1000毫秒以下。

默认值 : 65535[毫秒]

监视Full GC发生次数 (1~65535)

在监视对象Java VM中,设置前一次测量后的Full GC发生次数之界限值。

默认值 : 1(次)

命令 (255字节以内)

查出监视对象的Java VM异常时,设置要执行的命令。可指定根据不同异常原因执行的命令和参数。请指定绝对路径。另外,请用双引号("")将执行文件名括起来。
例)"\Program Files\bin\command.bat" arg1 arg2
此处在监视对象的Java VM目前运行中的线程数上查出异常时,设置要执行的命令。

默认值: 无

默认值

点击[默认值]按钮后,所有项目将设置为默认值。

4.37.24. WebLogic标签

监视Work Manager的请求

在WebLogic Server中,对Work Manager的待机请求状态进行监视设置。

  • 复选框选中
    监视。
  • 复选框未选中(默认值)
    不监视。

监视对象Work Manager(255字节以内)

对监视对象的WebLogic Server,设置监视目标应用程序的Work Manager名称。执行Work Manager监视时,请务必设置。

App1[WM1,WM2,...];App2[WM1,WM2,...];...

在App和WM中可指定的字符为ASCII字符。(不包括Shift_JIS 编码0x005C 和0x00A1~0x00DF )

若应用程序中包含存档的版本,请在App中指定"应用程序名#版本"。

若应用程序名中包含"["或"]",请在其前面添加"¥¥"。

(例如)应用程序名为app[2]时,则为app¥¥[2¥¥]

默认值 : 无

请求数 (1~65535)

在监视对象WebLogic Server的Work Manager中,设置待机请求数的界限值。

默认值 : 65535

平均值 (1~65535)

在监视对象WebLogic Server的Work Manager中,设置待机请求数平均值的界限值。

默认值 : 65535

相比上一次测量值的增加率 (1~1024)

在监视对象WebLogic Server的Work Manager中,设置上一次测量后待机请求数增量的界限值。

默认值 : 80[%]

监视线程Pool的请求

在监视对象WebLogic Server的线程Pool中,对待机请求数(WebLogic Server内部待处理的HTTP请求数)进行监视设置。

  • 复选框选中(默认值)
    监视。
  • 复选框未选中
    不监视。

待机请求 请求数 (1~65535)

设置待机请求数的界限值。

默认值 : 65535

待机请求 平均值 (1~65535)

设置待机请求数平均值的界限值。

默认值 : 65535

待机请求 相比上一次测量值的增加率 (1~1024)

设置上一次测量后,待机请求数增量的界限值。

默认值 : 80[%]

执行请求 请求数 (1~65535)

设置单位时间内执行请求数的界限值。

默认值 : 65535

执行请求 平均值 (1~65535)

设置单位时间内执行的请求数平均值之界限值。

默认值 : 65535

执行请求 相比上一次测量值的增加率 (1~1024)

设置上一次测量后,单位时间内执行的请求数增量之界限值。

默认值 : 80[%]

命令 (255字节以内)

查出监视对象的Java VM异常时,设置要执行的命令。可指定根据不同异常原因执行的命令和参数。请指定绝对路径。另外,请用双引号("")将执行文件名括起来。
例)"\Program Files\bin\command.bat" arg1 arg2
此处设置在WebLogic Server的Work管理器的请求或线程Pool的请求查出异常时要执行的命令。

默认值: 无

默认值

点击[默认值]按钮后,所有项目将设置为默认值。

4.38. 理解系统监视资源

系统监视资源是对系统资源进行监视的监视资源。系统监视资源可持续收集系统资源统计信息,并根据一定的知识信息进行解析处理。通过解析结果,可尽早发现资源枯竭。

4.38.1. 系统监视资源的注意事项

请在复归对象中指定System Resource Agent检测到资源监视异常时的失效切换对象资源。

System Resource Agent的设定值建议使用默认。

以下情况可执行无法查出资源监视异常。

  • 在系统全体资源监视下,反复在阈值上下增减时

系统为高负荷等状态下,统计信息收集时间过长,可执行导致无法在收集统计信息的间隔内收集信息。

若运行中更改OS的日期或时间,则每隔10分钟执行的解析处理仅在日期或时间更改后的最初时序出现一次错位。出现以下问题时,请根据需要执行集群挂起恢复。

  • 即使检测异常时间间隔经过之后,也不执行异常检测。

  • 检测异常时间间隔经过之前,执行异常操作。

进行集群的挂起/复原时,从其启动的瞬间即开始收集信息。

系统资源使用量的解析每10分钟进行一次。因此,持续监视时间最多可执行经过10分钟后才会查出异常。

磁盘资源使用量的解析每60分钟进行一次。因此,持续监视时间最多可执行经过60分钟后才会查出异常。

磁盘资源的剩余容量监视中指定的磁盘容量,请指定为比实际磁盘容量小的数值。如果指定为较大值,将被认为剩余容量不足,查出异常。

交换正在监视中的磁盘时,如果交换前和交换后的磁盘在以下项目有差异,需要清除之前的解析信息。

  • 磁盘的总容量

  • 文件系统

请在没有获得Swap领域的机器中,不要选中系统的总虚拟内存使用量的监视。

磁盘资源监视功能不能对固定磁盘以外的磁盘进行监视。

使用磁盘资源监视功能可同时监视的最大磁盘数为26个。

如果监视资源的定义画面的类型栏中,没有显示「系统监视」时,请选择[获取License信息]来获取License信息。

从系统监视资源的监视开始,到实际进行监视处理为止的期间,系统监视资源的状态为"警告"。同时输出以下的警告日志信息。

Monitor sraw is in the warning status. (191 : 正常)

如果注册的系统监视资源和进程资源监视资源的数量很大,则可能会在警报日志中输出以下消息并检测到异常。
如果输出此消息,请重新设定 [监视 (共通)] 选项卡中的超时设置。

Monitor sraw has detected an error. (99 : monitor was timeout)

4.38.2. 系统监视资源的监视方法

系统监视资源进行以下监视。

持续收集并解析系统以及系统资源的使用量。

如果资源使用量超过预设阈值,则会查出异常。

若查出异常的状态与监视持续时间连续,则会通知资源监视异常。

利用默认值进行系统资源监视时,如资源的使用量达到90%以上的状态持续,则在60分钟后通知资源监视的异常。

查出利用默认值进行系统资源监视时的总内存使用量的异常的示例如下所示。

  • 总内存使用量与经过时间同时持续处在总内存使用量的阈值以上的状态,并经过了一定时间以上时

    _images/img_how-system-monitor-resources-perform-monitoring-10.png

    图 4.69 若超过总内存使用量阈值的状态持续一定时间时(查出异常)

  • 总内存使用量与经过时间同时在总内存使用量的阈值前后增减,持续低于总内存使用量的阈值时

    下图中,总内存使用量暂时超过总内存使用量的阈值(90%)。 但是,由于超过该阈值的状态不会持续监视持续时间(60分),因此不会查出总内存使用量异常。

    _images/img_how-system-monitor-resources-perform-monitoring-20.png

    图 4.70 若超过总内存使用量阈值的状态不持续一定时间时(不查出异常)

利用默认值进行磁盘资源监视时,在24小时后通知通知级别的异常。

查出利用默认值进行磁盘资源监视时的磁盘使用率的异常的示例如下所示。

警告监视级别的磁盘容量监视

  • 磁盘使用率在警告级别上限值所指定的一定的阈值以上

    由于磁盘使用率在警告级别上限值以上,因此判断为磁盘容量监视异常。

    _images/img_how-system-monitor-resources-perform-monitoring-30.png

    图 4.71 磁盘使用率在警告级别上限值以上时(查出异常)

  • 磁盘使用率在一定范围内增减,不会超过警告级别上限值所指定的一定的阈值以上

    由于磁盘使用率在不超过警告级别上限的范围内增加或减少,因此不会被判断为磁盘容量监视异常。

    _images/img_how-system-monitor-resources-perform-monitoring-40.png

    图 4.72 磁盘使用率不在警告级别上限值以上时(不查出异常)

通知级别的磁盘容量监视

  • 磁盘使用率与经过时间同时持续处在通知级别上限值所指定的一定阈值以上的状态,并经过了一定时间以上时

    由于磁盘使用率持续超过通知级别上限值,因此判断为磁盘容量监视异常。

    _images/img_how-system-monitor-resources-perform-monitoring-50.png

    图 4.73 当磁盘使用率在一定时间持续高于通知级别上限值时(查出异常)

  • 磁盘使用率在一定范围内增减,不会超过通知级别上限值所指定的一定的阈值以上

    尽管磁盘使用率暂时超过了通知级别上限值,但是由于该状态在一定时间内没有持续,因此不判断为磁盘容量监视异常。

    _images/img_how-system-monitor-resources-perform-monitoring-60.png

    图 4.74 当磁盘使用率在一定时间没有持续高于通知级别上限值时(不查出异常)

4.38.3. 监视(固有)标签页

CPU使用率的监视

设置是否进行CPU使用率的监视。

  • 复选框为"选中"
    进行CPU使用率的监视。
  • 复选框为"未选中"
    不进行CPU使用率的监视。

使用率 (1~100)

设置查出CPU使用率异常的阈值。

持续时间 (1~1440)

设置查出CPU使用率异常的时间。

若持续高于阈值的时间超过指定时间,将会查出异常。

总内存使用量的监视

设置是否进行总内存使用量的监视。

  • 复选框为"选中"
    进行总内存使用量的监视。
  • 复选框为"未选中"
    不进行总内存使用量的监视。

使用量 (1~100)

设置查出内存使用量异常的阈值(占系统内存量百分比)。

持续时间 (1~1440)

设置查出总内存使用量异常的时间。

若持续高于阈值的时间超过指定时间,将会查出异常。

总虚拟内存使用量的监视

设置是否进行总内存使用量的监视。

  • 复选框为"选中"
    进行总内存使用量的监视。
  • 复选框为"未选中"
    不进行总内存使用量的监视。

使用量 (1~100)

设置查出虚拟内存使用量异常的阈值。

持续时间 (1~1440)

设置查出总虚拟内存使用量异常的时间。

超过阈值的持续时间在所指定的时间以上时,查出异常。

添加

添加要监视的磁盘。会显示出[输入监视条件]对话框。

按照[输入监视条件]对话框的说明,进行判定为异常的监视条件的详细设置。

删除

从监视对象中删除在[磁盘列表]上选择的磁盘。

编辑

会显示出[输入监视条件]对话框。由于会显示出在[磁盘列表]上选择的磁盘的监视条件,因此可进行编辑,然后选择[确定]。

逻辑驱动器

设置进行监视的逻辑盘。

使用率

设置是否进行磁盘使用率的监视。

  • 复选框为"选中"
    进行磁盘使用率的监视。
  • 复选框为"未选中"
    不进行磁盘使用率的监视。

警告级别 (1~100)

设置检测磁盘使用率警報级别异常的阈值。

通知级别 (1~100)

设置检测磁盘使用率通知级别异常的阈值。

持续时间 (1~43200)

设置检测磁盘使用率通知级别异常的时间。

在指定时间以上持续超过阈值时,检测为异常。

剩余容量

设置是否进行磁盘空余容量的监视。

  • 复选框为"选中"
    进行磁盘空余容量的监视。
  • 复选框为"未选中"
    不进行磁盘空余容量的监视。

警告级别 (1~4294967295)

设置检测磁盘空余容量警報级别异常的容量(MB)。

通知级别 (1~4294967295)

设置检测磁盘空余容量通知级别异常的容量(MB)。

持续时间 (1~43200)

设置检测磁盘空余容量通知级别异常的时间。

在指定时间以上持续超过阈值时,检测为异常。

4.39. 理解进程资源监视资源

进程资源监视资源,是用来监视使用进程的资源的监视资源。它不断收集使用进程的资源的统计信息,并根据一定的知识信息进行分析。从分析结果中可以较早的发现发生资源耗尽的情况。

4.39.1. 进程资源监视资源的注意事项

对于复归对象请指定进程资源监视资源查出异常时的失效切换对象资源。

关于进程资源监视资源的设定值,推荐使用默认值。

系统为高负荷等状态下,统计信息收集时间过长,可执行导致无法在收集统计信息的间隔内收集信息。

正在运行时若更改OS的日期或时间,会导致每10分钟进行一次的解析处理时刻在日期或时间更改后的第一次有偏差。由于可执行会发生以下问题,请进行挂起集群和恢复集群操作。

  • 已经到了异常查出时间,却没有查出异常。

  • 还没到异常查出时间,却查出异常。

进行集群的挂起/复原时,从其启动的瞬间即开始收集信息。

进程资源,系统资源使用量的解析每10分钟进行一次。因此,持续监视时间最多可执行经过10分钟后才会查出异常。

在监视资源的定义画面的类型栏中,没有显示[进程资源监视]时,请选择[获取License信息]获取证书信息。

关于进程资源监视资源所需的证书,请参考本章"何谓监视资源?" - "需要License的监视资源"。

从进程资源监视资源的监视开始,到实际进行监视处理为止的期间,系统监视资源的状态为"警告"。同时输出以下的警告日志信息。

监视psrw 为警告状态。 (191 : 正常)

要使进程资源监视资源的状态从异常回到正常状态,请执行以下任意一种处理。

  • 集群的挂起·复原

  • 集群的停止·开始

监视对象进程名通过以下的命令确认实际运行进程的进程名后设定。

EXPRESSCLUSTER安装路径\bin\GetProcess.vbs

执行上述命令,则输出执行命令的文件夹下属的GetProcess_Result.txt。打开GetProcess_Result.txt,请指定显示出的进程的CommandLine部分。输出信息中包含「"」(双引号)时,请将「"」一并指定。

输出文件例

20XX/07/26 12:03:13
Caption    CommandLine
services.exe    C:\WINDOWS\system32\services.exe
svchost.exe     C:\WINDOWS\system32\svchost -k rpcss
explorer.exe    C:\WINDOWS\Explorer.EXE
从上述的命令输出信息对 svchost.exe 进行监视时,
请将C:\WINDOWS\system32\svchost -k rpcss 指定为监视对象。

指定为监视对象进程名的进程名可以将进程参数也作为进程名的一部分特定为监视对象的进程。指定监视对象进程名时,请指定包括参数在内的进程名。仅监视不含参数的进程名时,请使用通配符号(*)来指定不含参数的前方一致或部分一致。

如果注册的系统监视资源和进程资源监视资源的数量很大,则可能会在警报日志中输出以下消息并检测到异常。
如果输出此消息,请重新设定 [监视 (共通)] 选项卡中的超时设置。

Monitor psrw has detected an error. (99 : monitor was timeout)

4.39.2. 进程资源监视资源的监视方法

进程资源监视资源进行以下监视。

持续收集,分析进程资源的使用量。

如果资源使用量超过预设阈值,则会查出异常。

若查出异常的状态与监视持续时间连续,则会通知资源监视异常。

进程资源监视(CPU,内存,线程数)在默认值下运行时,24小时后将通知资源监视的异常。

查出进程资源监视的内存使用量异常的示例如下所示。

  • 内存使用量与经过时间同时增减,并且更新了规定次数以上的最大值,增加率变为初始值的10%以上时

    由于最大更新次数超过24小时(默认),并且增加率高于初始值的10%,因此判断为内存泄漏。

    _images/img_how-process-resource-monitor-resources-perform-monitoring-10.png

    图 4.75 内存使用量更新了规定次数以上的最大值,增加率超过初始值的10%(查出异常)

  • 在一定的范围内,内存使用量与经过时间同时增减

    由于内存使用量在一定值以下的范围内有增加或减少,因此不判断为内存泄漏。

    _images/img_how-process-resource-monitor-resources-perform-monitoring-20.png

    图 4.76 内存使用量在一定范围内增减(不查出异常)

4.39.3. 监视(固有)标签页

进程名 (1023字节以内)

设置监视对象进程的进程名。不设置进程名时,启动中的所有进程都作为监视对象。

此外,可使用下述的3种模式指定进程名的通配符号。其它模式不可指定。

【前方一致】 <包含进程名中的字符串>*

【后方一致】 *<包含进程名中的字符串>

【部分一致】 *<包含进程名中的字符串>*

CPU使用率的监视

设置是否进行CPU使用率的监视。

  • 复选框为"选中"
    进行CPU使用率的监视。
  • 复选框为"未选中"
    不进行CPU使用率的监视。

使用率 (1~100)

设置查出CPU使用率异常的阈值。

持续时间 (1~4320)

设置查出CPU使用率异常的时间。

若持续高于阈值的时间超过指定时间,将会查出异常。

总内存使用量的监视

设置是否进行内存使用量的监视。

  • 复选框为"选中"
    进行内存使用量的监视。
  • 复选框为"未选中"
    不进行内存使用量的监视。

相比初次监视的增加率(1~1000)

设置查出内存使用量异常的阈值。

最大更新次数(1~4320)

设置查出内存使用量异常的更新次数。

如果在指定的更新次数或更多时间内持续超过阈值,则会查出异常。

打开文件数的监视(最大值)

设置是否进行将打开文件数的监视(最大值)。

  • 复选框为"选中"
    进行打开文件数的监视。
  • 复选框为"未选中"
    不进行打开文件数的监视。

刷新次数(1~4320)

设置查出打开文件数异常的更新次数。

打开文件数的最大值超过指定次数更新时,查出异常。

线程数的监视

设置是否进行线程数的监视。

  • 复选框为"选中"
    进行线程数的监视。
  • 复选框为"未选中"
    不进行线程数的监视。

持续时间(1~4320)

设置查出线程数异常的时间。
如果有线程数增加,且超过指定时间以上的进程,则查出异常。

监视同一名称的进程

设置是否进行同一名称进程的监视。

  • 复选框为"选中"
    进行同一名称进程的监视。
  • 复选框为"未选中"
    不进行同一名称进程的监视。

个数(1~10000)

设置查出同一名称进程异常的个数。
同一名称进程超过指定个数时,查出异常。

4.40. 理解用户空间监视资源

用户空间监视资源是一种监视资源,它可对用户空间Stall操作进行监视。

4.40.1. 用户空间监视资源的监视方法

用户空间监视资源将进行如下监视操作。

监视操作开始后,该资源将启动keepalive 计时器,并每隔一段时间——监视间隔时间,更新keepalive 计时器。当计时器在一定时间段内未进行更新时,该资源可通过用户空间Stall,检测出异常。

为扩展监视操作,该资源将创建虚拟线程。设置值生效时,该资源将每隔一段监视间隔时间,就创建一次虚拟线程。虚拟线程创建失败时,该资源将不会更新keepalive 计时器。

用户空间监视资源的操作逻辑如下所示。

  • 处理概要

    反复执行如下2~3操作。

    1. 设置keepalive计时器

    2. 创建虚拟线程

    3. 更新keepalive计时器

    操作2. 为监视操作的扩展设置操作。若不进行各设置,则将不执行操作。

  • 未超时(可顺利实施上述2~3步骤)时的操作
    不执行重置等恢复操作
  • 超时时(上述2~3中的某项操作停止或延迟了)的操作
    通过EXPRESSCLUSTER的内核模块向其它服务器发布[本服务器的reset]。

根据操作设置,通过EXPRESSCLUSTER的内核模块,进行HW重置或生成主动停止错误。

4.40.2. 监视(固有)标签页

监视方法

指定用户空间的监视方法。

  • keepalive
    使用clphb驱动程序。

超时发生时的动作

指定超时发生时的动作。

  • 无操作
    不进行任何操作。
  • HW重置
    硬件reset。
  • 发生停止错误
    发生停止错误。

注解

指定超时发生时动作时,无法生成模拟故障。

创建临时文件

进行监视时,设置是否创建临时文件。

  • 选中复选框(默认值)
    创建临时文件
  • 未选中复选框
    不创建临时文件。

4.41. 理解AWS Elastic IP监视资源

AWS Elastic IP监视资源利用Elastic IP(以下称为EIP) 控制时,利用AWS CLI命令确认EIP的存在的监视资源。

4.41.1. AWS Elastic IP监视资源的注意事项

4.41.2. 使环境变量反映到AWS Elastic IP监视资源执行的AWS CLI中

请参考本指南的"3. 组资源的详细信息" - "理解AWS Elastic IP资源" - "使环境变量反映到AWS Elastic IP资源执行的AWS CLI中"。

4.41.3. 监视(固有)标签页

AWS CLI命令未得到应答时的动作

指定获取AWS CLI命令未得到应答时的动作。例如,当区域终端节点由于维护而停止或停机,到区域终端节点的通信路径出现问题或延迟,由于重负载导致的AWS CLI超时或credential错误时,就会发生AWS CLI命令响应获取失败。设置以下内容作为基准。

  • AWS CLI命令失败时进行失效切换:请设置为[运行复归动作]。

  • AWS CLI命令失败时不进行失效切换直接显示警告时:请设置[不运行复归动作(显示警告)]。

  • AWS CLI命令失败,由于监视对象非异常,不做任何处理时:请设置[不运行复归动作(不显示警告)]。即使在这种情况下,当无法确认注册IP地址的健全性时,也可以检测到错误。因此,建议使用此设置。

4.42. 理解AWS 虚拟IP监视资源

AWS虚拟IP监视资源利用虚拟IP(以下称为VIP) 控制时,利用OS API及AWS CLI命令确认VIP的存在及VPC的路径是否健全的监视资源。

AWS虚拟IP监视资源是在监视时执行AWS CLI 进行 route table 的更新处理。

4.42.1. AWS虚拟IP监视资源的注意事项

4.42.2. 使环境变量反映到AWS虚拟IP监视资源执行的AWS CLI中

请参考本指南的"3. 组资源的详细信息" - "理解AWS虚拟IP资源" - "使环境变量反映到AWS虚拟IP资源执行的AWS CLI中"。

4.42.3. 监视(固有)标签页

AWS CLI命令未得到应答时的动作

指定获取AWS CLI命令未得到应答时的动作。例如,当区域终端节点由于维护而停止或停机,到区域终端节点的通信路径出现问题或延迟,由于重负载导致的AWS CLI超时或credential错误时,就会发生AWS CLI命令响应获取失败。设置以下内容作为基准。

  • AWS CLI命令失败时进行失效切换:请设置为[运行复归动作]。

  • AWS CLI命令失败时不进行失效切换直接显示警告时:请设置[不运行复归动作(显示警告)]。

  • AWS CLI命令失败,由于监视对象非异常,不做任何处理时:请设置[不运行复归动作(不显示警告)]。即使在这种情况下,当无法确认注册IP地址的健全性时,也可以检测到错误。因此,建议使用此设置。

4.43. 理解AWS 辅助IP监视资源

AWS 辅助 IP 监视资源是使用 Test-Connection 命令和 AWS CLI 命令监视辅助 IP 地址的监视资源。 .. _notes-on-aws-secondary-ip-monitor-resources:

4.43.1. AWS辅助IP监视资源的注意事项

4.43.2. 使环境变量反映到AWS辅助IP监视资源执行的AWS CLI中

请参考本指南的"3. 组资源的详细信息" - "理解AWS辅助IP资源" - "使环境变量反映到AWS辅助IP资源执行的AWS CLI中"。

4.43.3. 监视(固有)标签页

AWS CLI命令未得到应答时的动作

指定获取AWS CLI命令未得到应答时的动作。例如,当区域终端节点由于维护而停止或停机,到区域终端节点的通信路径出现问题或延迟,由于重负载导致的AWS CLI超时或credential错误时,就会发生AWS CLI命令响应获取失败。设置以下内容作为基准。

  • AWS CLI命令失败时进行失效切换:请设置为[运行复归动作]。

  • AWS CLI命令失败时不进行失效切换直接显示警告时:请设置[不运行复归动作(显示警告)]。

  • AWS CLI命令失败,由于监视对象非异常,不做任何处理时:请设置[不运行复归动作(不显示警告)]。即使在这种情况下,当无法确认注册IP地址的健全性时,也可以检测到错误。因此,建议使用此设置。

4.44. 理解AWS AZ监视资源

AWS AZ监视资源利用AWS CLI命令,监视各服务器所属的AZ是否健全的监视资源。

使用AWS CLI可以获取的AZ状态为available时为正常,information, impaired时为警告,unavailable时为异常。内部版本12.20之前的版本中,available 以外的场合都为异常。

4.44.1. AWS AZ监视资源的注意事项

4.44.2. 使环境变量反映到AWS AZ监视资源执行的AWS CLI中

请参考本指南的"3. 组资源的详细信息"-"理解AWS虚拟IP资源"-"使环境变量反映到AWS虚拟IP资源执行的AWS CLI中"。

4.44.3. 监视(固有)标签页

可用性区域 (45字节以内)

指定进行监视的可用区域。

AWS CLI命令未得到相应答时的动作

指定获取AWS CLI命令未得到应答时的动作。例如,当区域终端节点由于维护而停止或停机,到区域终端节点的通信路径出现问题或延迟,由于重负载导致的AWS CLI超时或credential错误时,就会发生AWS CLI命令响应获取失败。设置以下内容作为基准。

  • AWS CLI命令失败时进行失效切换:请设置为[运行复归动作]。

  • AWS CLI命令失败时不进行失效切换直接显示警告时:请设置[不运行复归动作(显示警告)]。

  • AWS CLI命令失败,由于监视对象非异常,不做任何处理时:请设置[不运行复归动作(不显示警告)]。即使在这种情况下,当无法确认注册IP地址的健全性时,也可以检测到错误。因此,建议使用此设置。

4.45. 理解AWS DNS 监视资源

AWS DNS监视资源是利用OS API及AWS CLI命令,确认登录的IP地址是否健全的监视资源。

以下情况视为异常并进行通知

  • 该资源记录集不存在时。

  • 根据虚拟主机名(DNS 名)的域名解析无法得到登录的[IP 地址]时。

4.45.1. AWS DNS 监视资源的注意事项

4.45.2. 使环境变量反映到AWS DNS 监视资源执行的AWS CLI中

请参照本指南的"使环境变量反映到AWS DNS资源执行的AWS CLI中"。

4.45.3. 监视(固有)标签页

监视资源记录集

  • 复选框On(默认)
    确认该资源记录集是否存在。
  • 复选框Off
    不监视。

AWS CLI命令未得到应答时的动作

指定AWS CLI命令未得到应答时的动作。例如,当区域终端节点由于维护而停止或停机,到区域终端节点的通信路径出现问题或延迟,由于重负载导致的AWS CLI超时或credential错误时,就会发生AWS CLI命令响应获取失败。设置以下内容作为基准。

  • AWS CLI命令失败时进行失效切换:请设置为[运行复归动作]。

  • AWS CLI命令失败时不进行失效切换直接显示警告时:请设置[不运行复归动作(显示警告)]。

  • AWS CLI命令失败,由于监视对象非异常,不做任何处理时:请设置[不运行复归动作(不显示警告)]。即使在这种情况下,当无法确认注册IP地址的健全性时,也可以检测到错误。因此,建议使用此设置。

执行域名解析检查

  • 选中复选框 (默认)
    确认是否能根据虚拟主机名(DNS名)的域名解析得到登录的IP地址。
  • 未选中复选框
    不监视。

4.46. 理解Azure探头端口监视资源

Azure 探头端口监视资源针对启动Azure 探头端口资源的节点,进行Azure 探头端口资源启动时所启动探头端口控制进程的死活监视,没有正常启动时,变为监视异常。

4.46.1. Azure 探头端口监视资源的注意事项

  • 添加Azure 探头端口资源后会自动新建。针对一个Azure 探头端口资源会自动新建一个Azure 探头端口监视资源。

  • Azure探测端口监视器资源监视Azure探测端口资源中是否发生探测等待超时。因此,需要将Azure探测端口监视器资源的监视时间间隔设置为大于在受监视的Azure探测端口资源上设置的[Probe等待超时]值的值。

  • 请参考《开始指南》的"注意限制事项"-"创建EXPRESSCLUSTER的信息时"-"关于Azure 探头端口资源的设置"。

4.46.2. 监视(固有)标签页

Probe端口等待超时时动作

在Azure 探头端口资源上指定发生等待Probe端口的超时时的复归操作。

4.47. 理解Azure 负载均衡监视资源

Azure负载均衡监视资源针对没有启动Azure 探头端口资源的节点,确认与探头端口相同端口号是否被开放。

4.47.1. Azure负载均衡监视资源的注意事项

4.47.2. 监视(固有)标签页

目标资源

指定对象的Azure 探头端口资源名。

4.48. 理解Azure DNS 监视资源

Azure DNS监视资源对Microsoft Azure的权威DNS服务器发送请求,确认登录的IP地址是否健全的监视资源。

以下情况视为异常并进行通知。

  • 根据虚拟主机名(DNS名)的域名解析无法得到登录的[IP地址]时。

  • 取得DNS服务器一览失败时

4.48.1. Azure DNS 监视资源的注意事项

4.48.2. 监视(固有)标签页

执行域名解析检查

  • 选中复选框(默认)
    确认是否能根据虚拟主机名(DNS名)的域名解析得到登录的IP地址。
  • 未选中复选框
    不监视。

4.49. 理解Google Cloud 虚拟 IP 监视资源

Google Cloud 虚拟 IP监视资源,对启动了Google Cloud 虚拟 IP资源的节点,对在Google Cloud 虚拟 IP资源启动时启动的控制过程进行死活监视。没有正常启动时视为监视异常。 此外,如果在等待存活侦测时发生超时,则会发生监视错误,具体取决于指定[存活侦测超时的动作]。

4.49.1. Google Cloud 虚拟 IP 监视资源的注意事项

  • 添加Google Cloud 虚拟 IP 资源后自动创建。对于每一个Google Cloud 虚拟 IP 资源都自动创建一个 Google Cloud 虚拟 IP 监视资源。

  • Google Cloud 虚拟 IP监视资源监视等待存活侦测时Google Cloud 虚拟 IP资源中是否发生了超时。因此,Google Cloud 虚拟 IP监视资源的监视间隔,必须大于监视目标的Google Cloud 虚拟 IP资源设置的[存活侦测超时]的值。

  • 请参考《开始指南》 的 "注意限制事项" - "创建EXPRESSCLUSTER的信息时" - "关于Google Cloud 虚拟 IP 资源的设置"。

4.49.2. 监视 (固有) 标签页

存活侦测超时的动作

请指定Google Cloud虚拟IP资源在等待存活侦测时发生超时的复归动作。

4.50. 理解Google Cloud 负载均衡监视资源

Google Cloud 负载均衡监视资源,对没有启动Google Cloud虚拟IP资源的节点,确认是否开放了与用于存活侦测的端口相同的端口号。

4.50.1. Google Cloud 负载均衡监视资源的注意事项

4.50.2. 监视 (固有) 标签页

对象资源

指定作为对象的 Google Cloud 虚拟 IP 资源名。

4.51. 理解Google Cloud DNS监视资源

Google Cloud DNS监视资源确认在 Google Cloud DNS上是否存在由指定为启动时监视对象资源的 Google Cloud DNS资源控制的记录集和A记录。

4.51.1. Google Cloud DNS 监视资源的注意事项

4.51.2. 监视(固有)标签页

Google Cloud DNS 监视资源没有监视(固有)标签页。

4.52. 理解Oracle Cloud 虚拟 IP 监视资源

Oracle Cloud 虚拟 IP监视资源,对启动了Oracle Cloud 虚拟 IP资源的节点,对在Oracle Cloud 虚拟 IP资源启动时启动的控制过程进行死活监视。没有正常启动时视为监视异常。 此外,如果在等待存活侦测时发生超时,则会发生监视错误,具体取决于指定[存活侦测超时的动作]。

4.52.1. Oracle Cloud 虚拟 IP 监视资源的注意事项

  • 添加Oracle Cloud 虚拟 IP 资源后自动创建。对于每一个Oracle Cloud 虚拟 IP 资源都自动创建一个Oracle Cloud 虚拟 IP 监视资源。

  • Oracle Cloud 虚拟 IP监视资源监视等待存活侦测时Oracle Cloud 虚拟 IP资源中是否发生了超时。因此,Oracle Cloud 虚拟 IP监视资源的监视间隔,必须大于监视目标的Oracle Cloud 虚拟 IP资源设置的[存活侦测超时]的值。

  • 请参考《开始指南》 的 "注意限制事项" - "创建EXPRESSCLUSTER的信息时" - "关于Oracle Cloud 虚拟 IP 资源的设置"。

4.52.2. 监视 (固有) 标签页

存活侦测超时的动作

请指定Oracle Cloud虚拟IP资源在等待存活侦测时发生超时的复归动作。

4.53. 理解Oracle Cloud 负载均衡监视资源

Oracle Cloud负载均衡监视资源,对没有启动Oracle Cloud虚拟IP资源的节点,确认是否开放了与用于存活侦测的端口相同的端口号。

4.53.1. Oracle Cloud 负载均衡监视资源的注意事项

4.53.2. 监视 (固有) 标签页

对象资源

指定作为对象的Oracle Cloud 虚拟 IP 资源名。