4. 监视资源的详细信息

本章说明在EXPRESSCLUSTER中作为执行监视的单位的监视资源的详细信息。

4.1. 何谓监视资源?

监视资源是指对指定监视对象进行监视的资源。发现监视对象出现异常时,重启组资源或进行失效切换。

目前支持的监视资源如下。

监视资源名

略称

功能概要

对应版本

磁盘监视资源

diskw

请参考"理解磁盘监视资源"。

4.0.0-1~

IP监视资源

ipw

请参考"理解IP监视资源"。

4.0.0-1~

浮动IP监视资源

fipw

请参考"理解浮动IP监视资源"。

4.0.0-1~

NIC Link Up/Down监视资源

miiw

请参考"理解NIC Link Up/Down监视资源"。

4.0.0-1~

镜像磁盘连接监视资源

mdnw

请参考"理解镜像磁盘连接监视资源"。

4.0.0-1~

镜像磁盘监视资源

mdw

请参考"理解镜像磁盘监视资源"。

4.0.0-1~

共享型镜像连接监视资源

hdnw

请参考"理解共享型镜像连接监视资源"。

4.0.0-1~

共享型镜像磁盘监视资源

hdw

请参考"理解共享型镜像磁盘监视资源"。

4.0.0-1~

PID监视资源

pidw

请参考"理解PID监视资源"。

4.0.0-1~

用户空间监视资源

userw

请参考"理解用户空间监视资源"。

4.0.0-1~

多目标监视资源

mtw

请参考"理解多目标监视资源"。

4.0.0-1~

虚拟IP监视资源

vipw

请参考"理解虚拟IP监视资源"。

4.0.0-1~

ARP监视资源

arpw

请参考"理解ARP监视资源"。

4.0.0-1~

自定义监视资源

genw

请参考"理解自定义监视资源"。

4.0.0-1~

卷管理监视资源

volmgrw

请参考"理解卷管理监视资源"。

4.0.0-1~

消息接收监视资源

mrw

请参考"理解消息接收监视资源"。

4.0.0-1~

虚拟机监视资源

vmw

请参考"理解虚拟机监视资源"。

4.0.0-1~

动态域名解析监视资源

ddnsw

请参考"理解动态域名解析监视资源"。

4.0.0-1~

进程名监视资源

psw

请参考"理解进程名监视资源"。

4.0.0-1~

BMC监视资源

bmcw

请参考"理解BMC监视资源"。

4.0.0-1~

DB2监视资源 1

db2w

请参考"理解DB2监视资源"。

4.0.0-1~

FTP监视资源 1

ftpw

请参考"理解FTP监视资源"。

4.0.0-1~

HTTP监视资源 1

httpw

请参考"理解HTTP监视资源"。

4.0.0-1~

IMAP4监视资源 1

imap4w

请参考"理解IMAP4监视资源"。

4.0.0-1~

MySQL监视资源 1

mysqlw

请参考"理解MySQL监视资源"。

4.0.0-1~

NFS监视资源 1

nfsw

请参考"理解NFS监视资源"。

4.0.0-1~

ODBC监视资源 1

odbcw

请参考"理解ODBC 监视资源"。

4.0.0-1~

Oracle Clusterware同步管理监视资源 1

osmw

请参考"理解Oracle Clusterware 同步管理监视资源"。

4.0.0-1~

Oracle监视资源 1

oraclew

请参考"理解Oracle监视资源 "。

4.0.0-1~

POP3监视资源 1

pop3w

请参考"理解POP3监视资源"。

4.0.0-1~

PostgreSQL监视资源 1

psqlw

请参考"理解PostgreSQL监视资源"。

4.0.0-1~

Samba监视资源 1

sambaw

请参考"理解Samba监视资源"。

4.0.0-1~

SMTP监视资源 1

smtpw

请参考"理解SMTP监视资源"。

4.0.0-1~

SQL Server 监视资源 1

sqlserverw

请参考"理解SQL Server 监视资源"。

4.0.0-1~

Sybase监视资源 1

sybasew

请参考"理解Sybase监视资源"。

4.0.0-1~

Tuxedo监视资源 1

tuxw

请参考"理解Tuxedo监视资源"。

4.0.0-1~

Weblogic监视资源 1

wlsw

请参考"理解Weblogic监视资源"。

4.0.0-1~

Websphere监视资源 1

wasw

请参考"理解Websphere监视资源"。

4.0.0-1~

WebOTX监视资源 1

otxw

请参考"理解WebOTX监视资源"。

4.0.0-1~

JVM监视资源 1

jraw

请参考"理解JVM监视资源"。

4.0.0-1~

系统监视资源 1

sraw

请参考"理解系统监视资源"。

4.0.0-1~

进程资源监视资源 1

psrw

请参考"理解进程资源监视资源"。

4.0.0-1~

AWS Elastic IP监视资源

awseipw

请参考"理解AWS Elastic IP监视资源"。

4.0.0-1~

AWS虚拟IP监视资源

awsvipw

请参考"理解AWS虚拟IP监视资源"。

4.0.0-1~

AWS AZ监视资源

awsazw

请参考"理解AWS AZ监视资源"。

4.0.0-1~

AWS DNS 监视资源

awsdnsw

请参考"理解AWS DNS监视资源"。

4.0.0-1~

Azure 探头端口监视资源

azureppw

请参考"理解Azure 探头端口监视资源"。

4.0.0-1~

Azure负载均衡监视资源

azurelbw

请参考"理解Azure负载均衡监视资源"。

4.0.0-1~

Azure DNS监视资源

azurednsw

请参考"理解Azure DNS监视资源"。

4.0.0-1~

Google Cloud 虚拟 IP 监视资源

gcvipw

请参考"理解Google Cloud 虚拟 IP 监视资源"

4.2.0-1~

Google Cloud 负载均衡监视资源

gclbw

请参考"理解Google Cloud 负载均衡监视资源"

4.2.0-1~

Google Cloud DNS 监视资源

gcdnsw

请参考"理解Google Cloud DNS监视资源"

4.3.0-1~

Oracle Cloud 虚拟 IP 监视资源

ocvipw

请参考"理解Oracle Cloud 虚拟 IP 监视资源"

4.2.0-1~

Oracle Cloud 负载均衡监视资源

oclbw

请参考"理解Oracle Cloud 负载均衡监视资源"

4.2.0-1~

1(1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22)

要使用监视资源,需要登录license。关于license的登录,请参考《安装&设置指南》。

4.1.1. 监视资源开始监视后的状态

监视资源开始监视后,为准备开始监视,状态可执行暂时会变成警告。

以下监视资源的监视状态可执行会变成警告。

动态DNS监视资源
消息接收监视资源
自定义监视资源 (仅限监视类型为[异步]时)
虚拟IP监视资源
BMC监视资源
DB2监视资源
系统监视资源
进程资源监视资源
JVM监视资源
MySQL监视资源
ODBC监视资源
Oracle Clusterware同步管理监视资源
PostgreSQL监视资源
进程名监视资源
SQL Server监视资源
Sybase监视资源

4.1.2. 监视资源的监视时机

监视资源的监视可以分为常时监视和启动时监视2种类型。

因监视资源不同可以设置的监视时机也不同。

  1. 不间断监视
    监视资源不间断进行监视。
  2. 启动时监视
    在指定的组资源处于启动状态期间进行监视。在组资源处于停止状态时不进行监视。
  1. Cluster startup: 集群启动

  2. Group activation: 组启动

  3. Group deactivation: 组停止

  4. Stop cluster: 集群停止

从集群启动到集群停止,不间断监视的区间和启动时监视的区间

图 4.1 监视资源的不间断监视和启动时监视

监视资源

监视时机

对象资源

磁盘监视资源

不间断监视或者启动时

所有

IP监视资源

不间断监视或者启动时

所有

用户空间监视资源

不间断监视 (固定)

-

镜像磁盘监视资源

不间断监视 (固定)

-

镜像磁盘连接监视资源

不间断监视 (固定)

-

共享型镜像磁盘监视资源

不间断监视 (固定)

-

共享型镜像连接监视资源

不间断监视 (固定)

-

NIC Link Up/Down监视资源

不间断监视或者启动时

所有

PID监视资源

启动时 (固定)

exec

多目标监视资源

不间断监视或者启动时

所有

虚拟IP监视资源

启动时 (固定)

vip

ARP监视资源

启动时 (固定)

fip, vip

自定义监视资源

不间断监视或者启动时

所有

虚拟机监视资源

不间断监视 (固定)

vm

消息接收监视资源

不间断监视或者启动时

所有

卷管理监视资源

不间断监视或者启动时

volmgr

动态域名解析监视资源

启动时 (固定)

ddns

进程名监视资源

不间断监视或者启动时

所有

BMC监视资源

不间断监视 (固定)

-

DB2监视资源

启动时 (固定)

exec

FTP监视资源

不间断监视或者启动时

exec

HTTP监视资源

不间断监视或者启动时

exec

IMAP4监视资源

不间断监视或者启动时

exec

MySQL监视资源

启动时 (固定)

exec

NFS监视资源

不间断监视或者启动时

exec

ODBC监视资源

启动时 (固定)

exec

Oracle监视资源

启动时 (固定)

exec

Oracle Clusterware同步管理监视资源

不间断监视 (固定)

-

POP3监视资源

不间断监视或者启动时

exec

PostgreSQL监视资源

启动时 (固定)

exec

Samba监视资源

不间断监视或者启动时

exec

SMTP监视资源

不间断监视或者启动时

exec

SQL Server监视资源

启动时 (固定)

exec

Sybase监视资源

启动时 (固定)

exec

Tuxedo监视资源

不间断监视或者启动时

exec

Weblogic监视资源

不间断监视或者启动时

exec

Websphere监视资源

不间断监视或者启动时

exec

WebOTX监视资源

不间断监视或者启动时

exec

JVM监视资源

不间断监视或者启动时

exec

系统监视资源

不间断监视 (固定)

所有

进程资源监视资源

不间断监视 (固定)

所有

浮动IP监视资源

启动时 (固定)

fip

AWS Elastic IP监视资源

启动时 (固定)

awseip

AWS虚拟IP监视资源

启动时 (固定)

awsvip

AWS AZ监视资源

不间断监视 (固定)

-

AWS DNS监视资源

启动时 (固定)

awsdns

Azure 探头端口监视资源

启动时 (固定)

azurepp

Azure负载均衡监视资源

不间断监视 (固定)

azurepp

Azure DNS监视资源

启动时 (固定)

azuredns

Google Cloud 虚拟 IP 监视资源

启动时 (固定)

gcvip

Google Cloud 负载均衡监视资源

不间断监视 (固定)

gcvip

Google Cloud DNS监视资源

启动时 (固定)

gcdns

Oracle Cloud 虚拟 IP 监视资源

启动时 (固定)

ocvip

Oracle Cloud 负载均衡监视资源

不间断监视 (固定)

ocvip

4.1.3. 监视资源的暂时停止/重新启动

监视资源可以暂时停止监视,也可以重新启动监视。
监视的暂时停止/重新启动方法有以下2个。
  • 通过Cluster WebUI操作

  • 通过[clpmonctrl]命令操作
    通过[clpmonctrl]命令,可以控制执行命令的服务器或者指定服务器的监视资源。

并非所有的监视资源都支持暂时停止/重新启动。

监视资源是否可以控制请参考下表。

监视资源

可否控制

磁盘监视资源

可以

IP监视资源

可以

用户空间监视资源

可以

镜像磁盘监视资源

可以

镜像磁盘连接监视资源

可以

共享型镜像磁盘监视资源

可以

共享型镜像连接监视资源

可以

NIC Link Up/Down监视资源

可以

PID监视资源

可以

多目标监视资源

可以

虚拟IP监视资源

不可以

ARP监视资源

不可以

自定义监视资源

可以

虚拟机监视资源

可以

消息接收监视资源

可以

卷管理监视资源

可以

动态域名解析监视资源

不可以

进程名监视资源

可以

BMC监视资源

可以

DB2监视资源

可以

FTP监视资源

可以

HTTP监视资源

可以

IMAP4监视资源

可以

MySQL监视资源

可以

NFS监视资源

可以

ODBC监视资源

可以

Oracle监视资源

可以

Oracle Clusterware同步管理监视资源

可以

POP3监视资源

可以

PostgreSQL监视资源

可以

Samba监视资源

可以

SMTP监视资源

可以

SQL Server监视资源

可以

Sybase监视资源

可以

Tuxedo监视资源

可以

Weblogic监视资源

可以

Websphere监视资源

可以

WebOTX监视资源

可以

JVM监视资源

可以

系统监视资源

可以

进程资源监视资源

可以

浮动IP监视资源

可以

AWS Elastic IP监视资源

可以

AWS虚拟IP监视资源

可以

AWS AZ监视资源

可以

AWS DNS监视资源

可以

Azure 探头端口监视资源

可以

Azure负载均衡监视资源

可以

Azure DNS监视资源

可以

Google Cloud 虚拟 IP 监视资源

可以

Google Cloud 负载均衡监视资源

可以

Google Cloud DNS 监视资源

可以

Oracle Cloud 虚拟 IP 监视资源

可以

Oracle Cloud 负载均衡监视资源

可以

在Cluster WebUI中,不能控制的监视资源的右键菜单是无效的。
[clpmonctrl]命令只对可以控制的监视资源进行控制。不能控制的监视资源显示警告信息,不执行控制。

在暂停状态下进行以下操作时,将会解除监视资源暂停状态。

  • 在Cluster WebUI中"重新启动"监视资源

  • 在[clpmonctrl]命令中指定-r参数

  • 集群停止

  • 集群挂起

4.1.4. 发生/解除监视资源的模拟故障

监视资源可模拟故障的发生。也可以解除故障。模拟故障发生/解除的方法有以下2种。

  • 通过Cluster WebUI(验证模式)操作
    在Cluster WebUI(验证模式)中,不可控制监视资源的右键菜单无效。
  • 通过[clpmonctrl]命令操作
    通过[clpmonctrl]命令,可以控制执行命令的服务器或者指定服务器的监视资源。对不可控制监视资源进行执行时,可成功执行命令,但无法发生模拟故障。
并非所有的监视资源都支持发生/解除模拟故障。

在发生模拟故障的状态下进行以下操作时,将会解除监视资源模拟故障。

  • 在Cluster WebUI(验证模式)中执行监视资源的"解除模拟故障"

  • 将Cluster WebUI模式由验证模式更改到其他模式时,在显示的对话框中选择"是"

  • 在[clpmonctrl]命令中指定-n参数

  • 集群停止

  • 集群挂起

4.1.5. 监视资源的监视间隔机制

用户空间监视资源之外的所有监视资源按照监视间隔进行监视。

下面通过时序来说明根据设置的监视间隔时间进行正常监视以及异常时对监视资源进行监视的流程。

发现监视正常执行时

图中显示在集群启动后开始监视或者重启时的动作。 主监视进程(Main monitoring process)收到监视结果后,在监视间隔(Monitor interval)后将重复开始监视。

设置值如下所示时的运行示例:

<监视>
监视间隔 30秒
监视超时 60秒
监视重试次数 0次
主监视进程,子监视进程以及监视间隔

图 4.2 监视间隔(发现监视正常执行时)

发现监视出现异常时(无监视重试设置)

图中显示了监视对象(Monitor target)发生了异常,在发现异常后的动作。 主监视进程(Main monitoring process)收到监视结果(异常)后,对复归对象组执行失效切换。

发现监视异常后,在下次监视时会查出监视异常,然后对复归对象执行失效切换。

设置值如下所示时的运行示例:

<监视>
监视间隔 30秒
监视超时 60秒
监视重试次数 0次
<发现异常>
复归对象 组
复归脚本执行次数 0次
最大重启动次数 0次
最大失效切换次数 1次
最终动作 不进行任何操作
主监视进程,子监视进程以及监视间隔

图 4.3 监视间隔(查出监视异常时 ・无监视重试设置)

查出监视异常时(有监视重试设置)

图中显示了监视对象(Monitor target)发生了异常,在发现异常后的动作。 主监视进程(Main monitoring process)收到监视结果(异常)后,执行监视操作直到达到设置的监视重试次数为止。如果监视对象仍然无法复归时,对复归对象执行失效切换。

发生监视异常后,会在下次监视时查出监视异常。若在重试监视次数内无法恢复,则对复归对象执行失效切换。

设置值如下所示时的运行示例:

<监视>
监视间隔 30秒
监视超时 60秒
监视重试次数 2次
<发现异常>
复归对象 组
复归脚本执行次数 0次
最大重启动次数 0次
最大失效切换次数 1次
最终动作 不进行任何操作
主监视进程,子监视进程以及监视间隔

图 4.4 监视间隔(查出监视异常时 ・有监视重试设置)

查出监视超时时(无监视重试设置)

图中显示在设置的时间内没有结束监视处理时的动作。 主监视进程(Main monitoring process)在启动监视后,如果在监视超时中设置的时间内无法取得监视结果,则对复归对象组进行失效切换。

发生监视超时后,会立即对针对复归对象执行的复归操作执行失效切换。

设置值如下所示时的运行示例:

<监视>
监视间隔 30秒
监视超时 60秒
监视重试次数 0次
<发现异常>
复归对象 组
复归脚本执行次数 0次
最大重启动次数 0次
最大失效切换次数 1次
最终动作 不进行任何操作
主监视进程,子监视进程以及监视间隔

图 4.5 监视间隔(查出监视超时时 ・无监视重试设置)

查出监视超时时(对监视重试进行了设置)

图中显示在设置的时间内没有结束监视处理时的动作。 主监视进程(Main monitoring process)在启动监视后,如果在监视超时中设置的时间内无法取得监视结果,则执行监视操作直到达到设置的监视重试次数为止。如果仍然无法取得监视结果,则对复归对象组进行失效切换。

监视超时发生后,进行监视重试,对复归对象执行失效切换。

设置值如下所示时的运行示例:

<监视>
监视间隔 30秒
监视超时 60秒
监视重试次数 1次
<发现异常>
复归对象 组
复归脚本执行次数 0次
最大重启动次数 0次
最大失效切换次数 1次
最终动作 不进行任何操作
主监视进程,子监视进程以及监视间隔

图 4.6 监视间隔(查出监视超时时 ・有监视重试设置)

4.1.6. 监视资源发现异常时的操作

发现异常时对复归对象执行的复归操作如下所示。

  • 发现监视对象的异常后,执行复归脚本。

  • 按次数执行复归脚本后,重新启动复归对象。若设置有重启动前执行脚本,则执行脚本后再重新启动。

  • 按照重新启动界限值重新启动后仍失败,则执行失效切换。若设置有失效切换前执行脚本,则执行脚本后再进行失效切换。

  • 按照失效切换界限值的设置执行失效切换后仍然查出异常,则执行最终动作。若设置有最终动作前执行脚本,则执行脚本后再执行最终动作。

复归操作针对的复归对象必须处于以下状态。

复归对象

状态

重新启动 2

失效切换 3

最终动作 4

组资源/
失效切换组

已停止

No

No

No

正在启动或停止

No

No

No

已启动

Yes

Yes

Yes

异常

Yes

Yes

Yes

本地服务器

-

-

-

Yes

Yes:执行恢复运行 No:不执行恢复运行

2

仅在重启动次数设置为大于等于1的值时生效。

3

仅在失效切换次数设置为大于等于1的值时生效。

4

仅在最终动作设置为"不进行任何操作"之外值时生效。

注解

在设置查出监视资源异常的情况下将复归对象指定为组资源(例: 磁盘资源,EXEC资源),而监视资源发现异常时,处于复归操作过渡(重新启动 -> 失效切换 ->最终动作)的状态下,请不要执行以下命令或在Cluster WebUI中执行以下操作。

  • 停止/暂停集群

  • 启动/停止/移动组

若由于监视资源出现异常而处于复归操作过渡状态中执行上述控制操作,可执行其他组的组资源不会停止。

并且即便监视资源处于异常状态,只要执行了最终动作,也可执行上述控制操作。

当监视资源的异常状态恢复(正常)后,重启动次数,失效切换次数以及是否执行最终动作的设置均被重置。

请注意,即便复归操作失败,重新启动复归操作的次数以及失效切换的次数均为1次。

以下对于指定IP监视资源的IP地址为网关时,仅发现一侧服务器异常的流程进行说明。

设置值如下所示时的运行示例:

<监视>
间隔 30秒
超时 30秒
重试次数 3次
<发现异常>
复归对象 失效切换组A
复归脚本执行次数 3次
最大重启动次数 3次
最大失效切换次数 1次
最后动作 不进行任何操作
  1. 图中显示的是在2台服务器中IP监视资源进行监视时的示例。
    IP monitor resource 1在每个时间间隔对Gateway的IP地址进行死活确认。
    网关以及2台服务器和其中的IP监视资源

    图 4.7 查出IP监视资源异常的流程(仅1台服务器查出异常) (1)

    Server 1
    IP monitor resource 1
    Server 2
    IP monitor resource 1

    复归脚本执行次数

    0

    0

    重启动次数

    0

    0

    失效切换次数

    0

    0

  2. 查出IP monitor resource 1监视异常(LAN电缆断开,NIC故障等)

    网关以及2台服务器和其中的IP监视资源

    图 4.8 查出IP监视资源异常的流程(仅1台服务器查出异常) (2)

  3. IP monitor resource 1重试监视3次。

    网关以及2台服务器和其中的IP监视资源

    图 4.9 查出IP监视资源异常的流程(仅1台服务器查出异常) (3)

  4. 监视重试结束时,在Server 1中开始执行复归脚本。
    “复归脚本执行次数”为各服务器中的复归脚本的执行次数。
    这是在Server 1中执行的第一个复归脚本。
    在Server 2中,由于Failover group A为“已停止”,因此不执行复归操作。
    网关以及2台服务器和其中的IP监视资源

    图 4.10 查出IP监视资源异常的流程(仅1台服务器查出异常) (4)

    Server 1
    IP monitor resource 1
    Server 2
    IP monitor resource 1

    复归脚本执行次数

    3

    0

    重启动次数

    0

    0

    失效切换次数

    0

    0

  5. 如果在Server 1中超过复归脚本执行次数,则在Server 1中开始Failover group A的重启动处理。
    “重启动次数”指的是各服务器中的重启动的次数。
    这是在Server 1中的第一次重启动处理。
    网关以及2台服务器和其中的IP监视资源

    图 4.11 查出IP监视资源异常的流程(仅1台服务器查出异常) (5)

    Server 1
    IP monitor resource 1
    Server 2
    IP monitor resource 1

    复归脚本执行次数

    3

    0

    重启动次数

    3

    0

    失效切换次数

    0

    0

  6. 当Server 1中超过重启动界限值时,则在Server 1中开始Failover group A的失效切换处理。
    “失效切换界限值”指的是各服务器中的失效切换次数。
    这是在Server 1中第一次失效切换处理。
    网关以及2台服务器和其中的IP监视资源

    图 4.12 查出IP监视资源异常的流程(仅1台服务器查出异常) (6)

  7. 将Failover group A从Server 1失效切换到Server 2。
    在Server 2中完成Failover group A的失效切换处理。
    网关以及2台服务器和其中的IP监视资源

    图 4.13 查出IP监视资源异常的流程(仅1台服务器查出异常) (7)

    Server 1
    IP monitor resource 1
    Server 2
    IP monitor resource 1

    复归脚本执行次数

    3

    0

    重启动次数

    3

    0

    失效切换次数

    1

    0

服务器2中,由于IP监视资源1处于正常状态,所以可通过失效切换组A执行失效切换,实现持续运行。

下面将对指定IP监视资源的IP地址为网关时,发现双方服务器异常的流程进行说明。

设置值如下所示时的运行示例:

<监视>
间隔 30秒
超时 30秒
重试次数 3次
<查出异常>
复归对象 失效切换组A
复归脚本执行次数 3次
最大重启动次数 3次
最大失效切换次数 1次
最终动作 不进行任何操作
  1. 图中显示的是在2台服务器中IP监视资源进行监视时的示例。
    IP monitor resource 1在每个时间间隔对Gateway的IP地址进行死活确认。
    网关以及2台服务器和其中的IP监视资源

    图 4.14 查出IP监视资源异常的流程(2台服务器上查出异常) (1)

    Server 1
    IP monitor resource 1
    Server 2
    IP monitor resource 1

    复归脚本执行次数

    0

    0

    重启动次数

    0

    0

    失效切换次数

    0

    0

  2. 在Server 1,Server 2中查出IP monitor resource 1监视异常(LAN电缆断开,NIC故障等)

    网关以及2台服务器和其中的IP监视资源

    图 4.15 查出IP监视资源异常的流程(2台服务器上查出异常) (2)

  3. IP monitor resource 1重试监视3次。

    网关以及2台服务器和其中的IP监视资源

    图 4.16 查出IP监视资源异常的流程(2台服务器上查出异常) (3)

  4. 监视重试结束时,在Server 1中开始执行复归脚本。
    “复归脚本执行次数”是指各服务器中的复归脚本的执行次数。
    这是在Server 1中执行的第一个复归脚本。
    在Server 2中,由于Failover group A为“已停止”,因此不执行复归操作。
    网关以及2台服务器和其中的IP监视资源

    图 4.17 查出IP监视资源异常的流程(2台服务器上查出异常) (4)

    Server 1
    IP monitor resource 1
    Server 2
    IP monitor resource 1

    复归脚本执行次数

    3

    0

    重启动次数

    0

    0

    失效切换次数

    0

    0

  5. 如果在Server 1中超过复归脚本执行次数,则在Server 1中开始Failover group A的重启动处理。
    “重启动次数”指的是各服务器中的重启动的次数。
    这是在Server 1中的第一次重启动处理。
    在Server 2中,由于Failover group A为“已停止”,因此不执行复归操作。
    网关以及2台服务器和其中的IP监视资源

    图 4.18 查出IP监视资源异常的流程(2台服务器上查出异常) (5)

    Server 1
    IP monitor resource 1
    Server 2
    IP monitor resource 1

    复归脚本执行次数

    3

    0

    重启动次数

    3

    0

    失效切换次数

    0

    0

  6. 当Server 1中超过重启动界限值时,则在Server 1中开始Failover group A的失效切换处理。
    “失效切换界限值”指的是各服务器中的失效切换次数。
    这是在Server 1中第一次失效切换处理。
    在Server 2中,由于Failover group A为“已停止”,因此不执行复归操作。
    网关以及2台服务器和其中的IP监视资源

    图 4.19 查出IP监视资源异常的流程(2台服务器上查出异常) (6)

    Server 1
    IP monitor resource 1
    Server 2
    IP monitor resource 1

    复归脚本执行次数

    3

    0

    重启动次数

    3

    0

    失效切换次数

    1

    0

  7. 将Failover group A从Server 1失效切换到Server 2。
    Server 2中持续IP monitor resource 1的监视异常。
    网关以及2台服务器和其中的IP监视资源

    图 4.20 查出IP监视资源异常的流程(2台服务器上查出异常) (7)

    Server 1
    IP monitor resource 1
    Server 2
    IP monitor resource 1

    复归脚本执行次数

    3

    0

    重启动次数

    3

    0

    失效切换次数

    1

    0

  8. IP monitor resource 1重试监视3次。

    网关以及2台服务器和其中的IP监视资源

    图 4.21 查出IP监视资源异常的流程(2台服务器上查出异常) (8)

  9. IP monitor resource 1进行监视重试时,如果持续异常,则最多重试3次复归脚本执行。

    网关以及2台服务器和其中的IP监视资源

    图 4.22 查出IP监视资源异常的流程(2台服务器上查出异常) (9)

  10. 即使在Server 2中重试了复归脚本执行处理,如果持续异常,则最多重试3次Failover group A的重启动处理。

网关以及2台服务器和其中的IP监视资源

图 4.23 查出IP监视资源异常的流程(2台服务器上查出异常) (10)

Server 1
IP monitor resource 1
Server 2
IP monitor resource 1

复归脚本执行次数

3

3

重启动次数

3

3

失效切换次数

1

0

  1. 当Server 2中已重试重启动处理时,则在Server 2中开始Failover group A的失效切换处理。
    这是Server 2中第一次失效切换处理。
网关以及2台服务器和其中的IP监视资源

图 4.24 查出IP监视资源异常的流程(2台服务器上查出异常) (11)

Server 1
IP monitor resource 1
Server 2
IP monitor resource 1

复归脚本执行次数

3

3

重启动次数

3

3

失效切换次数

1

1

  1. 将Failover group A从Server 2失效切换到Server 1。
    Server 1中持续IP monitor resource 1的监视异常。
网关以及2台服务器和其中的IP监视资源

图 4.25 查出IP监视资源异常的流程(2台服务器上查出异常) (12)

Server 1
IP monitor resource 1
Server 2
IP monitor resource 1

复归脚本执行次数

3

3

重启动次数

3

3

失效切换次数

1

1

  1. Server 1中最多重试3次IP monitor resource 1的监视。

网关以及2台服务器和其中的IP监视资源

图 4.26 查出IP监视资源异常的流程(2台服务器上查出异常) (13)

  1. 在Server 1中,如果再次重试Disk monitor resource 1的监视,则由于重启动界限值为3次,所以不执行重启动处理。
    此外,由于失效切换界限值为1,因此也不执行失效切换处理,直接开始进行设置为最终动作的操作。
    在Server 1中开始IP monitor resource 1的最终动作。
    “最终动作”是指重试失效切换后的动作。
网关以及2台服务器和其中的IP监视资源

图 4.27 查出IP监视资源异常的流程(2台服务器上查出异常) (14)

【补充】
若正在监视的服务器中监视资源状态由异常转为正常,重启动次数和失效切换次数被重置为0,则下次监视出现异常时同样执行复归操作。

以上流程以私网正常为前提。

如果所有私网都被切断,则与其它服务器不能进行内部通信,所以即使查出监视对象的异常,组的失效切换处理也会失败。

假设所有私网都切断,为了能够执行组的失效切换,可以使发生异常的服务器停止。由此,其他服务器发现该服务器宕机,执行组的失效切换。

通过以下设置示例说明所有私网都断开的状态下查出异常后的处理流程。

[设置示例]

<监视>
间隔 30秒
超时 30秒
重试次数 3次
<查出异常>
复归对象 失效切换组A
复归脚本执行次数 3次
最大重启动次数 3次
最大失效切换次数 1次
最终动作 集群服务停止及OS停止

以下说明指定上述设置时的操作示例。

对复归对象的重新启动处理与私网正常的情况下的操作相同。

从需要私网的服务器1中的失效切换处理开始说明。

  1. 图中显示的是在2台服务器中IP监视资源进行监视时的示例。
    私网LAN为断开状态,Server 1中重试重启动处理。
    网关,2台服务器和其中的IP监视资源,连接2台服务器的共享磁盘

    图 4.28 查出IP监视资源异常的流程(所有私网LAN断开连接) (1)

    Server 1
    IP monitor resource 1

    复归脚本执行次数

    3

    重启动次数

    3

    失效切换次数

    0

  2. 虽然在Server 1中超过重启动界限值时会开始 Failover group A的失效切换处理,但是由于私网LAN在断开连接的状态下,不能进行内部通信,因此失效切换处理会失败。
    网关,2台服务器和其中的IP监视资源,连接2台服务器的共享磁盘

    图 4.29 查出IP监视资源异常的流程(所有私网LAN断开连接) (2)

    Server 1
    IP monitor resource 1
    Server 2
    IP monitor resource 1

    复归脚本执行次数

    3

    3

    重启动次数

    3

    0

    失效切换次数

    1

    0

  3. Server 1中超过失效切换界限值时,会在Server 1中执行最终动作,在停止集群服务后,会将其关闭。
    在Server 1宕机后,Failover group A根据失效切换政策,开始进行失效切换处理。
    “最终动作”是指重试失效切换后的动作。
    网关,2台服务器和其中的IP监视资源,连接2台服务器的共享磁盘

    图 4.30 查出IP监视资源异常的流程(所有私网LAN断开连接) (3)

    Server 1
    IP monitor resource 1
    Server 2
    IP monitor resource 1

    复归脚本执行次数

    3

    0

    重启动次数

    3

    0

    失效切换次数

    1

    0

  4. 如果服务器2中的IP monitor resource 1 的异常依旧持续,则与服务器1一样,在服务器2中执行组A的重启动。
    在服务器2中如果组A的重启动发生异常,则会尝试失效切换。
    但是,关于失效切换,由于没有失效切换目标,因此无法进行失效切换。
    超过失效切换界限值时,与服务器1相同,在服务器2中执行最终动作。
    网关,2台服务器和其中的IP监视资源,连接2台服务器的共享磁盘

    图 4.31 查出IP监视资源异常的流程(所有私网LAN断开连接) (4)

4.1.7. 监视状态由异常恢复(正常)

若发现监视异常,复归操作过渡过程或全部复归操作结束发现监视资源恢复,则该监视资源所保留的以下次数的计数器被重置。

  • 复归脚本执行次数

  • 重启动次数

  • 失效切换次数

最终动作的是否执行也被重置(重置为需要执行)。

以下将对执行"监视资源发现异常时的操作"的最终动作后,监视状态恢复正常,下次监视出现异常时的流程进行说明。

[设置示例]

<监视>
间隔 30秒
超时 30秒
重试次数 3次
<查出异常>
复归对象 失效切换组A
复归脚本执行次数 3次
最大重启动次数 3次
最大失效切换次数 1次
最终动作 组停止

以下说明指定上述设置时的操作示例。

  1. 图中显示的是在2台服务器中IP监视资源进行监视时的示例。
    执行完所有复归操作后,持续监视异常。
    Server 1处于 IP monitor resource 1的最终动作执行完成的状态。
    网关以及2台服务器和其中的IP监视资源

    图 4.32 查出IP监视资源异常的流程(从监视异常中恢复·正常) (1)

    Server 1
    IP monitor resource 1
    Server 2
    IP monitor resource 1

    复归脚本执行次数

    3

    3

    重启动次数

    3

    3

    失效切换次数

    1

    1

  2. 网关恢复时,查出IP monitor resource 1的监视正常。
    由于查出监视对象资源已变为正常,因此要重置重启动次数以及失效切换次数。
    网关以及2台服务器和其中的IP监视资源

    图 4.33 查出IP监视资源异常的流程(从监视异常中恢复·正常) (2)

    Server 1
    IP monitor resource 1
    Server 2
    IP monitor resource 1

    复归脚本执行次数

    0

    0

    重启动次数

    0

    0

    失效切换次数

    0

    0

  3. 再一次查出IP monitor resource 1的监视异常时。

    网关以及2台服务器和其中的IP监视资源

    图 4.34 查出IP监视资源异常的流程(从监视异常中恢复·正常) (3)

  4. 最多重试3次IP monitor resource 1的监视。
    "重试次数"是该服务器上的重试次数。
    网关以及2台服务器和其中的IP监视资源

    图 4.35 查出IP监视资源异常的流程(从监视异常中恢复·正常) (4)

    Server 1
    IP monitor resource 1
    Server 2
    IP monitor resource 1

    复归脚本执行次数

    0

    0

    重启动次数

    0

    0

    失效切换次数

    0

    0

  5. 重试了监视资源时,在Server 1中开始复归脚本执行处理。
    “复归脚本执行次数”为各服务器中的复归脚本的执行次数。
    这是在Server 1中第一次复归脚本执行处理。
    在Server 2中,由于Failover group A为“已停止”,因此不执行复归操作。
    网关以及2台服务器和其中的IP监视资源

    图 4.36 查出IP监视资源异常的流程(从监视异常中恢复·正常) (5)

    Server 1
    IP monitor resource 1
    Server 2
    IP monitor resource 1

    复归脚本执行次数

    3

    0

    重启动次数

    0

    0

    失效切换次数

    0

    0

  6. 如果在Server 1中超过复归脚本执行次数,则在Server 1中开始Failover group A的重启动处理。
    "重启动次数"指的是各服务器中的重启动次数。
    这是在Server 1中的第一次重启动处理。
    由于之前查出监视对象资源变为正常,并且已重置重启动次数,因此要再一次进行重启动处理。
    网关以及2台服务器和其中的IP监视资源

    图 4.37 查出IP监视资源异常的流程(从监视异常中恢复·正常) (6)

    Server 1
    IP monitor resource 1
    Server 2
    IP monitor resource 1

    复归脚本执行次数

    3

    0

    重启动次数

    3

    0

    失效切换次数

    0

    0

4.1.8. 复归操作时启动/停止复归对象出现异常

当监视资源的监视目标与复归对象的组资源为同一设备,发现监视异常时,可执行会在执行复归操作过程中发生启动/停止组资源异常。

以下将对磁盘监视资源的监视目标与失效切换组A的磁盘资源被指定为同一设备时的复归操作流程进行说明。

[磁盘监视资源的设置示例]

<监视>
间隔 60秒
超时 120秒
重试次数 0次
<查出异常>
复归对象 失效切换组A
复归脚本执行次数 0次
最大重启动次数 0次
最大失效切换次数 1次
最终动作 组停止
<参数>
监视方法 TUR

[失效切换组A : 磁盘资源的设置示例]

<启动异常>
启动重试次数 0次
失效切换次数 1次
最终动作 不执行任何操作(不启动下一个资源)
<停止异常>
停止重试次数 0次
最终动作 集群服务停止与OS停止

监视资源的重启动次数与组资源的启动重试次数都被设置为0次,所以在过程迁移图中被省略。

  1. 图中显示在2台服务器中磁盘监视资源进行监视时的示例。
    在Server 1,Server 2中开始 Disk monitor resource 1,Failover group A的启动处理。
    在每个间隔中,向设备执行TUR的ioctl。
    2台服务器和其中的磁盘监视资源以及共享磁盘

    图 4.38 查出磁盘监视资源异常的流程 (1)

    Server 1

    Server 2

    Disk monitor resource 1
    失效切换次数

    0

    0

    Disk resource 1
    失效切换次数

    0

    0

  2. 在Server 1,Server 2中查出 Disk monitor resource 1的监视异常(TUR的ioctl失败)。
    根据磁盘设备的故障位置,可执行会在磁盘资源的停止处理中查出异常。
    2台服务器和其中的磁盘监视资源以及共享磁盘

    图 4.39 查出磁盘监视资源异常的流程 (2)

  3. 由于在Server 1中Disk monitor resource 1监视异常,开始进行Failover group A的失效切换处理。
    监视资源的失效切换界限值为各服务器的失效切换次数。
    这是在Server 1中第一次失效切换处理。
    2台服务器和其中的磁盘监视资源以及共享磁盘

    图 4.40 查出磁盘监视资源异常的流程 (3)

    Server 1

    Server 2

    Disk monitor resource 1
    失效切换次数

    1

    0

    Disk resource 1
    失效切换次数

    0

    0

  4. 由于Server 2的失效切换处理,导致Disk resource 1的启动失败(fsck,mount失败等)。
    根据磁盘设备的故障位置,可执行会在磁盘资源的停止处理中查出异常。
    2台服务器和其中的磁盘监视资源以及共享磁盘

    图 4.41 查出磁盘监视资源异常的流程 (4)

  5. 由于在Server 2中的Disk resource 1启动异常,因此要开始进行Failover group A的失效切换处理。
    组资源的失效切换界限值为各服务器的失效切换次数。
    这是在Server 2中第一次失效切换处理。
    2台服务器和其中的磁盘监视资源以及共享磁盘

    图 4.42 查出磁盘监视资源异常的流程 (5)

    Server 1

    Server 2

    Disk monitor resource 1
    失效切换次数

    1

    0

    Disk resource 1
    失效切换次数

    0

    1

  6. 在服务器2中也与服务器1中一样,查到磁盘监视资源1的异常,但是由于作为复归对象的“Failover group A”正在启动,因此不能进行复归操作。
    关于监视资源对复归对象执行复归操作的条件,请参考“监视资源发现异常时的操作”。
    由于Server 1的失效切换处理,导致Disk resource 1的启动失败(fsck,mount失败等)。
    根据磁盘设备的故障位置,可执行会在磁盘资源的停止处理中查出异常。
    2台服务器和其中的磁盘监视资源以及共享磁盘

    图 4.43 查出磁盘监视资源异常的流程 (6)

    Server 1

    Server 2

    Disk monitor resource 1
    失效切换次数

    1

    0

    Disk resource 1
    失效切换次数

    0

    1

  7. 由于在Server 1中的Disk resource 1启动异常,因此要开始进行Failover group A的失效切换处理。
    这是在Server 1中第一次失效切换处理。
    根据磁盘设备的故障位置,可执行会在磁盘资源的停止处理中查出异常。
    2台服务器和其中的磁盘监视资源以及共享磁盘

    图 4.44 查出磁盘监视资源异常的流程 (7)

    Server 1

    Server 2

    Disk monitor resource 1
    失效切换次数

    1

    0

    Disk resource 1
    失效切换次数

    1

    1

  8. 由于Server 2的失效切换处理,导致Disk resource 1的启动失败(fsck,mount失败等)。
    根据磁盘设备的故障位置,可执行会在磁盘资源的停止处理中查出异常。
    2台服务器和其中的磁盘监视资源以及共享磁盘

    图 4.45 查出磁盘监视资源异常的流程 (8)

    Server 1

    Server 2

    Disk monitor resource 1
    失效切换次数

    1

    0

    Disk resource 1
    失效切换次数

    1

    1

  9. 由于磁盘资源1的启动异常导致超过了失效切换次数界限值,在服务器2中执行最终动作。
    但是,由于最终动作中设置为“不做任何操作(不启动下一个资源)”,因此不启动Failover group A剩余的组资源,启动处理异常结束。
2台服务器和其中的磁盘监视资源以及共享磁盘

图 4.46 查出磁盘监视资源异常的流程 (9)

  1. 由于在Server 2中的Disk monitor resource 1监视异常,因此要开始进行Failover group A的失效切换处理。
    这是在Server 2中第一次失效切换处理。
2台服务器和其中的磁盘监视资源以及共享磁盘

图 4.47 查出磁盘监视资源异常的流程 (10)

Server 1

Server 2

Disk monitor resource 1
失效切换次数

1

1

Disk resource 1
失效切换次数

1

1

  1. 与服务器2一样,由于磁盘资源1的启动异常导致超过了失效切换次数界限值,在服务器1中执行最终动作。
    但是,由于最终动作中设置为“不做任何操作(不启动下一个资源)”,因此不启动Failover group A剩余的组资源,启动处理异常结束。
    根据磁盘设备的故障位置,可执行会在磁盘资源的停止处理中查出异常。
2台服务器和其中的磁盘监视资源以及共享磁盘

图 4.48 查出磁盘监视资源异常的流程 (11)

Server 1

Server 2

Disk monitor resource 1
失效切换次数

1

1

Disk resource 1
失效切换次数

1

1

  1. 由于磁盘监视资源1的监视异常导致超过了失效切换次数界限值,在服务器1中执行最终动作(组停止)。
    由于Failover group A通过在服务器1中执行的磁盘监视资源1的最终动作而停止了,因此之后即使查出磁盘监视资源1的监视异常,也不会发生任何事情。
    但是,由于服务器2中还未执行磁盘监视资源1的最终动作,因此当Failover group A为手动启动时,执行磁盘监视资源1的最终动作。
2台服务器和其中的磁盘监视资源以及共享磁盘

图 4.49 查出磁盘监视资源异常的流程 (12)

Server 1

Server 2

Disk monitor resource 1
失效切换次数

1

1

Disk resource 1
失效切换次数

1

1

4.1.9. 关于复归脚本,复归操作前的脚本

可在查出监视资源异常后执行复归脚本。此外,在重新启动复归对象,执行失效切换及最终动作前,也可执行复归操作前的脚本。

任何情况下都会运行共同的脚本文件。

复归脚本,复归操作前脚本使用的环境变量

EXPRESSCLUSTER在执行脚本时,需要在环境变量中设置脚本执行时的状态(复归操作类型)等信息。

在脚本内可以以下图中的环境变量为分支条件说明与系统操作相符的处理内容。

环境变量

环境变量的值

含义

CLP_MONITORNAME
…监视资源名

监视资源名

显示查出异常(该异常导致需要执行复归脚本,复归操作前脚本)的监视资源名称。

CLP_VERSION_FULL
…EXPRESSCLUSTER完整版

EXPRESSCLUSTER完整版

显示EXPRESSCLUSTER完整版。
(例) 4.3.0-1
CLP_VERSION_MAJOR
…EXPRESSCLUSTER主要版本

EXPRESSCLUSTER主要版本

显示EXPRESSCLUSTER主要版本。
(例)4
CLP_PATH
…EXPRESSCLUSTER安装路径

EXPRESSCLUSTER安装路径

显示EXPRESSCLUSTER的安装路径。
(例)/opt/nec/clusterpro
CLP_OSNAME
…服务器OS名称

服务器OS名称

显示执行脚本的服务器OS名称。
(例)
1. 可以获取OS名称时:Red Hat Enterprise Linux Server release 6.8 (Santiago)
2. 不能获取OS名称时:Linux
CLP_OSVER
…服务器OS版本

服务器OS版本

显示执行脚本的服务器的OS版本。
(例)
1. 可以获取OS版本时:6.8
2. 不能获取OS版本时:※无值
CLP_ACTION
复归操作类型

RECOVERY

作为复归脚本执行时。

RESTART

重新启动前执行时。

FAILOVER

失效切换前执行时。

FINALACTION

最终动作前执行时。

CLP_RECOVERYCOUNT
复归脚本的执行次数

复归脚本执行次数

显示第几次执行复归脚本。

CLP_RESTARTCOUNT
…重启动次数

重启动次数

显示第几次重新启动。

CLP_FAILOVERCOUNT
…失效切换次数

失效切换次数

显示第几次失效切换。

复归脚本,复归操作前脚本的描述流程

本节讲解了上节中说明的环境变量与实际脚本描述之间的关系。

复归脚本,复归操作前脚本的例子

#!/bin/sh

# ***************************************
# *           preactaction.sh
# ***************************************

# 参考脚本执行要因的环境变量分配处理。
if ["$CLP_ACTION"="RECOVERY"]
then
    # 在这里记述了复归处理。
    # 该处理在以下时机执行。
    #
    # 复归动作: 复归脚本

elif ["$CLP_ACTION"="RESTART"]
then
    # 在这里记述了重启动前处理。
    # 该处理在以下时机执行。
    #
    # 复归动作: 重启动

elif ["$CLP_ACTION"="FAILOVER"]
then
    # 在这里记述了复归处理。
    # 该处理在以下时机执行。
    #
    # 复归动作: 失效切换

elif ["$CLP_ACTION"="FINALACTION"]
then
    # 在这里记述了复归处理。
    # 该处理在以下时机执行。
    #
    # 复归动作: 最终动作

fi
exit 0

创建复归脚本,复归操作前脚本时的注意事项

创建脚本时请注意以下内容。

  • 如果要执行一些需要时间的命令,请在脚本中保留用于表示命令执行完成的跟踪信息。发生故障时,可以使用这些信息来区分故障。可使用clplogcmd保留跟踪信息。

  • 在脚本中使用clplogcmd进行描述的方法
    通过clplogcmd向Cluster WebUI的警报日志或OS的syslog中输出消息。关于clplogcmd,请参照本指南的"8. EXPRESSCLUSTER命令参考"的"消息输出(clplogcmd命令)"。
    (例:脚本设置示例)
    clplogcmd -m "recoverystart.."
    recoverystart
    clplogcmd -m "OK"

复归脚本,复归操作前脚本的注意事项

  • 关于从脚本启动的命令,应用程序的堆栈大小
    堆栈大小设置为2MB的状态下,执行复归脚本,复归操作前的脚本。因此从脚本启动的命令或应用程序中需要2MB以上的堆栈大小时,会产生堆栈溢出的情况。
    发生堆栈溢出时,请在启动命令或应用程序前设置堆栈大小。
  • 关于最终动作时的复归动作前脚本的执行条件
    最终动作时的复归动作前脚本在监视资源的监视异常引发的最终动作之前被执行。在最终动作中设定了[无操作]时,复归动作前脚本也会被执行。
    最大重起动次数,监视资源的复归动作的抑制功能,其它服务器全部停止时的最终动作抑制功能等导致的最终动作没有被执行时,复归动作前脚本不会被执行。

4.1.10. 监视资源延迟警告

监视资源由于业务应用程序的集中等原因,可执行会出现服务器负荷过大,出现监视超时的情况。发现监视超时之前,当监视的监视处理时间(实测时间)达到监视超时时间的一定比例后,可以发出警告通知。

以下通过时序图对监视资源发出延迟警告之前的流程进行说明。

监视超时设置为60秒,延迟警告比率指定为默认值80%(48秒)。

箭头表示监视轮询时间。

监视资源延迟警告之前的时间

图 4.50 监视轮询时间和延迟警告

  1. 监视轮询时间为10秒,监视资源处于正常状态。
    此时不发出警告。
  2. 监视轮询时间为50秒,发现监视延迟,监视资源处于正常状态。
    此时,由于超过延迟警告比率80%,所以发警告通知。
  3. 监视轮询时间超过监视超时时间,即60秒,发生监视超时,监视资源处于异常状态。
    此时不发出警告。

另外,若将延迟警告比例设置为0或100,可进行以下操作。

  • 将延迟警告比例设置为0
    每次监视都发延迟警告通知。
    利用此功能,可计算出服务器在高负载状态下对监视资源的轮询时间,由此确定监视资源的监视超时时间。
  • 将延迟警告比例设置为100
    不发出延迟警告通知。

心跳资源也同样发出心跳的延迟警告通知。

用户空间监视资源也使用与监视资源相同的延时警告比率。

注解

除测试运行的情况之外,请不要设置0%等较低的值。

4.1.11. 监视资源的监视开始等待

监视开始等待是指从经过指定的等待监视开始时间后开始监视。

以下通过时序图对监视开始等待设置为0秒和30秒时监视的区别分别进行说明。

监视开始等待时间为0时,集群启动或者重新启动监视之后开始监视资源轮询。

[监视资源配置]

<监视>
间隔 30秒
超时 60秒
重试次数 0次
监视开始等待时间 0秒
每个监视开始等待时间的行为差异

图 4.51 监视资源的监视开始等待(监视开始等待时间0秒)

监视开始等待时间为30秒时,在集群启动或者重新开始监视后等待30秒之后开始监视资源轮询。

[监视资源配置]

<监视>
间隔 30秒
超时 60秒
重试次数 0次
监视开始等待时间 30秒
每个监视开始等待时间的行为差异

图 4.52 监视资源的监视开始等待(监视开始等待时间30秒)

注解

使用监视控制命令,暂时停止/重新启动监视资源时也是在指定的等待监视开始时间经过后进行。

在与PID监视资源监视的EXEC资源一样,因为应用程序的设等导致监视开始后可执行结束,并且无法重新启动的情况下,使用等待监视开始时间。

例如下列情况中,若将等待监视开始时间设置为0,可执行会出现无限重复执行复归操作的情况。

这种情况下,应用程序将启动一次。此外,开始通过PID监视器进行监视,由PID监视器进行的轮询会一次正常结束。 但是随后,由于某种原因,应用程序会异常结束。

[PID监视资源配置]

<监视>
间隔 5秒
超时 60秒
重试次数 0次
监视开始等待时间 0秒
<查出异常>
复归对象 exec1
最大重启动次数 1次
最大失效切换次数 1次
最终动作 组停止
ECEC资源,应用程序,PID监视器动作的转换

图 4.53 监视资源的监视开始等待(监视开始等待时间0秒)

该复归操作无限重复进行的原因是由于第一次监视轮询正常结束。监视资源复归操作的当前次数当监视资源处于正常状态时被重置。因此,当前次数总被重置为0,重新启动的复归操作就会无限重复进行。

通过设置等待监视开始时间,可以避免以上现象的发生。

等待监视开始时间设置为应用程序启动后可执行结束的时间,默认设置为60秒。

这种情况下,应用程序将启动一次。 之后,在设定的开始监视等待时间之后,开始由PID监视器进行监视。 随后,虽然由于某种原因,应用程序异常结束,但是这是由PID监视器的首次轮询检测到的。

[PID监视资源配置]

<监视>
间隔 5秒
超时 60秒
重试次数 0次
监视开始等待时间 60秒
<查出异常>
复归对象 exec1
最大重启动次数 1次
最大失效切换次数 1次
最终动作 组停止
ECEC资源,应用程序,PID监视器动作的转换

图 4.54 监视资源的监视开始等待(监视开始等待时间60秒)

组的失效切换目标服务器中应用程序异常结束时,最终动作也是停止组。

4.1.12. 监视资源发现异常时的重启次数的限制

监视资源查出异常时的最终动作设置若为[停止集群服务并关闭OS]或[停止集群服务并重新启动OS],在设定了[keepalive重置],[keepalive panic],[BMC重置],[BMC power off],[BMC power cycle]以及[BMC NMI]的情况下,可设置由于监视资源出现异常而产生的停止次数或重启次数。

注解

重启次数是按各台服务器分别记录的,因此最大重启次数则为各台服务器重启次数的上限值。
另外,启动,停止组出现异常时的最终动作引起的重启次数以及监视资源出现异常时的最终动作引起的重启次数也是分别记录的。
若将重置最大重启次数的时间设置为0,则不会重置重启次数。

以下设置示例中将对限制重启次数的流程进行说明。

最大重启次数被设为1次,因此仅重启一次,就会执行最终动作[停止集群服务并重新启动OS]。

另外,由于重置最大重启次数的时间设置为10分,集群关闭后重启时,若监视资源的正常状态持续10分钟,则重启次数会被重置。

[设置示例]

<监视>
间隔 60秒
超时 120秒
重试次数 3次
<查出异常>
复归对象 失效切换组A
最大重启动次数 0次
最大失效切换次数 0次
最终动作 集群服务停止,OS重启
<重启次数制限>
最大重启次数 1次
最大重启次数的重置时间 10分

以下说明指定上述设置时的操作示例。

  1. 图中显示在2台服务器中磁盘监视资源进行监视时的示例。
    开始进行Disk monitor resource 1的启动处理。在每个间隔,执行对设备的I/O处理等。
    2台服务器和其中的磁盘监视资源以及共享磁盘

    图 4.55 重启次数限制 (1)

    Server 1

    Server 2

    最大重启次数

    1

    1

    重启次数

    0

    0

  2. 查出Disk monitor resource 1的监视异常(ioctl,read异常等)。

    2台服务器和其中的磁盘监视资源以及共享磁盘

    图 4.56 重启次数限制 (2)

  3. 停止集群服务后,重启OS。
    由于"启动重试界限值","失效切换界限值"为0,要执行最终动作。
    在重启次数中记录1。
    之后,开始进行Failover group A的失效切换处理。
    "最大重启次数"为各服务器上的重启次数的上限值。
    Server 2上的重启次数为0。
    2台服务器和其中的磁盘监视资源以及共享磁盘

    图 4.57 重启次数限制 (3)

    Server 1

    Server 2

    最大重启次数

    1

    1

    重启次数

    1

    0

  4. Server 1重启结束。
    使用clpgrp命令,Cluster WebUI,将Failover group A移动到Server 1中。
    2台服务器和其中的磁盘监视资源以及共享磁盘

    图 4.58 重启次数限制 (4)

    Server 1

    Server 2

    最大重启次数

    1

    1

    重启次数

    1

    0

  5. 查出Disk monitor resource 1的监视异常(ioctl,read异常等)。
    由于Server 1中已达到最大重启次数,因此不执行最终动作。
    即使经过10分钟,也不会重置重启次数。
    2台服务器和其中的磁盘监视资源以及共享磁盘

    图 4.59 重启次数限制 (5)

    Server 1

    Server 2

    最大重启次数

    1

    1

    重启次数

    1

    0

  6. 除去Shared disk的异常,使用clpstdn命令,Cluster WebUI,在集群关闭后重启。

    2台服务器和其中的磁盘监视资源以及共享磁盘

    图 4.60 重启次数限制 (6)

    Server 1

    Server 2

    最大重启次数

    1

    1

    重启次数

    1

    0

  7. Server 1的Disk monitor resource 1变为正常状态。
    10分钟后,重启次数被重置。
    在下一次查出 Disk monitor resource 1异常时执行最终动作。
    2台服务器和其中的磁盘监视资源以及共享磁盘

    图 4.61 重启次数限制 (7)

    Server 1

    Server 2

    最大重启次数

    1

    1

    重启次数

    0

    0

4.1.13. 监视资源的监视优先级

为了在OS负载高时能够优先进行监视资源的监视,可以设置nice值。

nice值可以指定19(优先级低)~-20(优先级高)范围内的数值。

  • 通过提高nice值的优先级,可以降低监视超时的发生概率。

4.1.14. 使用的ipmi命令

最终动作[BMC Reset],[BMC Power Off],[BMC Power Cycle],[BMC NMI]使用[ipmitool]命令。

未安装命令时,不能使用本功能。

使用ipmi的最终动作的注意事项

  • 使用ipmi的最终动作通过EXPRESSCLUSTER和[ipmitool]命令联动得以实现。

  • EXPRESSCLUSTER中没有附带ipmitool(OpenIPMI-tools)。请另行安装rpm包。

  • 使用[ipmitool]命令进行最终动作时,需要事先载入ipmi驱动程序。建议设定在OS启动时自动载入ipmi驱动程序。

机箱ID指示灯联动使用[ipmitool]命令。

如果没有安装命令时,则不能使用该功能。

基于ipmi的机箱ID指示灯联动的注意事项

基于ipmi的机箱ID指示灯联动通过EXPRESSCLUSTER与[ipmitool]命令联动得以实现。

EXPRESSCLUSTER中没有附带ipmitool(OpenIPMI-tools)。请另行安装rpm包。

4.1.15. 监视资源的服务器个别设置

各服务器上可以设置不同的监视资源设置值。服务器可以个别设置的资源在[监视(固有)]标签页上显示各服务器的标签页。

服务器可以个别设置的监视资源如下。

监视资源名

支持版本

磁盘监视资源

4.0.0-1~

IP监视资源

4.0.0-1~

NIC Link Up/Down监视资源

4.0.0-1~

消息接收监视资源

4.0.0-1~

AWS Elastic IP监视资源

4.0.0-1~

AWS 虚拟IP监视资源

4.0.0-1~

AWS AZ监视资源

4.0.0-1~

AWS DNS 监视资源

4.0.0-1~

可以进行服务器个别设置的参数请参考各监视资源的参数说明。 在可以进行服务器个别设置的参数上标记有“可以进行服务器个别设置 ”。

这里以磁盘监视资源为例对服务器个别设置进行说明。

服务器个别设置

在磁盘监视资源中显示可以进行服务器个别设置的参数。

个别设置

选择想进行服务器个别设置的服务器名的标签页,并选择复选框,这时可以输入在磁盘资源中可以进行服务器个别设置的参数。输入必要参数。

4.1.16. 监视选项监视资源的共通设置

对在使用Application Server Agent, Database Agent, File Server Agent, Internet Server Agent, Java Resource Agent,System Resource Agent (以下,统称为"监视选项"。)中提供的监视资源进行应用程序监视时的设置步骤,注意事项进行说明。

监视选项监视资源的设置步骤

要使用监视选项的各监视资源进行应用程序的监视,需按照以下流程进行设置。

这里,以DB2监视资源为例。

  1. 创建失效切换组 (用于监视目标应用程序)

  2. 添加用于监视目标应用程序启动的exec资源

  3. 监视目标应用程序的启动确认测试

  4. 添加用于监视监视目标应用程序的DB2监视资源

说明如下步骤。

Step 1 创建失效切换组 (用于监视目标应用程序)

创建失效切换组,用于监视目标应用程序,在发生故障时进行失效切换,并添加对应的各组资源。

注解

创建失效切换组及添加组资源的相关详细,请参考《安装&设置指南》的"创建集群配置信息"。

Step 2 添加用于监视目标应用程序启动的exec资源

向通过Step 1 创建的失效切换组中添加用于启动监视目标应用程序的 exec 资源,进行通过其资源的Start Script以及Stop Script启动/结束监视目标应用程序的编辑。

本指南中,称该 exec 资源为 exec 1。

Step 3 监视目标应用程序的启动确认测试

Step2 之前的步骤结束后,确认监视目标应用程序是否启动。

首先,将设置内容反映到服务器中之后,通过Cluster WebUI依次执行组的启动/停止/移动/失效切换,确认每个操作是否正常进行。

Step 4 添加用于监视监视目标应用程序的DB2监视资源

添加用于监视监视目标应用程序的DB2监视资源。

此时,请在[监视(共通)]标签页的[监视时间]中选择[启动时],在[目标资源]指定exec1。

注解

监视资源固有信息,设置内容等的相关详细,请参考本指南的"监视资源的详细信息

参见

监视资源共通的监视设置内容的相关详细,请参考"监视(共通)标签页"。

4.2. 监视器共通属性

显示监视资源列表。
点击名称链接,跳转到该监视资源的属性页面。

4.3. 监视资源的属性

4.3.1. 信息标签页

名称

显示监视资源名。

注释(127 字节以内)

设置监视资源的注释。只能输入半角英文数字。

4.3.2. 监视(共通)标签页

间隔 (1~999)

设置确认监视对象状态的时间间隔。

超时 (5~999 5 )

若在指定时间内没有发现监视对象的正常状态,则判断为异常。

5

在用户空间监视资源中如果将监视方法设置为ipmi,则需要设置为255以下的值。

超时发生时获取监视进程的dump文件

本功能有效时,一旦监视资源发生超时,超时的监视资源的dump文件会被采集。采集的dump信息保存在"/opt/nec/clusterpro/work/rm/"监视资源名"/errinfo.cur 文件夹下。进行多次采集时,过去采集的信息的文件夹名被重新命名为"errinfo.1, errinfo.2"。dump信息最多采集5次。

超时发生时不重试

将本功能设为有效时,若监视资源发生超时则马上执行复归动作。

超时发生时不做回复动作

将本功能设为有效时,即使监视资源发生超时也不执行复归动作。

仅限将[超时发生时不重试]功能设为有效时可以设置。

注解

下述的监视资源不能设置[超时发生时不重试], [超时发生时的动作]功能。

  • 用户空间监视资源

  • 多目标监视资源

  • 虚拟IP监视资源

  • 自定义监视资源(仅限监视类型为[异步]时)

  • 消息接收监视资源

  • 虚拟机监视资源

  • 动态DNS监视资源

  • BMC监视资源

  • Oracle Clusterware同步管理监视资源

  • JVM监视资源

  • 系统监视资源

  • 进程资源监视资源

重试次数 (0~999)

发现异常状态后,若连续指定次数发现异常,则判断为异常。

若指定为0,则在最初发现异常时即判断为异常。

开始监视的等待时间 (0~9999)

设置等待监视开始的时间。

监视时间

设置监视的时间。

  • 不间断监视
    一直进行监视。
  • 启动时
    指定资源启动前不进行监视。

目标资源

显示进行启动时监视的对象资源。

参照

显示选择对象资源的对话框。树形显示集群和LocalServer中登录的组名,资源名。选择要设置的对象资源,点击[确定]。

nice值

设置进程的nice值。

选择监视服务器

设置进行监视的服务器。

所有服务器

在全部服务器中执行监视。

独自设置

在[可用服务器]中登录的服务器中进行监视。需要设置多台[可用服务器]。

  • 添加
    将[可用服务器]中选择的服务器添加到[可以启动组的服务器]。
  • 删除
    [可用服务器]中,删除选中的服务器。

发送监视处理时间指标

设置监视处理时间指标的发送功能。

  • 选中复选框
    发送监视资源的监视处理时间指标。
  • 不选中复选框
    不发送监视资源的监视处理时间指标。

注解

使用Amazon Cloud Watch联动功能时,启用本功能,可以发送任意的监视资源的监视处理时间指标。
下面的监视资源中,不能设置[发送监视处理时间指标]功能。
  • 用户空间监视资源

  • 自定义监视资源(仅限监视类型为[异步]时)

  • 虚拟IP监视资源

  • 消息接收监视资源

  • 虚拟机监视资源

  • 动态DNS监视资源

  • BMC监视资源

  • Oracle Clusterware同步管理监视资源

  • JVM监视资源

  • 系统监视资源

  • 进程资源监视资源

4.3.3. 监视(固有)标签页

有些监视资源需要设置监视操作时的参数。参数在各资源的说明中阐述。

4.3.4. 复归动作标签页

设置复归对象和发现异常时的操作。发现异常时,可执行组的失效切换,重启资源或集群但是,若复归对象处于停止状态,不执行复归操作。

复归动作

选择查出异常时的复归动作。

  • [对复归对象执行失效切换]
    监视器查出异常时,对选择为复归对象的组或者资源所属的组进行失效切换。
  • [重启复归对象,若无效则执行失效切换]
    重新启动作为复归对象被选择的组或组资源,重新启动失败或重新启动后被查出相同异常时,执行失效切换。
  • [重启复归对象]
    重新启动作为复归对象被选择的组或组资源。
  • [只执行最终动作]
    执行作为最终动作而被选择的动作。
  • [自定义设置]
    执行复归脚本的最大脚本执行次数。执行脚本后继续查出异常状态时,重新启动作为复归对象而被选择的组或组资源,直到达到最大启动次数。重新启动失败,或重新启动后仍继续被查出相同异常,当达到到最大启动次数时,对选做复归对象的组或这组资源执行最大失效切换次数的失效切换。失效切换失败,或者失效切换后继续查出同样的异常,并已达到最大失效切换次数的情况下,执行作为最终动作而被选择的动作。

复归对象

当发现资源异常时,显示进行恢复的对象。

参照

显示[选择复归对象]的对话框。树形显示LocalServer,All Groups及集群中登录的组名,资源名。选择要设置的复归对象,点击[确定]。

复归脚本执行次数(0~99)

发现异常时,设置[脚本设置]中脚本的执行次数。若设置为0,则不执行脚本。

重启动前执行脚本

  • 选中复选框
    在重启动前执行脚本/命令。为了设置脚本/命令请点击[脚本设置]按钮。
  • 未选中复选框
    不执行脚本/命令。

最大重启动次数 (0~99)

设置出现异常时进行重新启动的次数。若设置为0,则不重新启动。若选择组或组资源为复归对象,可进行设置。

作为IP监视资源或NIC Link Up/Down监视资源的复归对象,设置动态失效切换组或此组所属的资源时,当排除列表中登录的监视资源检测到异常,重新启动失败。

实施失效切换前执行脚本

  • 选中复选框
    在实施失效切换前执行脚本/命令。为了设置脚本/命令请点击[脚本设置]按钮。
  • 未选中复选框
    不执行脚本/命令。

失效切换前执行迁移

复选框被选中后,查出异常时的失效切换以前,执行迁移。

最大失效切换次数 (0~99)

设置当出现异常时,重新启动[最大重启动次数]中指定的次数后仍然失败,进行失效切换时的次数。若设置为0,则不执行失效切换。当选择"All Groups",组或组资源为复归对象时,可进行设置。当选择"All Groups"时,监视资源会对检出异常的服务器上启动的所有组进行时效切换。

在最终动作前运行脚本

指定是否在执行最终动作前运行脚本。

  • 选中复选框
    在实施最终动作前运行脚本/命令。为了设置脚本/命令请点击[脚本设置]。
  • 未选中复选框
    不运行脚本/命令。

点击 [脚本设置],显示脚本的编辑对话框。设置要运行的脚本或运行文件,点击[确定]。

脚本设置

显示脚本的编辑对话框。设置复归脚本,复归操作前执行的脚本/命令。

用户应用程序

使用可在服务器上执行的文件(可执行的Shell Script文件或执行文件)作为脚本。将文件名设置为服务器上本地磁盘的绝对路径或可执行文件名。另外,绝对路径或文件名中包含空白栏时,请按照以下方法,用双引号(")括起来。

例:
"/tmp/user application/script.sh"

Cluster WebUI的集群配置信息中不会包含各可执行文件。因为不能通过Cluster WebUI进行编辑或上传,需要在各台服务器上准备。

用Cluster WebUI创建的脚本

使用通过Cluster WebUI准备的脚本文件作为脚本。根据需要,可以通过Cluster WebUI编辑脚本文件。脚本文件将被包含到集群配置信息中。

文件 (1023字节以内)

选择了[用户应用程序]时,设置运行的脚本(可执行的Shell Script文件或执行文件)。

显示

选择了[用Cluster WebUI创建的脚本]时,显示脚本文件。

编辑

选择了[用Cluster WebUI创建的脚本]时,编辑脚本文件。要反映这些变更,请点击[保存]。脚本文件名无法更改。

替换

选择了[用Cluster WebUI创建的脚本]时,把脚本文件内容变更为[文件选择]对话框中所选择的脚本文件内容。脚本处于正在编辑或正在显示的状态时无法置换。请在此选择脚本文件。请不要选择二进制文件(应用程序等)。

超时 (1~9999)

指定等待脚本执行结束的最大时间。默认值为5秒。

最终动作

选择当发现异常时重新启动失败次数达到[重启动次数]中指定的次数或者失效切换失败次数达到[失效切换次数]中指定的次数后如何运行。

最终动作有以下选择。

  • 无操作
    不进行任何操作。

    注解

    以下情况下请使用[无操作]设置。

    • 暂时控制最终动作时

    • 查出异常后想仅显示警报时

    • 通过多目标监视资源执行实际的最终动作时

  • 停止资源
    复归对象选择组资源时,停止该组资源和依赖该组资源的组资源。若选择"LocalServer","All Groups",组为复归对象时, 无法选择本项目。
  • 停止组
    若选择组为复归对象时,停止该组,或选择组资源为复归对象时,停止该组资源所属的组。若选择"All Groups",则停止监测到异常的监视资源所在的服务器上启动的所有组。
    若选择集群为监视对象,则无法选择。
  • 停止集群服务
    停止查出异常的服务器的集群服务。
  • 停止集群服务并关闭OS
    停止查出异常的服务器的集群服务,停止OS。
  • 停止集群服务并重启OS
    停止查出异常的服务器的集群服务,重启OS。
  • Sysrq Panic
    进行sysrq的应急措施。

    注解

    sysrq应急措施失败时,关闭OS。

  • Keepalive Reset
    使用clpkhb驱动,clpka驱动,重启OS。

    注解

    keepalive复位失败时,关闭OS。
    请不要在没有对应clpkhb驱动,clpka驱动的OS,kernel上进行设置。
  • Keepalive Panic
    使用clpkhb驱动,clpka驱动,进行OS应急措施。

    注解

    keepalive应急措施失败时,关闭OS。
    请不要在没有对应clpkhb驱动,clpka驱动的OS,kernel上进行设置。
  • BMC Reset
    使用[ipmi]命令,对服务器硬件进行重置。

    注解

    BMC复位失败时,关闭OS。
    请不要在没有安装OpenIPMI,或者没有运行[ipmitool]命令的服务器上进行设置。
  • BMC Power Off
    使用[ipmi]命令,关闭OS电源。根据OS的ACPI设置,有时会关闭OS

    注解

    BMC 关闭电源失败时,关闭OS。
    请不要在没有安装OpenIPMI,或者没有运行[ipmitool]命令的服务器上进行设置。
  • BMC Power Cycle
    使用[ipmi]命令,执行服务器的Power Cycle(电源开/关)。根据OS的ACPI设置,有时会关闭OS。

    注解

    BMCPower Cycle失败时,关闭OS。
    请不要在没有安装OpenIPMI,或者没有运行[ipmitool]命令的服务器上进行设置。
  • BMC NMI
    使用[ipmi]命令,在服务器中触发NMI。NMI发生后的处理取决于OS的设置。

    注解

    BMC NMI失败后关闭OS。
    请不要在没有安装OpenIPMI,或者没有运行[ipmitool]命令的服务器上进行设置。
  • I/O Fencing(High-End Server Option)
    那个不能被使用。

    注解

    I/O Fencing失败的场合,执行操作系统的关闭。

4.4. 理解磁盘监视资源

磁盘监视资源对磁盘设备进行监视。

在不能使用磁盘监视资源(TUR方式)的磁盘中,建议通过READ (O_DIRECT)方式进行监视。

4.4.1. 磁盘监视资源的监视方法

磁盘监视资源的监视方法主要分为TUR和READ。

  • TUR的注意事项

    • 在不支持SCSI的[Test Unit Ready]命令及[SG_IO]命令的磁盘,磁盘接口(HBA)中不能使用。
      有时虽然硬件支持,而驱动程序不支持,所以也需要确认驱动程序的规格。
    • 因为Ioctl在LVM逻辑卷(LV)设备上可执行存在不能正常执行的情况,所以LV监视时请使用READ。

    • IDE失效切换磁盘时,不能使用所有的TUR方式。

    • S-ATA接口的磁盘中,由于磁盘控制器类型和使用的OS版本,有时被OS识别为IDE接口的磁盘(hd),也有时被识别为SCSI接口的磁盘(sd)。若被识别为IDE接口,则无法使用任何TUR方式。作为SCSI接口被识别时,可以使用TUR(legacy)。TUR(generic)无法使用。

    • 与Read方式相比,对OS和磁盘的负载小。

    • 使用Test Unit Read,有时无法发现实际媒体的I/O错误。

    • 不能将磁盘上的分区设定为监视对象进行使用。需要指定whole device(表示磁盘整体的设备)。

    • 有的磁盘设备在发行TUR时因设备状态而暂时返回Unit Attention的情况。
      Unit Attention的暂时返回并不是问题,在TUR重试次数设定为0时,则将上述判定为错误,磁盘监视资源置于异常。
      为了防止无用的异常检测,请设定重试次数在1次以上。

TUR的监视方法可以选择以下3类。

  • TUR

    • 对指定的设备按照以下步骤执行ioctl,通过结果进行判断。执行[ioctl(SG_GET_VERSION_NUM)]命令。根据ioctl的返回值和SG驱动的version进行判断。
      [ioctl]命令成功,并且SG驱动的version为3.0以上时,执行使用SG驱动的ioctl TUR(SG_IO)。
      [ioctl]命令失败或SG驱动的version低于3.0时,执行定义为[SCSI]命令的ioctl TUR。
  • TUR(legacy)

    • 使用ioctl(Test Unit Ready)进行监视。向指定的设备发出定义为[SCSI]命令的[Test Unit Ready(TUR)]命令,根据结果进行判断。

  • TUR(generic)

    • 使用ioctl TUR(SG_IO) 进行监视。向指定的设备发出定义为[SCSI]命令的[ioctl(SG_IO)]命令,根据结果进行判断。SG_IO即使是SCSI磁盘,根据OS版本不同,也有可执行不运行。

READ的监视方法如下。

  • READ

    • 在指定设备(磁盘设备或分区设备)或按照文件上的指定大小进行READ,根据结果(能够READ的大小)进行判断。

    • 判断能够READ指定的大小。不判断READ的数据正确性。

    • READ的大小变大后,对OS和磁盘的负载也变大。

    • 关于READ大小,请参考"磁盘监视资源中选择READ的I/O大小"进行设置。

READ(O_DIRECT) 的监视方法如下。

  • READ (O_DIRECT)

    • 不要使用缓存(O_DIRECT模式),对指定的设备(磁盘设备或分区设备)上的1个扇区或文件进行read,并根据其结果(可read的大小)进行判断。

    • 判断可以read。不判断可以read的数据的正确性。

READ (RAW)的监视方法如下。

  • READ (RAW)

    • 与监视方法"READ(O_DIRECT)"一样,不使用OS的缓存,对指定设备的read进行监视。

    • 判断可以read。不判断已read数据的正确性。

    • 设置监视方法"READ(RAW)"时,不能监视已mount的分区或可执行会mount的分区。另外,也不能对已mount的分区或可执行会mount的分区的whole device(表示整个磁盘的设备)进行监视。请准备监视专用分区,设置为磁盘监视资源。(请将监视专用分区大小设置为10M以上)

    • 请不要登录已登录到服务器属性的[磁盘I/F列表]或[磁盘资源]中的RAW设备。关于VxVM卷的RAW设备,请参考《开始指南》的"注意限制事项" - "创建Expresscluster的信息时M" - "VxVM使用的RAW设备的确认"。

    • 通过"READ(raw)"监视方法监视磁盘心跳正使用的RAW设备时,请通过Cluster WebUI在"监视对象RAW设备名"中指定磁盘心跳内使用的raw设备,不要输入"设备名"。

READ (VXVM)的监视方法如下。

  • READ (VXVM)

    • 与监视方法"READ(O_DIRECT)"一样,不使用OS的缓存,对指定设备的read进行监视。

    • 判断可以read。不判断已read数据的正确性。

    • 若卷RAW设备的文件系统不是vxfs,无法使用"READ (VxVM)"进行监视。

WRITE (FILE)的监视方法如下。

  • WRITE (FILE)

    • 创建指定路径名的文件,进行写入和删除并进行判断。

    • 不判断写入的数据的正确性。

4.4.2. 磁盘监视资源中选择READ的I/O大小

执行在监视方法中选择READ后执行read的大小。

使用的磁盘和OS版本不同,可执行安装有各种用于read的缓存。因此,如果I/O大小很小,则被命中到缓存内,可执行无法查出read错误。

请制造磁盘故障,确认是否能够查出故障,设置READ的I/O大小。

下图显示的是2台服务器和连接到它们的共享磁盘的示例。
首先,服务器的(SCSI,Fibre Channel等)接口适配器(图中的HBA)上有一个缓存。
Shared disk中有RAID子系统上的缓存。
此外,阵列磁盘内部的每个磁盘驱动器上也有缓存。
2台服务器和共享磁盘,以及存在于其中的缓存

图 4.62 各种缓存

4.4.3. 磁盘监视资源中选择了READ (RAW)时的设置示例

磁盘资源,磁盘监视的设置示例

  • Disk资源

  • Disk监视资源(通过"READ(RAW)"来监视两个服务器内置HDD)

  • Disk监视资源(通过"READ(RAW)"来监视共享磁盘)

下图显示的是2台服务器和连接到它们的共享磁盘的示例。 在Server 1,Server 2的内置磁盘中,将/dev/sda3指定为Disk监视器。

注解

请不要指定OS中使用的分区(包括swap)。
请不要指定可执行会mount的分区,whole device。
请确保Disk监视资源的专用分区。

此外,在共享磁盘(Shared disk)中,指定/dev/sdb1为Disk HB,指定/dev/sdb2为Disk资源,指定/dev/sdb3为Disk监视器。

注解

请不要指定已经mount的分区或者有可执行会mount的分区。
此外,请不要指定已经mount的分区或者有可执行会mount的whole device。
请确保Disk监视资源的专用分区。
2台服务器和共享磁盘,以及各磁盘的分区

图 4.63 磁盘资源,磁盘监视的设置示例

4.4.4. 监视(固有)标签页

监视方法 服务器个别设置

从下面的方法中选择监视磁盘设备的监视方法。

  • TUR

  • TUR(generic)

  • TUR(legacy)

  • READ

  • READ (O_DIRECT)

  • WRITE (FILE)

  • READ (RAW)

  • READ (VXVM)

监视设备名 (1023字节以内) 服务器个别设置

  • 监视方法为WRITE (FILE)时
    指定用于监视的文件的路径名。需要设置为[/]开头的名字。
    请使用绝对路径指定文件名。如果指定已经存在的文件的文件名,则会覆盖文件,其中的内容将丢失。
  • 监视方法为READ(O_DIRECT)时
    指定用于监视的文件的路径名。需要设置为[/]开头的名字。
    请使用绝对路径指定文件名。
    指定文件名时需要实现新建所要指定的文件。
    请不要指定镜像分区设备(/dev/NMP1等)为监视目标。
  • 监视方法为READ(RAW)时
    可以不选择监视目标,但必须输入监视对象RAW设备名。仅在绑定执行监视时可指定。不能在设备名中设置已经mount的分区或可执行会mount的分区设备进行监视。
    另外,也不能在设备名中设置已经mount的分区或可执行会mount的分区的whole device(表示整个磁盘的设备)进行监视。请准备监视专用分区。(请将用于监视的分区大小设置为10M以上。)设置值需要以[/]开头。
  • 监视方法为READ(VXVM)时
    呈现灰色显示,不能选择。
  • 监视方法为READ时
    指定监视磁盘设备时的监视目标设备名。需要设置为[/]开头的名字。指定文件名时需要实现新建所要指定的文件。如果存在磁盘资源,可以选择磁盘资源中设置的设备名。如果存在镜像磁盘资源,则可以选择镜像磁盘资源和共享型镜像磁盘资源中设置的数据分区设备名。
  • 监视方法非以上方法时
    指定监视磁盘设备时的监视目标设备名。需要以[/]开头。如果存在磁盘资源,可以选择磁盘资源中设置的设备名。如果存在镜像磁盘资源,则可以选择镜像磁盘资源和共享型镜像磁盘资源中设置的数据分区设备名。

监视对象RAW设备名 (1023字节以内) 服务器个别设置

只有在选择了READ (RAW),READ (VXVM) 监视方法才可以输入。

  • 监视方法为READ(RAW)时
    输入用于raw访问的设备名。不能登录已登录到服务器属性的[磁盘I/F列表]中的RAW设备。监视VxVM卷RAW设备时,请选择READ(VXVM)监视方法。
  • 监视方法为READ(VXVM)时
    请设置VxVM卷RAW设备名。若卷RAW设备的文件系统不是vxfs,则不能进行监视。需要设置为[/]开头的名字。
    • 与磁盘资源建立关联时,在"监视(共通)标签页"的"目标资源"中设置所依赖的磁盘资源。请设置成在启动所设置的磁盘资源后再进行监视。

I/O 大小 (1~99999999) 服务器个别设置

指定监视处理中执行的read或read/write的大小。

  • 指定了READ(RAW),READ(VXVM),READ(O_DIRECT)时,I/O大小的输入项目变成灰色。 从对象的设备进行1个扇区的read。

  • 指定为TUR, TUR (generic), TUR (legacy)时,本设置项目被忽视。

查出磁盘已满时的操作 服务器个别设置

从下面选择查出磁盘已满(监视的磁盘没有空余容量的状态)时的运行。

  • 执行复归操作
    磁盘RW监视资源将查出磁盘已满作为异常操作来处理。
  • 不执行复归操作
    磁盘RW监视资源将查出磁盘已满作为警告操作来处理。

注解

指定READ, READ (RAW), READ (VXVM), READ (O_DIRECT), TUR, TUR (generic), TUR (legacy) 时,查出磁盘已满时的操作项目为灰色不能选择

如果监视设备名中设置为本地磁盘,则可以执行服务器的本地磁盘监视。

  • 以下是通过READ方式监视本地磁盘[/dev/sdb],查出异常时重启OS的设置示例。

设置项目

设置值

备注

监视设备名

/dev/sdb

第2台SCSI磁盘

监视方法

READ

READ方式

复归对象

-

最终动作

集群服务停止,OS重启

OS重启

  • 以下是通过TUR(generic)方式监视本次磁盘[/dev/sdb],查出异常时不执行任何操作 (仅在Cluster WebUI中显示警报)的设置示例。

设置项目

设置值

备注

监视设备名

/dev/sdb

第2台SCSI磁盘

监视方法

TUR(generic)

SG_IO方式

最终动作

不执行任何操作

4.5. 理解IP监视资源

IP 监视资源是指通过[ping]命令对IP地址进行监视的监视资源。

4.5.1. IP监视资源的监视方法

使用[ping]命令对指定IP地址进行监视。若指定IP地址没有任何应答,则判断为异常。

要确认IP 地址的响应,使用 ICMP 的 packet type 0 (Echo Reply) 和 8 (Echo Request)。

  • 多个IP地址的情况下,在全部IP地址出现异常时判断为异常时,请在1个IP监视资源中登录所有IP地址。

    下图是在1个IP监视资源中注册所有IP地址时的示例。 指定的IP地址即使只有1个是正常的情况下,IP monitor 1都会判断为正常。

    运行IP监视资源的服务器和作为监视对象的3台服务器

    图 4.64 在1个IP监视资源中注册所有IP地址(正常)

    下图为在1个IP监视资源中注册所有IP地址时的示例。 指定的IP地址全异常时,IP monitor 1判断为异常。

    运行IP监视资源的服务器和作为监视对象的3台服务器

    图 4.65 在1个IP监视资源中注册所有IP地址(查出异常)

  • 多个IP地址中,若要判断其中某一个为异常时,需要按照各个IP地址,分别创建IP监视资源。

    图中显示的是将IP地址一个个注册到各IP监视资源中时的示例。 指定的IP地址查出异常时,IP监视器(图中为IP monitor 1)判断为异常。

    运行IP监视资源的服务器和作为监视对象的3台服务器

    图 4.66 将IP地址一个个注册到各IP监视资源中(查出异常)

4.5.2. 监视(固有)标签页

[IP地址列表]中显示要监视的IP地址列表。

添加

添加要监视的IP地址。显示[请输入IP地址]对话框。

IP地址 (255字节以内) 服务器个别设置

输入进行监视的IP地址或主机名,选择[确定]。请输入可通过公网LAN进行通信的实际IP地址或主机名。设置主机名时,请在OS端进行名称解析的设置(向/etc/hosts添加项目等)。

删除

在监视对象中删除[IP地址列表]中选中的IP地址。

编辑

显示[请输入IP地址]的对话框。显示[IP地址列表]中选中的IP地址,编辑后选择[确定]。

4.6. 理解浮动IP监视资源

浮动IP监视资源对浮动IP资源进行监视。

4.6.1. 浮动IP监视资源的监视方法

在浮动IP资源启动的服务器中进行监视。
监视IP地址列表中是否存在浮动IP地址。若IP地址列表中不存在浮动IP地址,判断为异常。
对浮动IP地址正在启动的NIC的Link Up/Down进行监视。发现NIC的Link Down时判断为异常。由于NIC板卡,驱动程序的不同,有时不支持所需的ioctl( )。此时,无法使用该设置。NIC Link Up/Down 监视器资源能否运行,可以使用各个Distributor提供的[ethtool]命令进行确认。使用[ethtool]命令的确认方法,请参考本指南的"理解NIC Link Up/Down监视资源"-"NIC Link UP/Down监视资源的注意事项"。

4.6.2. 浮动IP监视资源相关注意事项

  • 本资源在添加浮动IP资源时自动登录。各浮动IP资源对应的浮动IP监视资源将自动登录。
    浮动IP监视资源设置了默认值,必要时请更改为合适的值。

4.6.3. 监视(固有)标签页

监视NIC Link Up/Down

设置是否监视NIC Link Up/Down。
设置有效时,对绑定浮动IP的NIC进行NIC LINK Up/Down监视。因此,新绑定浮动IP的NIC不再需要进行NIC LINK Up/Down监视设置。

4.8. 理解镜像磁盘连接监视资源

4.8.1. 镜像磁盘连接监视资源的注意事项

  • 监视用于镜像的网络。当使用指定镜像磁盘接口进行镜像数据通信失败时,判断为异常。本资源在添加第1个镜像磁盘资源时自动登录。

  • 添加多个镜像磁盘资源时,镜像磁盘连接监视资源只自动登录镜像资源数。

4.8.2. 监视(固有)标签页

镜像磁盘资源

显示进行监视的镜像磁盘资源。

4.9. 理解镜像磁盘监视资源

对镜像磁盘的数据状态,镜像分区设备的完整性进行监视。

4.9.1. 镜像磁盘监视资源的注意事项

本资源在添加镜像磁盘资源时自动被登录。各镜像磁盘资源对应的镜像磁盘监视资源被自动登录。

4.9.2. 监视(固有)标签页

镜像磁盘资源

显示进行监视的镜像磁盘资源。

4.10. 理解共享型镜像连接监视资源

4.10.1. 共享型镜像连接监视资源的注意事项

  • 监视用于镜像的网络。当使用指定镜像磁盘接口进行镜像数据通信失败时,判断为异常。本资源在添加共享型镜像磁盘资源时自动登录。

  • 添加多个共享型镜像磁盘资源时,共享型镜像连接监视资源只自动登录镜像资源数。

4.10.2. 监视(固有)标签页

共享型镜像磁盘资源

显示进行监视的共享型镜像磁盘资源。

4.11. 理解共享型镜像磁盘监视资源

对共享型镜像磁盘的数据状态,镜像分区设备的完整性进行监视。

4.11.1. 共享型镜像磁盘监视资源的注意事项

本资源在添加共享型镜像磁盘资源时自动被登录。各共享型镜像磁盘资源对应的共享型镜像磁盘资源资源被自动登录。

4.11.2. 监视(固有)标签页

共享型镜像磁盘资源

显示进行监视的共享型镜像磁盘资源。

4.12. 理解PID监视资源

4.12.1. PID监视资源的注意事项

对成功启动EXEC资源进行监视。只能在EXEC资源的开始脚本启动时的设置为[异步]时可以监视。

4.12.2. PID监视资源的设置

对成功启动的EXEC资源进行监视。通过监视进程ID的有无,当进程ID消失时,判断为异常。
进行监视的EXEC资源是在"监视(共通)标签页"的"目标资源"中设置。只能在启动EXEC资源时的设置为[异步]时进行监视。无法发现进程的停止。

注解

对数据库,samba,apache,sendmail等停止进行监视时,请购买"EXPRESSCLUSTER监视可选产品"。

4.13. 理解用户空间监视资源

4.13.1. 用户空间监视资源所依存的驱动程序

监视方式 softdog

softdog

  • 监视方法为softdog时,该驱动程序是必要的。

  • 请形成可加载模块配置。稳定的驱动程序无法运行。

  • 无法使用softdog驱动程序时,不能开始监视。

监视方式 keepalive

clpka
clpkhb
  • 若监视方法为keepalive,需要EXPRESSCLUSTER的clpkhb驱动程序,clpka驱动程序。

  • 若设置监视方法为keepalive,建议设置内核模式LAN心跳。使用内核模式LAN心跳,需要clpkhb驱动程序。

  • clpka驱动程序与clpkhb驱动程序为EXPRESSCLUSTER提供的驱动程序。关于支持范围,请参考《开始指南》的"EXPRESSCLUSTER的运行环境" - "软件" - "可运行的Distribution和kernel"。

  • 无法使用clpkhb驱动程序,clpka驱动程序的情况下无法开始监视。

监视方式ipmi, ipmi (High-End Server Option)

ipmi

  • 监视方法为ipmi或 ipmi (High-End Server Option)时,需要此驱动程序。

  • 尚未安装ipmi驱动程序时,无法开始监视。

4.13.2. 用户空间监视资源的监视方法

用户空间监视资源的监视方法如下所示。

监视方法 softdog

若监视方法为softdog,使用OS的softdog驱动程序。

监视方法 keepalive

若监视方法为 keepalive,则使用clpka驱动程序和clpkhb驱动程序。

注解

关于clpkhb驱动程序和clpka驱动程序运行的OS版本,kernel版本,请务必确认《开始指南》的"EXPRESSCLUSTER的运行环境"-"软件"-"可运行的Distribution和kernel"。
在将OS版本的安全升级包应用于已经运行的集群(kernel版本发生变化)时,也请进行确认。

监视方法 ipmi, ipmi (High-End Server Option)

监视方法为ipmi 或ipmi (High-End Server Option)时,使用ipmi驱动程序。

监视方法 none

监视方法 none设置用于测试。仅执行用户空间监视资源扩展设置的操作。请不要在实际运行环境中设置此项。

4.13.3. 用户空间监视资源的扩展设置

扩展用户空间监视资源需要进行以下设置:创建打开/关闭虚拟文件,写入虚拟文件,创建虚拟线程。若设置失败则无法更新计时器。若在所设超时值或心跳超时时间内各设置连续失败,则重置OS。

打开/关闭虚拟文件

每隔设置的监视間隔,反复执行创建,open,close,删除虚拟文件的操作。

  • 设置该扩展功能时,若磁盘没有空闲容量,open文件失败,计时器不被更新,重置OS。

写入虚拟文件

每隔监视时间间隔,写入所设大小的数据。

  • 当未设置open/close虚拟文件时,无法设置本扩展功能。

创建虚拟线程

每隔监视时间间隔创建虚拟线程。

4.13.4. 用户空间监视资源的逻辑

由于监视方法不同而不同的处理内容具有如下特征。关机监视过程中仅采取第1项操作。

监视方法 ipmi

  • 处理概要

    反复执行以下2~7步处理。

    1. 设置IPMI计时器

    2. open()虚拟文件

    3. write()虚拟文件

    4. 虚拟文件fdatasync()

    5. close()虚拟文件

    6. 创建虚拟线程

    7. 更新IPMI计时器

处理概要2~6是用于设置监视扩展。若不进行各设置,则不执行处理。

  • 未超时(正确处理上述2~7)时的操作
    不执行重置等恢复处理
  • 超时时(上述2~7中的某个操作停止或延迟)的操作
    BMC(服务器本身的管理功能)导致进行重置
  • 优点

    • 由于使用BMC(服务器本身的管理功能),很难被kernel空间故障影响,由此重置成功的可执行性很高。

  • 缺点

    • 在由于依存于H/W而服务器不支持IPMI,或服务器中未运行OpenIPMI,则无法使用此方法。

    • 使用ESMPRO/ServerAgent的服务器中无法使用此方法。

    • 可执行无法与其他服务器供应商提供的服务器监视软件共用。

监视方法 softdog

  • 处理概要

    反复执行以下2~7步处理。

    1. 设置softdog

    2. open()虚拟文件

    3. write()虚拟文件

    4. 虚拟文件fdatasync()

    5. close()虚拟文件

    6. 创建虚拟线程

    7. 更新softdog计时器

处理概要2~6是用于设置监视扩展。若不进行各设置,则不执行处理。

  • 未超时(正确处理上述2~7)时的操作
    不执行重置等恢复处理
  • 超时时(上述2~7中的某个操作停止或延迟)的操作
    softdog导致进行重置(machine_restart)
  • 优点

    • 由于不依存于H/W,因此只要有softdog kernel模块,则可采取此方法。
      (部分版本中默认状态下没有softdog,因此请在设置前确认是否有softdog)
  • 缺点

    • 由于softdog并不依存于kernel空间的计时器逻辑,因此有时尽管kernel空间发生故障,却不会重置。

监视方法 keepalive

  • 处理概要

    反复执行以下2~7处理。

    1. 设置keepalive计时器

    2. open()虚拟文件

    3. write()虚拟文件

    4. fdatasync()虚拟文件

    5. close()虚拟文件

    6. 创建虚拟线程

    7. 更新keepalive计时器

处理概要2~6是用于设置监视扩展。若不进行各设置,则不执行处理。

  • 未超时(正确处理上述2~7)时的操作
    不执行重置等恢复处理
  • 超时时(上述2~7中的某个操作停止或延迟)的操作
    通过clpkhb.ko向其它服务器通知[自身服务器重置]
    根据运行的设置内容,通过执行clpka.ko进行重置或使之产生Panic。
  • 优点

    • 通过执行clpkhb,向其它服务器通知自身服务器重置 ,可在其它服务器上留下记录(日志)。

  • 缺点

    • 可运行的(提供驱动程序)的Distribution,架构,内核版本受到限制。

    • 由于clpka依存于kernel空间的计时器逻辑,当kernel空间出现故障时,有时可执行不会重置。

监视方法 ipmi(High-End Server Option)

  • 那个不能被使用。

4.13.5. ipmi运行可否的确认方法

需要确认服务器本身OpenIPMI的运行状况时,可采取以下操作步骤。

  1. OpenIPMI的rpm安装包。

  2. 执行/usr/bin/ipmitool。

  3. 确认执行结果。

如下显示时(/usr/bin/ipmitool bmc watchdog get执行结果)
(以下为显示示例。由于H/W不同,可执行显示值不同。)
Watchdog Timer Use: BIOS FRB2 (0x01)
Watchdog Timer Is: Stopped
Watchdog Timer Actions: No action (0x00)
Pre-timeout interval: 0 seconds
Timer Expiration Flags: 0x00
Initial Countdown: 0 sec
Present Countdown: 0 sec

可使用OpenIPMI。监视方法可选择ipmi。

4.13.6. 用户空间监视资源的注意事项

所有监视方法中共通的注意事项

  • 在Cluster WebUI中添加集群后,监视方法softdog的用户空间监视资源将自动被创建。

  • 可添加监视方法不同的用户空间监视资源。添加集群时,可删除自动创建的监视方法softdog的用户空间监视资源。

  • 由于OS的softdog驱动程序不存在,或EXPRESSCLUSTER的clpkhb驱动程序,clpka驱动程序不存在,或未安装OpenIPMI的rpm,导致启动用户空间监视资源失败时,Cluster WebUI的Alert 日志中会显示"Monitor userw failed."消息。Cluster WebUI以及[clpstat]命令显示中资源状态显示为[正常],各服务器的状态为[已启动]。

通过ipmi进行监视的注意事项

注解

使用ESMPRO/ServerAgent等服务器供应商提供的服务器监视软件时,请不要选择IPMI的监视方法。
由于这些服务器监视软件与OpenIPMI都使用服务器上的BMC(Baseboard Management Controller),容易发生冲突,可执行会导致无法正常监视。

通过ipmi (High-End Server Option)进行监视的注意事项

  • 那个不能被使用。

通过keepalive进行监视时的注意事项

  • 向其他服务器发出reset通知仅限于设置内核模式LAN心跳资源的情况。此时,syslog中输出以下日志。

    kernel: clpkhb: Keepalive: <server priority: %d> <reason: %s> <process name: %s>system reboot.
    

4.13.7. 监视(固有)标签页

用户空间监视资源将用户空间的停止判断为异常。
本资源在添加集群时自动登录。监视方法自动登录为softdog的用户空间监视资源。

使用心跳间隔/超时

设置监视时间间隔与超时为心跳间隔与超时时选择此选项。

  • 选中
    使用心跳间隔与超时。
  • 未选中
    不使用心跳设置,使用在监视标签页中设置的时间间隔和超时。超时值需要大于时间间隔值。当[监视方法]中设置ipmi时,需要将超时值设置为小于255的值。

监视方法

在以下选项中选择用户空间监视资源的监视方法。不能选择其他用户空间监视资源中已经采用的方法。

  • softdog
    使用softdog驱动程序。
  • ipmi
    使用OpenIPMI。
  • ipmi(High-End Server Option)
    使用ipm驱动程序。
  • keepalive
    使用clpkhb驱动程序,clpka驱动程序。
  • none
    不使用任何方法。

超时发生时的动作

设置最终动作。监视方法只可以在keepalive时设置。

  • RESET
    服务器重启。
  • PANIC
    服务器应急措施。
  • IOFENCING
    针对已事先设置好的PCI插槽,执行I/O Fencing,然后使服务器产生panic。
    I/O Fencing正常结束时,向消息接收监视已事先设置好的IP地址发送SNMP Trap。

临时文件的打开/关闭

进行监视时,设置是否每隔监视时间间隔打开/关闭临时文件。

  • 选中复选框
    打开/关闭临时文件。
  • 未选中复选框
    不打开/关闭临时文件。

进行写入

打开/关闭临时文件时,设置是否对临时文件执行写入操作。

  • 选中复选框
    对临时文件执行写入操作。
  • 未选中复选框
    不对临时文件执行写入操作。

大小 (1~9999999)

对虚拟文件执行写入操作时,设置写入大小。

创建临时文件

进行监视时,设置是否创建临时文件。

  • 选中复选框
    创建临时文件
  • 未选中复选框
    不创建临时文件。

4.14. 理解多目标监视资源

多目标监视资源对多个监视资源进行监视。

4.14.1. 多目标监视资源的注意事项

  • 多目标监视资源将登录中监视资源的状态下线(offline)处理为异常。因此,已登录启动时监视的监视资源时,因监视资源不能查出异常的状态下,多目标监视器资源查出异常的情况。请勿登录启动时监视的监视资源。

4.14.2. 多目标监视资源的状态

多目标监视资源的状态是根据已登录的监视资源状态进行判断。

多目标监视资源设置如下时,

已登录的监视资源数 2
异常次数 2
警告次数 1

多目标监视资源的状态如下所示。

多目标监视资源
状态

监视资源1 状态

正常
(normal)
异常
(error)
已停止
(offline)

监视资源2

状态

正常
(normal)
正常
(normal)
警告
(caution)
警告
(caution)
异常
(error)
警告
(caution)
异常
(error)
异常
(error)
已停止
(offline)
警告
(caution)
异常
(error)
正常
(normal)
  • 多目标监视资源对已登录的监视资源状态进行监视。
    若处于异常(error)状态的监视资源个数超过异常次数,则多目标监视资源出现异常(error)。
    若处于异常(error)状态的监视资源个数超过警告次数,则多目标监视资源的状态为警告(caution)状态。
    若所有登录的监视资源状态都已停止(offline),多目标监视资源的状态将为正常(normal)。
    除了所有登录的监视资源状态均已停止(offline)的情况之外,多目标监视资源将已登录的监视资源状态处于已停止(offline)的情况判断为异常(error)。
  • 即便已登录的监视资源状态为异常(error),也不会执行该监视资源出现异常时的操作。
    仅在多目标监视资源出现异常(error)时,才会执行多目标监视资源出现异常时的操作。

4.14.3. 多目标监视资源的设置示例

  • Disk总线冗余配置驱动程序的使用示例
    只有磁盘设备(/dev/sdb, /dev/sdc等)同时也出现异常的情况下,才需要视为异常(error)。
    下图显示了使用两个HBA和Disk路径双重化驱动,使路径双重化的配置。
    启动一侧的HBA故障时,缩小或切换Disk路径双重化驱动。
    Disk路径双重化驱动,内置HDD,2个HBA和diskw

    图 4.69 Disk路径双重化驱动的使用示例

    • 多目标监视资源(mtw1)中登录的监视资源

      • diskw1

      • diskw2

    • 多目标监视资源(mtw1)的异常次数,警告次数

      • 异常次数 2

      • 警告次数 0

    • 多目标监视资源(mtw1)中登录的监视资源的详细设置

      • 磁盘监视资源(diskw1)
        监视设备名 /dev/sdb
        启动次数 0
        失效切换次数 0
        最后运行 无操作
      • 磁盘监视资源(diskw2)
        监视设备名 /dev/sdc
        启动次数 0
        失效切换次数 0
        最后运行 无操作
  • 上述设置中,即便发现多目标监视资源的监视资源中登录的diskw1和diskw2中一侧发生异常,也不对出现异常的监视资源执行异常时操作。

  • 若diskw1与diskw2都出现异常,而2个监视资源状态为异常(error)和已停止(offline)时,执行多目标监视资源中设置的异常时操作。

4.14.4. 监视(固有)标签页

将监视资源分组后,对该组的状态进行监视。[资源一览]中最多可登录64个监视资源。

当本资源的[监视资源一览]中唯一设置的监视资源被删除时,本资源将会自动被删除。

添加

将选中监视资源添加到[资源一览]中。

删除

在[资源一览]中删除选中的监视资源。

调整

显示[多目标监视资源调整属性]对话框。进行多目标监视资源的详细设置。

多目标监视资源调整属性

参数标签页

显示与参数相关的详细设置。

异常次数

选择多目标监视器处于异常的条件。

  • 与成员总数相同

    若所有多目标监视器下指定的监视资源全部异常,或异常与停止状态同时存在的情况下,多目标监视器为异常。

    若多目标监视器下指定的监视资源已全部停止,则为正常。

  • 设定数字

    在多目标监视器下指定的监视资源中,若相当于异常次数设置数目的多目标监视其出现异常或已经停止,则多目标监视器为异常。

    多目标监视器下指定的监视资源中,若某些监视资源处于异常或已停止,则设置异常的多目标监视器的个数。

选中[设定数字]时可以设置异常次数的数量。

警告次数

  • 选中复选框
    在多目标监视器下指定的监视资源中,若干监视资源处于异常或已停止时,设置将多目标监视器设为警告的个数。
  • 未选中复选框
    多目标监视器不显示警告信息。

默认值

用于需要恢复至默认值时。按下[默认值],则所有项目都将设置为默认值。

4.15. 理解虚拟IP监视资源

4.15.1. 虚拟IP监视资源的注意事项

没有虚拟IP监视资源的相关详细设置。
使用EXPRESSCLUSTER 的虚拟IP资源时使用。
  • 添加虚拟IP资源,则自动生成虚拟IP监视资源。1个虚拟IP资源自动生成1个虚拟IP监视资源。

  • 不能直接删除虚拟IP监视资源。当删除虚拟IP资源时虚拟IP监视资源自动删除。

  • 请不要更改复归对象。

  • 不能暂时停止,重新启动由[clpmonctrl]命令或Cluster WebUI执行的监视。

  • 虚拟IP监视资源为了控制虚拟IP资源的路径会定期发送RIP包。如果集群挂起时对象虚拟IP资源为启动状态,则虚拟IP监视资源不会停止,持续运行。

4.15.2. 虚拟IP监视资源的设置

虚拟IP监视资源中,执行发送虚拟IP资源不可缺少的路由表的动态路由工作包。
不能通过虚拟IP资源对启动的IP地址状态进行确认。
没有虚拟IP监视资源的相关详细设置。

4.16. 理解ARP监视资源

为了保持/更新启动的浮动IP资源或虚拟IP资源的ARP表,ARP监视资源定期发送ARP包。

4.16.1. ARP监视资源的注意事项

有关ARP监视资源发送的ARP广播包,请参考本指南的"3. 组资源的详细信息"的"理解浮动IP资源"。

不进行通过浮动IP资源或虚拟IP资源启动的IP地址的状态确认。

ARP监视资源的监视对象资源只可以选择浮动IP资源或虚拟IP资源。ARP监视资源的设置中,[监视(共通)]标签页的[目标资源]和[监视(固有)]的[目标资源]必须选择相同资源。

ARP监视资源不可以暂时停止,重新启动由[clpmonctrl]命令或Cluster WebUI执行的监视。

4.16.2. 监视(固有)标签页

目标资源

选择[参照],则显示[目标资源的选择]对话框。树形显示登录到LocalServer及集群的组名,浮动IP资源名或虚拟IP资源名。选择设置为目标资源的资源,点击[确定]。

注解

更改目标资源时,也必须更改监视(共通)标签页的目标资源。

4.17. 理解自定义监视资源

自定义监视资源是通过执行任意的脚本对系统进行监视的一种监视资源。

4.17.1. 自定义监视资源的注意事项

监视方式为[异步]时,若监视重试次数设置为1次以上,则无法正常监视。监视方式设置为[异步]时,请将监视重试次数设置为0次。

启用脚本日志轮询功能后,将生成调解日志输出(中介进程)的进程。中介进程是从"开始/停止脚本"和"继承从开始/停止脚本标准输出/标准错误输出中任一或两者的子进程"开始的日志输出到所有停止(文件描述符关闭)为止,一直运行的。如果要从日志中排除子进程的输出时,请在从脚本创建进程时重定向标准输出和标准错误输出。

4.17.2. 自定义监视资源的监视方法

自定义监视资源通过任意的脚本进行系统监视。
监视类型为[同步]时,定期执行脚本,通过该错误代码判断是否异常。
监视类型为[异步]时,在监视开始时执行脚本,如该脚本进程消失则判断为异常。

4.17.3. 监视(固有)标签页

用户应用程序

使用可在服务器上执行的文件(可执行的Shell Script文件或执行文件)作为脚本。通过服务器上本地磁盘的绝对路径设置各可执行文件的名称。

Cluster WebUI的集群配置信息中不会包含各可执行文件。因为不能通过Cluster WebUI进行编辑或上传,需要在各台服务器上准备。

用Cluster WebUI创建的脚本

使用通过Cluster WebUI准备的脚本文件作为脚本。根据需要,可以通过Cluster WebUI编辑脚本文件。脚本文件将被包含到集群配置信息中。

文件 (1023字节以内)

选择了[用户应用程序]时,通过服务器上本地磁盘的绝对路径设置运行的脚本(可执行的Shell Script文件或执行文件)。

显示

选择了[用Cluster WebUI创建的脚本]时,显示脚本文件。

编辑

选择了[用Cluster WebUI创建的脚本]时,编辑脚本文件。要反映这些变更,请点击[保存]。脚本文件名无法更改。

替换

选择了[用Cluster WebUI创建的脚本]时,把脚本文件内容变更为文件选择对话框中所选择的脚本文件内容。脚本处于正在编辑或正在显示的状态时无法置换。请在此选择脚本文件。请不要选择二进制文件(应用程序等)。

监视方式

选择监视方法。

  • 同步(默认值)
    定期执行脚本,通过该错误代码判断是否异常。
  • 异步
    在监视开始时执行脚本,如该进程消失则判断为异常。

应用程序/脚本开始监视时等待一定时间(0~9999)

监视类型为[异步]时设置从启动应用程序/脚本到开始监视的等待时间。该等待时间应小于通过[监视(共通)]标签页设置的超时值。

注解

此设置在下次启动监视时启用。

默认值: 0

日志输出文件 (1023字节以内)

设置脚本内输出的日志输出目标。

未选中[轮询]复选框时,将会无限制的输出,所以请务必注意文件系统的剩余空间。

选中[轮询]复选框时,将轮询输出的日志文件。此外,请注意如下的注意事项。

请将[日志输出路径]中记录的日志路径控制在1009字节以内。超过1010字节后,日志将无法输出。

请将日志文件的名称控制在31字节以内。超过32字节时,不能输出日志。

在多个自定义监视资源上运行日志轮询,若路径名不同但日志文件名相同时,(ex. /home/foo01/log/genw.log, /home/foo02/log/genw.log)轮询大小可执行无法正确反映。

轮询

脚本或可执行文件的执行日志关闭时,以无限制的文件大小方式输出,开启时轮询输出。

轮询大小 (1~999999999)

选中[轮询]复选框时,会指定轮询的大小。

轮询输出的日志文件构成如下。

文件名

内容

[日志输出路径]指定的文件名

此为最新日志。

[日志输出路径]指定的文件名.pre

此为轮询前的日志。

正常的返回值 (1023字节内)

监视类型为[同步]时,对于脚本的错误代码是什么值时判断为正常进行设置。有多个值时,像0,2,3这样用逗号分隔开,或者像0-3这样用连字号指定数值范围。

默认值:0

当停止集群时,等待启动时监控的停止

在集群停止时,等待自定义监视资源停止。只有在监视时间设置为[启动时]才有效。

4.18. 理解卷管理监视资源

卷管理监视资源是对由卷管理器管理的逻辑磁盘执行监视的监视资源。

4.18.1. 卷管理监视资源的注意事项

卷管理器为VxVM的volmgrw属于Daemon监视形式,因此,在一个集群中登录多个是没有意义的。

卷管理器指定了VxVM时,请设置LocalServer为复归对象。

本资源在添加卷管理资源时自动登录。自动登录各卷管理资源对应的卷管理监视资源。卷管理监视资源设置了默认值,必要时请更改为合适的值。
在Red Hat Enterprise Linux 7以后的环境中,在卷管理监视资源中执行LVM的监视时,需要将LVM元数据服务设定为无效。

4.18.2. 卷管理监视资源的监视方法

卷管理监视资源的监视方法,因对要监视的逻辑磁盘实施管理的卷管理器种类不同而有所不同。

对应完毕的卷管理器如下。

  • lvm (LVM卷组)

  • vxvm (VxVM Daemon)

  • zfspool (ZFS 存储池)

4.18.3. 监视(固有)标签页

卷管理

设置管理作为监视对象的逻辑磁盘的卷管理器的种类。对应完毕的卷管理器如下。

  • lvm (LVM卷组)

  • vxvm (VxVM Daemon)

  • zfspool (ZFS 存储池)

对象名(1023字节以内)

以<VG名>的形式(只有目标名)设置作为监视对象名称。

卷管理为[lvm]时,可以进行多个卷的统合控制。控制多个卷时,卷名用半角空格区分设定。

卷管理为[vxvm] 时,不需要进行本设置的输入。

4.19. 理解消息接收监视资源

消息接收监视资源是被动监视器。自身不执行监视处理。
是接收从EXPRESSCLUSTER的外部发行的异常发生通知时,更改消息接收监视资源的状态,执行异常发生时的恢复动作的监视资源。

4.19.1. 消息接收监视资源的监视方法

下图为使用消息接收监视资源的配置示例。 从clprexec命令接收到异常发生通知的Server2的消息接收监视资源,执行查出自身状态更改和异常时的复归动作。

执行clprexec命令的Server 1,运行消息接收监视资源的Server 2

图 4.70 使用消息接收监视资源的配置

4.19.2. 服务器组外失效切换

  • 接收到异常检测通知时,可使运行服务器组对其他服务器组的服务器进行失效切换。

  • 需对服务器组进行如下的设置。

    • 复归对象的组资源

      • 打开[使用服务器组设置]

    • 消息接收监视资源

      • 将复归操作设为[对复归对象执行失效切换]

      • 打开[在服务器组外进行失效切换]

  • 执行服务器组外失效切换时,动态失效切换和服务器组之间失效切换的设置无效。在与执行失效切换的服务器所属服务器组不同的服务器组中,对优先级最高的服务器进行失效切换。

属于运行服务器组的Server 1和Server 2,属于灾害对策服务器组的Server 3和Server 4

图 4.71 使用消息接收监视资源的配置(服务器组外失效切换)

4.19.3. 与消息接收监视资源相关的注意事项

<消息接收监视资源整体的注意事项>

  • 在消息接收监视资源处于暂停状态下接收到外部的异常发生通知时,不执行异常时动作。

  • 接收到外部的异常发生通知时,消息接收监视资源的状态变成"异常"。变成"异常"的消息接收监视资源的状态不会自动恢复到"正常"。如要恢复状态为"正常",请使用[clprexec]命令。关于[clprexec]命令,请参考本指南的"8. EXPRESSCLUSTER命令参考"的"集群服务器处理请求(clprexec命令)"。

  • 在接收到外部的异常发生通知后,消息接收监视资源的状态变成"异常"的状态下,接收到异常发生通知时,不执行异常发生时的恢复动作。

  • 复归操作为[对复归对象执行失效切换]时,[对服务器组外执行失效切换]设置为选中,则失效切换目标服务器与运行服务器组为不同服务器组的服务器。但是上述设置中,若复归对象的组上没有设置服务器组,则失效切换目标由通常的失效切换策略决定。

    例) 192.168.0.1;192.168.0.2;192.168.0.3:162

<使用Express5800/A1080a,A1040a系列整合功能时的注意事项>

  • 接收到BMC发出的异常检测通知时,服务器搭载的硬件和固件需匹配。并且还需启动ipmi服务。关于可使用的机型,请参考《开始指南》的"EXPRESSCLUSTER的运行环境" - "硬件"- "与Express5800/A1080a,A1040a系列整合相对应的服务器"。

  • 接收BMC发出的异常发生通知时,需保持BMC的网络接口可向OS的网络接口通信。

  • 接收到BMC发出的异常检测通知时,使用服务器个别设置,指定每个服务器用于接收SNMP Trap的IP地址和端口号。端口号可省略(默认值为162)。设置端口号时,每个服务器所有的消息接收监视资源需为相同的值。

<与服务器管理基础设施整合时的注意事项>

4.19.4. 监视(固有)标签页

在分类和关键字中使用[clprexec]命令参数-k设置要传递的关键词。可以省略关键字。

分类 (32字节以内)

指定以[clprexec]命令的参数-k来指定的种类。监视BMC发出的异常检测通知(SNMP Trap)时,指定BMCNOTICE。
可选择列表框中的已有字符串或指定任意字符串。

关键字 (1023字节以内)

指定以[clprexec]命令的参数-k来指定的关键字。在分类中指定BMCNOTICE时,使用服务器个别设置,指定每个服务器用于接收SNMP Trap的IP地址和端口号。端口号可省略(默认值为162)。设置端口号时,请将每个服务器所有的消息接收监视资源设为相同的值。记载格式如下:

<IP地址>[:<端口号>]

由BMC检测出的预兆错误把监视的状态设置为异常

那个不能被使用。

由BMC检测出的性能降低把监视的状态设置为异常

那个不能被使用。

4.19.5. 复归动作标签页

设置复归对象及检出异常时的操作。消息接收监视资源的情况下,检出异常时,请选择"重启复归对象","对复归对象执行失效切换",或者"执行最终操作" 的任意一个操作。但是,如果复归对象处于停止状态,复归操作将不被执行。

复归动作

选择监视器检出异常时执行的操作。

  • 执行复归脚本
    监视检出异常时,执行复归脚本。
  • 对复归对象执行失效切换
    监视检出异常时,对选择为复归对象的组或者资源所属的组进行失效切换。
  • 重启复归对象
    监视检出异常时,对选择为复归对象的组或者组资源进行重启。
  • 执行最终操作
    监视检出异常时,执行所选择的最终操作。

对服务器组外进行失效切换

只可设置消息接收监视资源。设置是否在接收到异常检测通知时,让非运行服务器组的其他服务器组执行失效切换。

复归动作前执行脚本

指定是否在执行复归操作前运行脚本。

  • 选中复选框
    在实施复归操作前执行脚本/命令。为了设置脚本/命令请点击[脚本设置]按钮。
  • 未选中复选框
    不执行脚本/命令。
  • 关于以上设置项目以外,请参照"复归动作标签页"。

4.20. 理解虚拟机监视资源

虚拟机监视资源是执行虚拟机死活确认的监视资源。

4.20.1. 虚拟机监视资源的注意事项

  • 添加虚拟机资源时,此资源将被自动登录。

  • 有关运行确认完毕的虚拟基础架构的版本请参考《开始指南》的"EXPRESSCLUSTER的运行环境" - "软件" - "虚拟机资源的运行环境"。

  • 复归操作迁移中,或者所有的复归操作完成后,即使检出了虚拟机监视资源的恢复,监视资源所持有的复归操作次数的计数器也不会被复位。如需将复归操作的次数计数器复位,请执行一下任意操作。

    • 使用[clpmonctrl]命令来复位复归操作次数的计数器。

    • 使用[clpcl]命令或Cluster WebUI,执行集群的停止/开始。

4.20.2. 虚拟机监视资源的监视方法

虚拟机监视资源进行以下监视。

虚拟机的种类为vSphere时

利用VMware vSphere API,执行虚拟机的监视。

作为监视结果,如果出现以下情况则视为异常。

  1. VM的状态为POWEROFF/SHUTDOWN/SUSPENDED时

  2. 获取VM的状态失败时

虚拟机的种类为Xenserver时

利用通用的虚拟库,进行虚拟设备的监视。

作为监视结果,如果出现以下情况则视为异常。

  1. VM的状态为HALTED/PAUSED/SUSPENDED时

  2. 获取VM的状态失败时

虚拟机的种类为Kvm时

利用通用的虚拟库,进行虚拟的监视。

作为监视结果,如果出现以下情况则视为异常。

  1. VM的状态为BLOCKED,SHUTDOWN,PAUSED,SHUTOFF,CRASHED,NOSTATE时

  2. 获取VM的状态失败时

4.20.3. 监视(固有)标签页

外部迁移发生时的等待时间

指定完成迁移所需的时间。

4.21. 理解动态域名解析监视资源

4.21.1. 动态域名解析监视资源的注意事项

关于动态域名解析监视资源,没有详细设置。 使用EXPRESSCLUSTER的动态域名解析资源时使用。

  • 添加动态域名解析资源时自动生成。1个动态域名解析资源自动生成1个动态域名解析监视资源。

  • 动态域名解析监视资源不能删除。删除动态域名解析资源时自动删除。

  • 请不要更改复归对象。

  • 不能暂停,重新启动由[clpmonctrl]命令或Cluster WebUI执行的监视。

  • 动态域名解析监视资源定期向DDNS服务器登录虚拟主机名。集群暂停时对象动态域名解析资源为启动状态,则动态域名解析监视资源不会停止,持续运行。

  • [监视(共通)]-[重试次数]的设置无效。如果要延迟异常检出,请更改[监视(共通)]-[超时]的设置。

4.21.2. 动态域名解析监视资源的设置

动态域名解析监视资源定期向DDNS服务器登录虚拟主机名。
关于动态域名解析监视资源,没有详细设置。

4.22. 理解进程名监视资源

进程名监视资源是可以监视任意进程名进程的监视资源。

4.22.1. 进程名监视资源的注意事项

进程数下限值设置为1时并且存在多个指定为监视对象的进程名之进程时,按以下条件选择一个进程作为监视对象,并进行监视。

  1. 进程间存在主从关系时,监视主进程。

  2. 进程间无主从关系时,监视启动时间最早的进程。

  3. 若进程间无主从关系,且启动时间也相同,则监视进程ID最小的进程。

同一名称的进程多个存在时,根据进程的启动个数进行监视时,设置监视进程数下限值的个数。低于同一名称进程的设置个数时判断为异常发生。进程数的下限值的个数可指定为1到999之间。进程数下限值设置为1时,选择一个进程作为监视对象,并进行监视。

可指定为监视对象的进程名最多为1023字节。若指定超过1023字节的进程名之进程为监视对象时,使用通配符号(*)进行指定。

监视对象进程的进程名超过1023字节时,可识别的进程名只有前1023字节。使用通配符(*)指定时,请指定小于1023字节的字符串。

若监视对象的进程名过长,则输出到日志中的进程名信息将省略后半部分。

受监视进程的进程名中含有「"」(双引号)或「,」(逗号)时,警报消息可执行无法正确显示进程名。

请通过ps(1)命令等确认实际运行进程的进程名后,设定监视对象进程名。

执行结果实例

UID        PID  PPID  C STIME TTY          TIME CMD
root         1     0  0 Sep12 ?        00:00:00 init [5]
:
root      5314     1  0 Sep12 ?        00:00:00 /usr/sbin/acpid
root      5325     1  0 Sep12 ?        00:00:00 /usr/sbin/sshd
htt       5481     1  0 Sep12 ?        00:00:00 /usr/sbin/htt -retryonerror 0
在 /usr/sbin/htt 监视情况 执行上述命令,得出以上结果
指定监视对象进程名为 /usr/sbin/htt -retryonerror 0。

在监视对象进程名中,进程的参数为进程名的一部分来作为监视对象进程的特别指定。指定监视对象进程名时,请指定包括参数在内的进程名。仅监视不含参数的进程名时,请使用通配符号(*)来指定不含参数的前方一致或部分一致。

4.22.2. 进程名监视资源的监视方法

指定进程名的进程。进程数的下限值为1时,根据进程名确定进程ID,进程ID消失则判断为异常。无法检测出进程的停止。

进程数的下限值设置为大于1的数值时,根据个数对设置的进程名的进程进行监视。并根据进程名计算出监视对象进程的个数,低于下限值时判断为异常。不能查出进程的停止。

4.22.3. 监视(固有)标签页

进程名 (1023字节以内)

设置监视对象进程的进程名。进程名通过ps(1)命令的输出结果等来确认。

此外,以下3种情况也可指定进程名的通配符。除此之外无法指定。

【前方一致】 <进程名所包含的字符串>*

【后方一致】 *<进程名所包含的的字符串>

【部分一致】 *<进程名所包含的字符串>*

进程数下限值 (1~999)

设置作为监视对象的进程的监视个数。如果进程名中设置的监视对象的进程的个数低于设置值时,判断为异常。

4.23. 理解BMC监视资源

那个不能被使用。

4.24. 理解DB2监视资源

DB2监视资源用来监视服务器上运行的DB2数据库。

4.24.1. DB2监视资源的注意事项

有关运行确认完毕的DB2版本,请参考《开始指南》的"EXPRESSCLUSTER的运行环境"- "软件" - "运行确认完毕的监视选项应用程序信息"。

本监视资源利用DB2的CLI library,进行DB2的监视。如果本监视资源发生异常时,请确认是否存在DB2的CLI library。

在对由虚拟机资源进行控制的虚拟机的客户机OS上运行的DB2数据库进行监视时,请指定虚拟机资源为监视的对象资源,将虚拟机资源启动后到DB2数据库能够连接之前的足够长的等待时间设置成[监视开始等待时间]。此外,这种情况下需要在运行监视资源的主机OS侧安装DB2客户端,事先将虚拟机上的数据库登录到数据库节点目录。

数据库的代码页和本监视资源的"字符编码"的设置不同,本监视资源不能连接到DB2的数据库。如有必要,请进行适当的字符编码设置。
确认数据库的代码页,请通过[db2 get db cfg for Database_name]进行。详细信息请参考DB2的手册。

通过参数指定的数据库名/实例/用户名/密码等的值和进行监视的DB2环境不同时,不能进行DB2监视。请根据显示的错误信息确认环境。

关于下一节"DB2监视资源的监视方法"中说明的监视级别的内容,请注意以下几点。
在"级别1"中开始监视时,若无监视表,则置于监视错误。请创建以下监视表。
在"级别2"中开始监视时,若无监视表,则EXPRESSCLUSTER自动生成监视表。此时,在Cluster WebUI的警告日志上显示无监视表的消息。
在"级别3"中的监视执行每次监视表的生成·删除,因此,监视负载高于"级别1"和"级别2"

选择的监视级别

事先创建监视表格

级别1(在select中的监视)

有必要

级别2(在update/select中的监视)

无必要

级别3(每次都进行create/drop)

无必要

可按以下步骤创建监视表格。

监视表格名可指定字母数字,一部分符号(下划线等)。

使用SQL语句生成时(以监视表格名为db2watch时为例)
sql> create table <用户名>.db2watch (num int not null primary key)
sql> insert into db2watch values(0)
sql> commit
使用EXPRESSCLUSTER的命令时
作为前提条件,需要完成监视资源设置。
clp_db2w --createtable -n <DB2监视资源名>
手动删除创建的监视表格时,请执行以下命令:
clp_db2w --deletetable -n <DB2监视资源名>

4.24.2. DB2监视资源的监视方法

DB2监视资源按从以下监视级别中选择的级别进行监视。

  • 级别1(在select中的监视)
    该监视只对监视表格进行参照。对监视表格执行的SQL语句为(select )。

    作为监视结果,如果出现以下情况则视为异常。

    1. 数据库连接或SQL语句响应中通知异常时

  • 级别2(在update/select中的监视)
    该监视还对监视表格进行更新。通过SQL语句,对最大为10位的数值数据进行写入和读入操作。对监视表格执行的SQL语句为(update / select )。
    开始监视时,自动生成监视表的情况下,对监视表执行的SQL语句为( create / insert )。

    作为监视结果,如果出现以下情况则视为异常。

    1. 数据库连接或SQL语句响应中通知异常时

    2. 写入和读入的数据不一致时

  • 级别3(每次都进行create/drop)
    每次都对监视表格进行更新及创建和删除。通过SQL语句,对最大为10位的数值数据进行写入和读入操作。对监视表格执行的SQL语句为(create / insert / select / drop )。

    作为监视结果,如果出现以下情况则视为异常。

    1. 数据库连接或SQL语句响应中通知异常时

    2. 写入和读入的数据不一致时

4.24.3. 监视(固有)标签页

监视级别

从以下选项中选择一项。请务必进行设置。

  • 级别1(在select中的监视)
    该监视只对监视表格进行参照。对监视表格执行的SQL语句为(select )。
  • 级别2(在update/select中的监视)
    该监视还对监视表格进行更新。对监视表格执行的SQL语句为(update / select )。
    开始监视时,自动生成监视表的情况下,对监视表执行的SQL语句为( create / insert )。
  • 级别3(每次都进行create/drop)
    每次都对监视表格进行更新及创建和删除。对监视表格执行的SQL语句为(create / insert / select / drop )。

默认值 :级别2(在update/select中的监视)

数据库名 (255字节以内)

设置要监视的数据库名。请务必设置。

默认值 : 无

实例 (255字节以内)

设置要监视的数据库的实例名。请务必设置。

默认值 : db2inst1

用户名 (255字节以内)

设置登录数据库时使用的用户名。请务必设置。
请指定可以访问指定数据库的DB2用户。

默认值 : db2inst1

密码 (255字节以内)

设置登录数据库时使用的密码。请务必设置。

默认值 :无

监视表名 (255字节以内)

设置在数据库上创建的用于监视的表名。请务必设置。
因为该表需要创建和删除,请注意不要与业务用表重名。另外,还需要注意不要与SQL语句的保留字重复。
根据数据库的式样,监视的表名有不能设置的字符。详细请确认数据库的式样。

默认值 : db2watch

字符编码

设置DB2的字符集。请务必设置。

默认值 : 无

Lib路径 (1023字节以内)

设置DB2的主页路径。请务必设置。

默认值 : /opt/ibm/db2/V11.1/lib64/libdb2.so

4.25. 理解FTP监视资源

FTP监视资源监视服务器上运行的FTP服务。它监视FTP协议,而不是监视特定的应用程序。因此,可以监视实现了FTP协议的各种应用程序。

4.25.1. FTP监视资源的注意事项

请在监视对象资源中指定启动FTP的exec资源等。在启动对象资源后开始监视。但如果对象资源启动后FTP不能立即运行或其他情况下,请通过[开始监视的等待时间]进行调整。

在对由虚拟机资源进行控制的虚拟机的客户机OS上运行的FTP服务器进行监视时,请指定虚拟机资源为监视的对象资源,将虚拟机资源启动后到FTP服务器能够连接为止的足够长的等待时间设置成[监视开始等待时间]。

针对每个监视动作,FTP服务本身会输出运行日志等,请通过FTP侧的设置进行适当控制。

将FTP服务器的FTP消息(横幅,欢迎访问FTP服务器消息等)从既定的设置变更时,有可执行被视为监视异常。

4.25.2. FTP监视资源的监视方法

FTP监视资源进行以下监视。

与FTP服务器连接,执行获取文件一览的命令。

作为监视结果,如果出现以下情况则视为异常。

  1. 连接FTP服务失败

  2. 对FTP命令的响应中通知有异常

4.25.3. 监视(固有)标签页

IP地址 (79字节内)

设置监视的FTP服务器的IP地址。请务必进行设置。双方向待机时,请指定FIP。

一般情况下连接到在自身服务器中运行的FTP服务器上,因此设置回环地址(127.0.0.1)。但在由于设置了FTP服务器而限制了能够连接的地址时,设置可连接的地址(浮动IP地址等)。此外,对在由虚拟机资源进行控制的虚拟机的客户机OS上运行的FTP服务器进行监视时,设置虚拟机的IP地址。

默认值 : 127.0.0.1

端口号 (1~65535)

设置监视的FTP的端口号。请务必进行设置。

默认值 : 21

用户名 (255字节以内)

设置登录FTP时的用户名。

默认值 : 无

密码 (255字节以内)

设置登录FTP时的密码。

默认值 :无

4.26. 理解HTTP监视资源

HTTP监视资源监视服务器上运行的HTTP服务。

4.26.1. HTTP监视资源的注意事项

有关运行确认完毕的HTTP版本,请参考《开始指南》的"EXPRESSCLUSTER的运行环境" - "软件" - "运行确认完毕的监视选项应用程序信息"。

在对由虚拟机资源进行控制的虚拟机的客户机OS上运行的HTTP服务器进行监视时,请指定虚拟机资源为监视的对象资源,将虚拟机资源启动后到HTTP服务器能够连接为止的足够长的等待时间设置成[监视开始等待时间]。

HTTP监视资源不支持客户端认证,DIGEST认证。

4.26.2. HTTP监视资源的监视方法

HTTP监视资源进行以下监视。

连接到网络服务器上的HTTP Daemon,通过发送HTTP request执行HTTP daemon监视。

作为监视结果,如果出现以下情况则视为异常。

  1. 连接HTTP daemon时通知异常

  2. 应答HTTP request的信息不是以"HTTP/"开头

  3. 应答HTTP request的状态代码为400,500时(Request URI指定默认值以外的URI时)

4.26.3. 监视(固有)标签页

连接目的端 (255字节以内)

设置监视的HTTP服务器名。请务必设置。
一般情况下连接到在自身服务器中运行的HTTP服务器上,因此设置回环地址(127.0.0.1)。但在由于设置了HTTP服务器而限制了能够连接的地址时,设置可连接的地址(浮动IP地址等)。此外,对在由虚拟机资源进行控制的虚拟机的客户机OS上运行的HTTP服务器进行监视时,设置虚拟机的IP地址。

默认值: localhost

端口号 (1~65535)

设置连接到HTTP服务器时的端口号。请务必设置。

默认值:
80 (HTTP)
443 (HTTPS)

Request URI (255字节以内)

设置Request URI(例:"/index.html")。

默认值:无

协议

设定与HTTP服务器通信使用的协议。通常选择HTTP,但是需要通过HTTP over SSL连接时选择HTTPS。

默认值 : HTTP

注解

使用HTTPS需要OpenSSL库。

Request类型

设置连接到HTTP服务器时的HTTP Request的类型。请务必进行设置。

默认值 : HEAD

用户名(255字节以内)

设置登录HTTP时的用户名。
仅在进行BASIC认证时设置。

默认值 : 无

密码(255字节以内)

设置登录HTTP时的密码。
仅在进行BASIC认证时设置。

默认值 : 无

4.27. 理解IMAP4监视资源

IMAP4监视资源监视服务器上运行的服务。它监视IMAP4协议,而不是监视特定的应用程序。因此,可以监视实现了IMAP4协议的各种应用程序。

4.27.1. IMAP4监视资源的注意事项

请在监视对象资源中指定启动IMAP4服务器的exec资源等。虽然在启动对象资源后开始进行监视,但如果对象资源启动后IMAP4服务器不能立即运行或其他情况下,请通过[监视开始等待时间]进行调整。

在对由虚拟机资源进行控制的虚拟机的客户机OS上运行的IMAP4服务器进行监视时,请指定虚拟机资源为监视的对象资源,将虚拟机资源启动后到IMAP4服务器能够连接为止的足够长的等待时间设置成[监视开始等待时间]。

针对每个监视动作,IMAP4服务本身会输出运行日志等,请通过IMAP4服务器侧的设置进行适当控制。

4.27.2. IMAP4监视资源的监视方法

IMAP4监视资源进行以下监视。

与IMAP4服务器连接,执行获取文件一览的命令。

作为监视结果,如果出现以下情况则视为异常。

  1. 连接IMAP4服务失败

  2. 对[IMAP4]命令的响应中通知有异常

4.27.3. 监视(固有)标签页

IP地址 (79字节以内)

设置监视的IMAP4服务器的IP地址。请务必进行设置。双方向待机时,请指定FIP。
一般情况下连接到在自身服务器中运行的IMAP4服务器上,因此设置回环地址(127.0.0.1)。但在由于设置了IMAP4服务器而限制了能够连接的地址时,设置可连接的地址(浮动IP地址等)。此外,对在虚拟机资源中进行控制的虚拟机的客户机OS上工作的IMAP4服务器进行监视时,设置虚拟机的IP地址。

默认值 : 127.0.0.1

端口号 (1~65535)

设置监视的IMAP4的端口号。请务必进行设置。

默认值 : 143

用户名 (255字节以内)

设置登录IMAP4时的用户名。

默认值 : 无

密码 (189字节以内)

设置登录IMAP4时的密码。

默认值 :无

认证方式

设置登录IMAP4时的认证方式。需要符合使用的IMAP4的设置。

  • AUTHENTICATE LOGIN(默认值)
    使用[AUTHENTICATE LOGIN]命令的加密认证方式。
  • LOGIN
    使用[LOGIN]命令的明文方式。

4.28. 理解MySQL监视资源

MySQL监视资源是监视在服务器上运行的MySQL数据库的监视资源。

4.28.1. MySQL监视资源的注意事项

有关运行确认完毕的MySQL版本请参考《开始指南》的"EXPRESSCLUSTER的运行环境" - "软件" - "运行确认完毕的监视选项应用程序信息"。

本监视资源利用MySQL的libmysqlclient库,进行MySQL监视。
本监视资源异常时,请确认MySQL的库安装目录下是否存在libmysqlclient.so.xx。

在对由虚拟机资源进行控制的虚拟机的客户机OS上运行的MySQL数据库进行监视时,请指定虚拟机资源为监视的对象资源,将虚拟机资源启动后到MySQL数据库能够连接为止的足够长的等待时间设置成[监视开始等待时间]。

参数指定值和进行监视的MySQL环境不同时,请根据Cluster WebUI的Alert日志中显示错误信息确认环境。

关于下一节"MySQL监视资源的监视方法"中说明的监视级别的内容,请注意以下几点。
在"级别1"中开始监视时,若无监视表,则置于监视错误。请创建以下监视表。
在"级别2"中开始监视时,若无监视表,则EXPRESSCLUSTER自动生成监视表。此时,在Cluster WebUI的Alert日志上显示无监视表的消息。
在"级别3"中的监视执行每次监视表的生成·删除,因此,监视负载高于"级别1"和"级别2"

选择的监视级别

事先创建监视表格

级别1(在select中的监视)

有必要

级别2(在update/select中的监视)

无必要

级别3(每次都进行create/drop)

无必要

可按以下步骤创建监视表格。

使用SQL语句生成时(以监视表格名为mysqlwatch时为例)
sql> create table mysqlwatch (num int not null primary key) ENGINE=<引擎>;
sql> insert into mysqlwatch values(0);
sql> commit;
使用EXPRESSCLUSTER的命令时
作为前提条件,需要完成监视资源设置。
clp_mysqlw --createtable -n <MySQL监视资源名>
手动删除创建的监视表格时,请执行以下命令:
clp_mysqlw --deletetable -n <MySQL监视资源名>

4.28.2. MySQL监视资源的监视方法

MySQL监视资源按从以下监视级别中选择的级别进行监视。

  • 级别1(在select中的监视)
    该监视只对监视表格进行参照。对监视表格执行的SQL语句为(select )。

    作为监视结果,如果出现以下情况则视为异常。

    1. 数据库连接或SQL语句响应中通知异常时

  • 级别2(在update/select中的监视)
    该监视还对监视表格进行更新。通过SQL语句,对最大为10位的数值数据进行写入和读入操作。对监视表格执行的SQL语句为(update / select )。
    开始监视时,自动生成监视表的情况下,对监视表执行的SQL语句为( create / insert )。

    作为监视结果,如果出现以下情况则视为异常。

    1. 数据库连接或SQL语句响应中通知异常时

    2. 写入和读入的数据不一致时

  • 级别3(每次都进行create/drop)
    每次都对监视表格进行更新及创建和删除。通过SQL语句,对最大为10位的数值数据进行写入和读入操作。对监视表格执行的SQL语句为( create / insert / select / drop )。

    作为监视结果,如果出现以下情况则视为异常。

    1. 数据库连接或SQL语句响应中通知异常时

    2. 写入和读入的数据不一致时

4.28.3. 监视(固有)标签页

监视级别

从以下选项中选择一项。请务必进行设置。

  • 级别1(在select中的监视)
    该监视只对监视表格进行参照。对监视表格执行的SQL语句为(select )。
  • 级别2(在update/select中的监视)
    该监视还对监视表格进行更新。对监视表格执行的SQL语句为(update / select )。
    开始监视时,自动生成监视表的情况下,对监视表执行的SQL语句为( create / insert )。
  • 级别3(每次都进行create/drop)
    每次都对监视表格进行更新及创建和删除。对监视表格执行的SQL语句为(create / insert / select / drop )。

默认值 : 级别2(在update/select中的监视)

数据库名 (255字节以内)

设置要监视的数据库名。请务必设置。

默认值 : 无

IP地址 (79字节以内)

设置连接服务器的IP地址。请务必设置。

由于一般情况下连接到在自身服务器中运行的MySQL服务器上,因此设置回环地址(127.0.0.1)。但对在虚拟机资源控制的虚拟机的客户机OS上运行的MySQL数据库进行监视时,设置虚拟机的IP地址。

默认值 : 127.0.0.1

端口号 (1~65535)

设置连接时的端口号。请务必设置。

默认值 : 3306

用户名 (255字节以内)

设置登录数据库时使用的用户名。请务必设置。

请设置可以访问指定数据库的MySQL用户。

默认值 : 无

密码 (255字节以内)

设置登录数据库时使用的密码。

默认值 : 无

监视表名 (255字节以内)

设置在数据库上创建的用于监视的表名。请务必设置。

因为该表需要创建和删除,请注意不要与业务用表重名。另外,还需要注意不要与SQL语句的保留字重复。

根据数据库的式样,监视的表名有不能设置的字符。详细请确认数据库的式样。

默认值 : mysqlwatch

存储引擎

设置MySQL的存储引擎。请务必设置。

默认值 : InnoDB

Lib路径 (1023字节以内)

设置MySQL的主页路径。请务必设置。

默认值 : /usr/lib64/mysql/libmysqlclient.so.20

4.29. 理解NFS监视资源

NFS监视资源是监视在服务器上运行的NFS的数据库的监视资源。

4.29.1. NFS 监视资源的运行环境

要使用NFS监视资源,需要启动以下的服务。

<Red Hat Enterprise Linux 6,7时>

  • nfs

  • rpcbind

  • nfslock (NFS v4不需要)

4.29.2. NFS监视资源的注意事项

有关运行确认完毕的NFS版本请参考《开始指南》的"EXPRESSCLUSTER的运行环境" - "软件" - "运行确认完毕的监视选项应用程序信息"。

有关监视的共享目录,为了可以从自身服务器连接请设置exports文件。

在对虚拟机资源进行控制的虚拟机的客户机OS上运行的NFS的文件服务器进行监视时,请指定虚拟机资源为监视的对象资源,将虚拟机资源启动后到NFS的文件服务器能够连接为止的足够长的等待时间设置成[监视开始等待时间]。

查出由[监视(固有)]标签页-[NFS版本]指定的版本的nfsd或nfsd相对应的mountd消失时,判定为异常。Nfsd相对应的mountd如下所示:

nfsd版本

mountd版本

v2(udp)

v1(tcp)或v2(tcp)

v3(udp)

v3(tcp)

v4(tcp)

-

4.29.3. NFS监视资源的监视方法

NFS监视资源进行以下监视。

连接NFS服务器,执行[NFS]测试命令。

作为监视结果,如果出现以下情况则视为异常。

  1. 对NFS服务的要求的应答结果异常时

  2. mountd 消失时(除NFS v4之外)

  3. nfsd 消失时

  4. rpcbind 服务停止时

  5. export空间消失时(除NFS v4之外)

4.29.4. 监视(固有)标签页

共享目录 (1023字节以内)

设置文件共享目录。请务必设置。

默认值 : 无

NFS服务器 (255字节以内)

设置进行NFS监视的服务器的IP地址。请务必设置。

一般情况下会连接到在自身服务器中运行的NFS的文件服务器上,因此设置回环地址(127.0.0.1)。但对在由虚拟机资源控制的虚拟机的客户机OS上运行的NFS的文件服务器进行监视时,设置虚拟机的IP地址。

默认值 : 127.0.0.1

NFS版本

从选择项中选择一个执行NFS监视的NFS版本。请务必设定。

RHEL 7不支持NFS版本v2。

  • v2
    监视NFS版本v2。
  • v3
    监视NFS版本v3。
  • v4
    监视NFS版本v4。

默认值:v4

4.30. 理解ODBC 监视资源

ODBC监视资源用于监视服务器上运行的ODBC数据库。

4.30.1. ODBC监视资源的注意事项

因为监视处理使用unixODBC驱动程序,所以需要事先安装要监视的数据库的ODBC驱动并在odbc.ini设定数据源。

在通过虚拟机资源进行控制的虚拟机的客户机OS上对运行的数据库进行监视时,请指定虚拟机资源为监视的对象资源,将虚拟机资源启动后到数据库能够连接为止的足够长的等待时间设置成[监视开始等待时间]。

参数指定值和进行监视的数据库环境不同时,请根据Cluster WebUI的Alert 日志中显示错误信息确认环境。

关于下一节"ODBC监视资源的监视方法"中说明的监视级别的内容,请注意以下几点。
在"级别1"中开始监视时,若无监视表,则置于监视错误。请创建以下监视表。
在"级别2"中开始监视时,若无监视表,则EXPRESSCLUSTER自动生成监视表。此时,在Cluster WebUI的Alert 日志上显示无监视表的消息。
在"级别3"中的监视执行每次监视表的生成·删除,因此,监视负载高于"级别1"和"级别2"

选择的监视级别

事先创建监视表格

级别1(在select中的监视)

有必要

级别2(在update/select中的监视)

无必要

级别3(每次都进行create/drop)

无必要

可按以下步骤创建监视表格。
监视表格名可指定英数字,一部分记号(下划线等)。
(以下是监视表格名为odbcwatch时)
sql> create table odbcwatch (num int not null primary key);
sql> insert into odbcwatch values(0);
sql> commit;
使用EXPRESSCLUSTER的命令时
作为前提条件,需要完成监视资源设置。
clp_odbcw --createtable -n <ODBC监视资源名>
手动删除创建的监视表格时,请执行以下命令:
clp_ odbcw --deletetable -n <ODBC监视资源名>

4.30.2. ODBC监视资源的监视方法

ODBC监视资源按从以下监视级别中选择的级别进行监视。

  • 级别1(在select中的监视)
    该监视只对监视表格进行参照。对监视表格执行的SQL语句为(select )。

    作为监视结果,如果出现以下情况则视为异常。

    1.数据库连接或SQL语句响应中通知异常时

  • 级别2(在update/select中的监视)
    该监视还对监视表格进行更新。通过SQL语句,对最大为10位的数值数据进行写入和读入操作。对监视表格执行的SQL语句为(update / select )。
    开始监视时,自动生成监视表的情况下,对监视表执行的SQL语句为( create / insert )。

    作为监视结果,如果出现以下情况则视为异常。

    1. 数据库连接或SQL语句响应中通知异常时

    2. 写入和读入的数据不一致时

  • 级别3(每次都进行create/drop)
    每次都对监视表格进行更新及创建和删除。通过SQL语句,对最大为10位的数值数据进行写入和读入操作。对监视表格执行的SQL语句为( create / insert / select / drop )。

    作为监视结果,如果出现以下情况则视为异常。

    1. 数据库连接或SQL语句响应中通知异常时

    2. 写入和读入的数据不一致时

4.30.3. 监视(固有)标签页

监视级别

从以下选项中选择一项。请务必进行设置。

  • 级别1(在select中的监视)
    该监视只对监视表格进行参照。对监视表格执行的SQL语句为(select )。
  • 级别2(在update/select中的监视)
    该监视还对监视表格进行更新。对监视表格执行的SQL语句为(update / select )。
    开始监视时,自动生成监视表的情况下,对监视表执行的SQL语句为( create / insert )。
  • 级别3(每次都进行create/drop)
    每次都对监视表格进行更新及创建和删除。对监视表格执行的SQL语句为(create / insert / select / drop )。

默认值 : 级别2(在update/select中的监视)

数据库名 (255字节以内)

设置要监视的数据库名。请务必设置。

默认值 : 无

用户名 (255字节以内)

指定登录数据库时使用的用户名。如果在odbc.ini中已经设置用户名,则不需要指定。

默认值:无

密码 (255字节以内)

指定登录数据库时使用的密码。

默认值:无

监视表名 (255字节以内)

设置在数据库上创建的用于监视的表名。请务必设置。

因为该表需要创建和删除,请注意不要与业务用表重名。另外,还需要注意不要与SQL语句的保留字重复。
根据数据库的式样,监视的表名有不能设置的字符。详细请确认数据库的式样。

默认值:odbcwatch

消息字符编码

设置数据库的消息字符编码。

默认值:UTF-8

4.31. 理解Oracle监视资源

Oracle监视资源用来监视服务器上运行的Oracle数据库。

4.31.1. Oracle监视资源的注意事项

有关运行确认完毕的Oracle版本,请参考《开始指南》的"EXPRESSCLUSTER的运行环境" - "软件" - "运行确认完毕的监视选项应用程序信息"。

本监视资源利用Oracle的接口(Oracle Call Interface),进行Oracle的监视。因此,必须在进行监视的服务器上安装用于接口的库(libclntsh.so)。

在对由虚拟机资源进行控制的虚拟机的客户机OS上运行的Oracle数据库进行监视时,请指定虚拟机资源为监视的对象资源,将虚拟机资源启动后到Oracle数据库能够连接为止的足够长的等待时间设置成[监视开始等待时间]。此外,这种情况下需要在运行监视资源的主机OS侧安装Oracle客户端,设置连接字符串,从而连接到虚拟机上的Oracle数据库。

若Oracle监视资源连接Oracle的过程中,达到设定超时时间的90%左右后仍未连接,则查出连接超时。

通过参数指定的连接字符串/用户名/密码等的值和进行监视的Oracle环境不同时,不能进行Oracle监视。请根据各错误信息确认环境。

指定为参数用户名的用户默认为sys,但另外创建用于监视的用户时,在各监视级别上需授予以下访问权限。(不授予sysdba权限时)

监视级别

需要的权限

级别0(数据库状态)

V$INSTANCE的SELECT权限

级别1(通过select监视)

监视表的SELECT权限

级别2(通过update/select监视)

CREATE TABLE/DROP ANY TABLE/监视表的INSERT权限/监视表的UPDATE权限/监视表的SELECT权限

级别3(每次执行create/drop)

CREATE TABLE/DROP ANY TABLE/监视表的INSERT权限/监视表的UPDATE权限/监视表的SELECT权限

管理者用户的认证方式仅是在初始化参数文件中将REMOTE_LOGIN_PASSWORDFILE指定为NONE的OS认证的情况下,请指定用户名参数为没有SYSDBA权限的数据库用户名。
指定具有SYSDBA权限的数据库用户时,本监视资源启动时会出错,不能进行监视。

用户名指定为 sys 时,可执行输出 Oracle 的监察日志。如果不想大量输出监察日志时,请指定为 sys 以外的用户名。

创建数据库时的字符集要符合OS中支持的字符集。

本监视资源的"字符编码"为Oracle发生错误消息时所用,请选择发生错误时EXPRESSCLUSTER Cluster WebUI的警报日志或OS的messages(syslog)中显示的语言。
而且,对于数据库连接时的错误(用户名不正确等),有时即使进行上述的对应也不能正确显示。
有关NLS参数,NLS_LANG设置,详细内容,请参考Oracle公司的手册"Globalization Support Guide"。

"字符编码"的设置不影响Oracle自身的运行。

EXPRESSCLUSTER向OS的messages(syslog)登录1字节以外(ANK字符除外)的字符时,通常以EUC编码登录。因此,根据使用的Distribution不同,非EUC的messages(syslog)字符编码可执行会出现乱码,无法正确显示。
(Cluster WebUI的警报日志并没有问题。)
为防止出现乱码,请选择将"字符编码"设为AMERICAN_AMERICA.US7ASCII或AMERICAN_AMERICA.UTF8(使用ANK字符的语言)。

设置示例:

  • 希望用日语表示时
    请选择以JAPANESE_JAPAN开始的字符集。
  • 希望用英语表示时
    请选择以AMERICAN_AMERICA开始的字符集。
关于下一节"Oracle监视资源的监视方法"中说明的监视级别的内容,请注意以下几点。
在"级别1"中开始监视时,若无监视表,则置于监视错误。请创建以下监视表。
在"级别2"中开始监视时,若无监视表,则EXPRESSCLUSTER自动生成监视表。此时,在Cluster WebUI的警告日志上显示无监视表的消息。
在"级别3"的监视每次都执行监视表的生成・删除,因此,监视负荷高于"级别1"和"级别2"。又因为Oracle的资源使用量持续增加,所以除了定期重启Oracle实例的运用外,不建议设置"级别3"的监视。

选择的监视级别

事先创建监视表格

级别0(数据库状态)

无必要

级别1(在select中的监视)

有必要

级别2(在update/select中的监视)

无必要

级别3(每次都进行create/drop)

无必要

可按以下步骤创建监视表格。

使用SQL语句创建时(以监视表格名为orawatch时为例)
sql> create table orawatch (num number(11,0) primary key);
sql> insert into orawatch values(0);
sql> commit;

※请创建指定为参数用户名的用户架构。

利用EXPRESSCLUSTER的命令时
作为前提条件,需要完成监视资源设置。
clp_oraclew --createtable -n <Oracle监视资源名>
※在参数的用户名中指定的用户是sys以外没有授予sysdba权限的用户时,需要CREATE TABLE权限。
手动删除作成的监视表格,请执行以下命令:
clp_oraclew --deletetable -n <Oracle监视资源名>

4.31.2. Oracle监视资源的监视方法

Oracle监视资源按从以下监视级别中选择的级别进行监视。

  • 级别0(数据库状态)
    参考Oracle的管理表格(V$INSTANCE表格),确认DB的状态(实例的状态)。该监视为简单监视,不对监视表格执行SQL语句。

    作为监视结果,如果出现以下情况则视为异常。

    1. Oracle 的管理表( V$INSTANCE 表)的状态( status )为未启动状态( MOUNTED,STARTED )时

    2. Oracle 的管理表( V$INSTANCE 表)的数据库状态( database_status )为未启动状态( SUSPENDED,INSTANCE RECOVERY )时

  • 级别1(在select中的监视)
    该监视只对监视表格进行参照。对监视表格执行的SQL语句为(select )。

    作为监视结果,如果出现以下情况则视为异常。

    1. 数据库连接或SQL语句响应中通知异常时

  • 级别2(在update/select中的监视)
    该监视还对监视表格进行更新。通过SQL语句,对最大为5位的数值数据进行写入和读入操作。对监视表格执行的SQL语句为(update / select )。
    开始监视时,自动生成监视表的情况下,对监视表执行的SQL语句为( create / insert )。

    作为监视结果,如果出现以下情况则视为异常。

    1. 数据库连接或SQL语句响应中通知异常时

    2. 写入和读入的数据不一致时

  • 级别3(每次都进行create/drop)
    每次都对监视表格进行更新及创建和删除。通过SQL语句,对最大为5位的数值数据进行写入和读入操作。对监视表格执行的SQL语句为(create / insert / select / drop )。

    作为监视结果,如果出现以下情况则视为异常。

    1. 数据库连接或SQL语句响应中通知异常时

    2. 写入和读入的数据不一致时

4.31.3. 监视(固有)标签

监视方法

选择作为监视对象的Oracle功能。

  • 监视监听器和实例(默认值)
    按照设置的监视级别,监视数据库的连接,参照及更新等操作。
  • 只监视监听器
    执行Oracle的命令(tnsping),监视监听器是否在运行。需在监视资源属性中预先设置ORACLE_HOME。

    若没有设置ORACLE_HOME,则只对指定为连接字符串的目标进行连接处理动作的监视。在连接异常时,利用重启监听器的服务来尝试复原时使用。

    若选择本设置,则会忽略监视级别的设置。

  • 只监视实例
    不经过监听器而直接连接(BEQ连接)数据库,按照设置的监视级别,监视数据库的连接,参照,更新等操作。需在监视资源属性中预先设置ORACLE_HOME。本方法用于不经过监听器而直接监视实例来设置复归操作。

    监视对象为Oracle12c的多租户架构(Multitenancy)的数据库时,则不能进行通过BEQ连接的监视。

    若没有设置ORACLEHOME,则会连接指定为连接字符串的目标,当连接处理异常时选择忽略。本方法可与[只监视监听器]方法中的Oracle监视资源并用,可以对连接处理以外的异常进行的复原动作进行设置。

监视级别

从以下选项中选择一项。监视方式为"只监视监听器"时,会忽略本设置。

  • 级别0(数据库状态)
    参考Oracle的管理表格(V$INSTANCE表格),确认DB的状态(实例的状态)。该监视为简单监视。
  • 级别1(在select中的监视)
    该监视只对监视表格进行参照。对监视表格执行的SQL语句为(select )。
  • 级别2(在update/select中的监视)
    该监视还对监视表格进行更新。对监视表格执行的SQL语句为(update / select )。
    开始监视时,自动生成监视表的情况下,对监视表执行的SQL语句为( create / insert )。
  • 级别3(每次都进行create/drop)
    每次都对监视表格进行更新及创建和删除。对监视表格执行的SQL语句为(create / insert / select / drop )。

默认值 :级别2(在update/select中的监视)

连接字符串 (255字节以内)

设置要监视的数据库的连接字符串。请务必设置。

监视方式为"只监视实例"时,设置ORACLE_SID。

监视方式

ORACLE_HOME

连接字符串

监视级别

监视监听器和实例

不输入

指定连接字符串

按设置的级别监视

只监视监听器

已输入时,使用Oracle的命令监视

指定连接字符串

按设置的级别监视

未输入时,确认经由监听器的实例连接

指定连接字符串

忽略级别设置

只监视实例

已输入时,通过BEQ连接确认实例

指定ORACLE_SID

按设置的级别监视

未输入时,确认经由监听器的实例

指定连接字符串

按设置的级别监视

默认值 :无连接字符串的默认值

用户名 (255字节以内)

指定登录数据库时使用的用户名。请务必设置。

请指定可以访问指定数据库的Oracle用户。

默认值 : sys

密码 (255字节以内)

设置登录数据库时使用的密码。

默认值 :无

认证方式

设置数据库认证方式。

默认值 : SYSDBA

监视表名 (255字节以内)

设置在数据库上创建的用于监视的表名。请务必设置。

因为该表需要创建和删除,请注意不要与业务用表重名。另外,还需要注意不要与SQL语句的保留字重复。

根据数据库的式样,监视的表名有不能设置的字符。详细请确认数据库的式样。

默认值 : orawatch

ORACLE_HOME (255字节以内)

指定ORACLE_HOME设置的路径名。需要设置为[/]开头的名字。当监视方式为"只监视监听器","只监视实例"时使用。

默认值 : 无

字符编码

设置Oracle的字符集。请务必设置。

默认值 : SIMPLIFIED CHINESE_CHINA.ZHS16CGB231280

Lib路径 (1023字节以内)

设置Oracle Call Interface(OCI)的库路径。请务必设置。

默认值 : /u01/app/oracle/product/12.2.0/dbhome_1/lib/libclntsh.so.12.1

发生故障时,采集应用程序的详细信息

本功能设为有效的情况下,Oracle监视资源检出异常时,Oracle的详细信息将被采集。详细信息最多采集5次。采集的详细信息,将保存到opt/nec/clusterpro/work/rm/"监视资源名"/errinfo.cur 文件的目录下。如果执行多次采集时,过去的采集信息的文件名将被命名为 errinfo.1, errinfo.2。采集的详细信息的次数最多为5次。

注解

在采集过程中,如果发生由集群停止所导致的Oracle服务的终止,有可执行无法采集到正确的信息。

默认值 : 无效

收集操作超时

设置收集详细信息时的超时时间。

默认值 : 600

Oracle启动中或关闭中判定为监视错误

本功能有效时,查出Oracle初始化中或关闭中的状态,则立即判定为监视错误。
与Oracle Clusterware等联动运行中自动重启Oracle时,请关闭此功能。即使Oracle初始化中或关闭中的状态也判定为监视正常。
但是,持续一个小时以上的Oracle初始化中或关闭中的状态时,则判定为监视错误。

默认值:无效

4.32. 理解Oracle Clusterware 同步管理监视资源

那个不能被使用。

4.33. 理解POP3监视资源

POP3监视资源用来监视服务器上运行的POP3服务。它监视POP3协议,而不是监视特定的应用程序。因此,可以用来监视实现了POP3协议的各种应用程序。

4.33.1. POP3监视资源的注意事项

请在监视对象资源中指定启动POP3的exec资源等。在启动对象资源后开始监视。但如果对象资源启动后POP3不能立即运行或其他情况下,请通过[监视开始等待时间]进行调整。

在对由虚拟机资源进行控制的虚拟机的客户机OS上运行的POP3服务器进行监视时,请指定虚拟机资源为监视的对象资源,将虚拟机资源启动后到POP3服务器能够连接为止的足够长的等待时间设置成[监视开始等待时间]。

针对每个监视动作,POP3服务本身会输出运行日志等,请通过POP3侧的设置进行适当控制。

4.33.2. POP3监视资源的监视方法

POP3监视资源进行以下监视。

与POP3服务器连接,执行运行确认命令。

作为监视结果,如果出现以下情况则视为异常。

  1. 连接POP3服务器失败

  2. 对命令的响应中通知有异常

4.33.3. 监视(固有)标签页

IP地址 (79字节内)

设置监视的POP3服务器的IP地址。请务必进行设置。双方向待机时,请指定FIP。

一般情况下连接到在自身服务器中工作的POP3服务器上,因此设置回环地址(127.0.0.1)。但在由于设置了POP3服务器而限制了能够连接的地址时,设置可连接的地址(浮动IP地址等)。此外,对在虚拟机资源中进行控制的虚拟机的客户机OS上工作的POP3服务器进行监视时,设置虚拟机的IP地址。

默认值 : 127.0.0.1

端口号 (1~65535)

设置监视的POP3的端口号。请务必进行设置。

默认值 : 110

用户名 (255字节以内)

设置登录POP3时的用户名。

默认值 : 无

密码 (255字节以内)

设置登录POP3时的密码。

默认值 : 无

认证方式

设置登录POP3时的认证方式。需要结合使用的POP3的设置。

  • APOP(默认值)
    使用[APOP]命令的加密认证方式。
  • USER/PASS
    使用[USER/PASS]命令的明文方式。

4.34. 理解PostgreSQL监视资源

PostgreSQL监视资源用来监视服务器上运行的PostgreSQL数据库。

4.34.1. PostgreSQL监视资源的注意事项

有关运行确认完毕的PostgreSQL版本,请参考《开始指南》的"EXPRESSCLUSTER的运行环境" - "软件" - "运行确认完毕的监视选项应用程序信息"。

本监视资源利用PostgreSQL的libpq库,进行PostgreSQL的监视。
本监视资源异常时,请把应用程序的库路径设置到存在PostgreSQL的libpq库路径中。

在对由虚拟机资源进行控制的虚拟机的客户机OS上运行的PostgreSQL数据库进行监视时,请指定虚拟机资源为监视的对象资源,将虚拟机资源启动后到PostgreSQL数据库能够连接为止的足够长的等待时间设置成[监视开始等待时间]。

参数指定值和进行监视的PostgreSQL环境不同时,请根据Cluster WebUI的Alert 日志中显示错误信息确认环境。

有关客户端认证,本监视资源已运行确认可以在pg_hba.conf文件中设置以下认证方式。
trust,md5,password
使用本监视资源,向PostgreSQL 侧的日志输出以下的消息。这是由于监视处理而输出的消息,没有问题。
YYYY-MM-DD hh:mm:ss JST moodle moodle LOG: statement: DROP TABLE psqlwatch
YYYY-MM-DD hh:mm:ss JST moodle moodle ERROR: table "psqlwatch" does not exist
YYYY-MM-DD hh:mm:ss JST moodle moodle STATEMENT: DROP TABLE psqlwatch
YYYY-MM-DD hh:mm:ss JST moodle moodle LOG: statement: CREATE TABLE psqlwatch (num INTEGER NOT NULL PRIMARY KEY)
YYYY-MM-DD hh:mm:ss JST moodle moodle NOTICE: CREATE TABLE / PRIMARY KEY will create implicit index "psqlwatch_pkey" for table "psql watch"
YYYY-MM-DD hh:mm:ss JST moodle moodle LOG: statement: DROP TABLE psqlwatch
关于下一节"PostgreSQL监视资源的监视方法"中说明的监视级别的内容,请注意以下几点。
在"级别1"中开始监视时,若无监视表,则置于监视错误。请创建以下监视表。
在"级别2"中开始监视时,若无监视表,则EXPRESSCLUSTER自动生成监视表。此时,在Cluster WebUI的Alert 日志上显示无监视表的消息。
在"级别3"中的监视执行每次监视表的生成·删除,因此,监视负载高于"级别1"和"级别2"

选择的监视级别

事先创建监视表格

级别1(在select中的监视)

有必要

级别2(在update/select中的监视)

无必要

级别3(每次都进行create/drop)

无必要

可按以下步骤创建监视表格。

使用SQL语句生成时(以监视表格名为psqlwatch时为例)
sql> CREATE TABLE psqlwatch ( num INTEGER NOT NULL PRIMARY KEY);
sql> INSERT INTO psqlwatch VALUES(0) ;
sql> COMMIT;
使用EXPRESSCLUSTER的命令时
作为前提条件,需要完成监视资源设置。
clp_psqlw --createtable -n <PostgreSQL监视资源名>
手动删除创建的监视表格时,请执行以下命令:
clp_psqlw --deletetable -n <PostgreSQL监视资源名>

4.34.2. PostgreSQL监视资源的监视方法

PostgreSQL监视资源按从以下监视级别中选择的级别进行监视。

  • 级别1(在select中的监视)
    该监视只对监视表格进行参照。对监视表格执行的SQL语句为(select )。

    作为监视结果,如果出现以下情况则视为异常。

    1. 数据库连接或SQL语句响应中通知异常时

  • 级别2(在update/select中的监视)
    该监视还对监视表格进行更新。通过SQL语句,对最大为10位的数值数据进行写入和读入操作。对监视表格执行的SQL语句为(update / select / reindex / vacuum)。
    开始监视时,自动生成监视表的情况下,对监视表执行的SQL语句为( create / insert )。

    作为监视结果,如果出现以下情况则视为异常。

    1. 数据库连接或SQL语句响应中通知异常时

    2. 写入和读入的数据不一致时

  • 级别3(每次都进行create/drop)
    每次都对监视表格进行更新及创建和删除。通过SQL语句,对最大为10位的数值数据进行写入和读入操作。对监视表格执行的SQL语句为(create / insert / select / reindex / drop / vacuum)。

    作为监视结果,如果出现以下情况则视为异常。

    1. 数据库连接或SQL语句响应中通知异常时

    2. 写入和读入的数据不一致时

4.34.3. 监视(固有)标签页

监视级别

从以下选项中选择一项。请务必进行设置。

  • 级别1(在select中的监视)
    该监视只对监视表格进行参照。对监视表格执行的SQL语句为(select )。
  • 级别2(在update/select中的监视)
    该监视还对监视表格进行更新。对监视表格执行的SQL语句为(update / select / reindex / vacuum )。
    开始监视时,自动生成监视表的情况下,对监视表执行的SQL语句为( create / insert )。
  • 级别3(每次都进行create / drop / vacuum)
    每次都对监视表格进行更新及创建和删除。对监视表格执行的SQL语句为(create / insert / select / reindex/ drop / vacuum)。

默认值 :级别2(在update/select中的监视)

数据库名 (255字节以内)

设置要监视的数据库名。请务必设置。

默认值 : 无

IP地址 (79字节以内)

设置连接服务器的IP地址。请务必设置。

一般情况下连接到在自身服务器中工作的PostgreSQL服务器上,因此设置回环地址(127.0.0.1)。但对在虚拟机资源控制的虚拟机的客户机OS上运行的PostgreSQL数据库进行监视时,设置虚拟机的IP地址。

默认值 : 127.0.0.1

端口号 (1~65535)

设置连接时的端口号。请务必设置。

默认值 : 5432

用户名 (255字节以内)

设置登录数据库时使用的用户名。请务必设置。

请设置可以访问指定数据库的PostgreSQL用户。

默认值 : postgres

密码 (255字节以内)

设置登录数据库时使用的密码。

默认值 : 无

监视表名 (255字节以内)

设置在数据库上创建的用于监视的表名。请务必设置。

因为该表需要创建和删除,请注意不要与业务用表重名。另外,还需要注意不要与SQL语句的保留字重复。
根据数据库的式样,监视的表名有不能设置的字符。详细请确认数据库的式样。

默认值 : psqlwatch

Lib路径 (1023字节以内)

设置PostgreSQL的库路径。请务必设置。

默认值 : /opt/PostgreSQL/10/lib/libpq.so.5.10

PostgreSQL初始化或关闭时当作错误

将本功能设为有效时,若检测出PostgreSQL 的初始化中或关机中的状态,则马上变为监视错误。

将本功能设为无效时,即使处于PostgreSQL的初始化中或关机中的状态也能变为监视正常。

但是若持续保持PostgreSQL的初始化中或关机中的状态超过1个小时以上,则变为监视错误。

默认值 : 有效

4.35. 理解Samba监视资源

Samba监视资源是监视在服务器上运行的Samba数据库的监视资源。

4.35.1. Samba监视资源的注意事项

有关运行确认完毕的Samba版本请参考《开始指南》的"EXPRESSCLUSTER的运行环境" - "软件" - "运行确认完毕的监视选项应用程序信息"。

本监视资源异常时,可执行参数的设置值和Samba环境不一致,请确认环境。

有关监视共享名,请将smb.conf设置为可以从自身服务器连接。另外,smb.conf文件的security参数为share时,请将guest connection设置为有效。

不监视有关文件共享,打印机共享以外的Samba功能。

在对由虚拟机资源进行控制的虚拟机的客户机OS上运行的samba的文件服务器进行监视时,请指定虚拟机资源为监视的对象资源,将虚拟机资源启动后到samba的文件服务器能够连接为止的足够长的等待时间设置成[监视开始等待时间]。

Samba的认证模式为Domain或Server时,在监视服务器上执行smbmount,有时因本监视资源的参数指定的用户名而被mount。

4.35.2. Samba监视资源的监视方法

Samba监视资源使用内部版本4.1.0-1的共享库libsmbclient.so.0。

Samba监视资源进行以下监视。

连接到Samba服务器,确认对Samba服务器的资源的tree connection的建立。

作为监视结果,如果出现以下情况则视为异常。

  1. 对于Samba服务的要求的应答内容不正确时

4.35.3. 监视(固有)标签页

共享名 (255字节以内)

设置进行监视的Samba服务器的共享名。请务必设置。

默认值 : 无

IP地址 (79字节以内)

设置Samba服务器的IP地址。请务必设置。

一般情况下会连接到在自身服务器中运行的samba的文件服务器上,因此设置回环地址(127.0.0.1)。但对在虚拟机资源控制的虚拟机的客户机OS上运行的samba的文件服务器进行监视时,设置虚拟机的IP地址。

默认值 : 127.0.0.1

端口号 (1~65535)

设置Samba daemon使用的端口号。请务必设置。Libsmbclient的版本为3以下时,(例.RHEL6中捆绑的libsmbclient.so),[端口号]只能指定为139或者445。smb.conf 的 smb ports请指定相同的值。

默认值 : 139

用户名 (255字节以内)

设置登录Samba服务时的用户名。请务必设置。

默认值 : 无

密码 (255字节以内)

设置登录Samba服务时的密码。

默认值 : 无

4.36. 理解SMTP监视资源

SMTP监视资源是监视在服务器上运行的SMTP Daemon进程的监视资源。

4.36.1. SMTP监视资源的注意事项

有关运行确认完毕的SMTP版本请参考《开始指南》的"EXPRESSCLUSTER的运行环境" - "软件" - "运行确认完毕的监视选项应用程序信息"。

平均负载超过sendmail.def文件中设置的RefuseLA值时的状态持续一定时间,本监视资源视为异常,进行失效切换。

在对虚拟机资源进行控制的虚拟机的客户机OS上运行的SMTP服务器进行监视时,请指定虚拟机资源为监视的对象资源,将虚拟机资源启动后到SMTP服务器能够连接为止的足够长的等待时间设置成[监视开始等待时间]。

4.36.2. SMTP监视资源的监视方法

SMTP监视资源进行以下监视。

连接到网络服务器上的SMTP daemon,通过[NOOP]命令,执行SMTP daemon监视。

作为监视结果,如果出现以下情况则视为异常。

  1. SMTP daemon的连接或[NOOP]命令的响应中通知异常时

4.36.3. 监视(固有)标签页

IP地址 (79字节以内)

设置监视的SMTP服务器的IP地址。请务必设置。

一般情况下连接到在自身服务器中运行的SMTP服务器上,因此设置回环地址(127.0.0.1)。但对在由虚拟机资源控制的虚拟机的客户机OS上运行的SMTP数据库进行监视时,设置虚拟设备的IP地址。

默认值 : 127.0.0.1

端口号 (1~65535)

设置连接SMTP服务器时的端口号。请务必设置。

默认值 : 25

4.37. 理解SQL Server 监视资源

SQL Server监视资源用来监视服务器上运行的SQLServer数据库。

4.37.1. SQL Server 监视资源的注意事项

有关运行确认完毕的SQL Server版本,请参考《开始指南》的"EXPRESSCLUSTER的运行环境" - "软件" - "运行确认完毕的监视选项应用程序信息"。

本监视资源使用Microsoft ODBC Driver for SQL Server监视SQL Server。

参数指定值和进行监视的SQL Server数据库环境不同时,请根据Cluster WebUI的Alert 日志中显示错误信息确认环境。

关于下一节"SQL Server监视资源的监视方法"中说明的监视级别的内容,请注意以下几点。
在"级别1"中开始监视时,若无监视表,则置于监视错误。请创建以下监视表。
在"级别2"中开始监视时,若无监视表,则EXPRESSCLUSTER自动生成监视表。此时,在Cluster WebUI的Alert 日志上显示无监视表的消息。
在"级别3"中的监视执行每次监视表的生成·删除,因此,监视负载高于"级别1"和"级别2"

选择的监视级别

事先创建监视表格

级别0(数据库状态)

无必要

级别1(在select中的监视)

有必要

级别2(在update/select中的监视)

无必要

级别3(每次都进行create/drop)

无必要

可按以下步骤创建监视表格。

监视表格名可指定英数字,一部分记号(下划线等)。

使用SQL语句生成时(以监视表格名为sqlwatch时为例)

  • SET IMPLICIT_TRANSACTIONS是Off时

    sql> CREATE TABLE sqlwatch (num INT NOT NULL PRIMARY KEY)
    sql> GO
    sql> INSERT INTO sqlwatch VALUES(0)
    sql> GO
  • SET IMPLICIT_TRANSACTIONS是On时

    sql> CREATE TABLE sqlwatch (num INT NOT NULL PRIMARY KEY)
    sql> GO
    sql> INSERT INTO sqlwatch VALUES(0)
    sql> GO
    sql> COMMIT
    sql> GO
使用EXPRESSCLUSTER的命令时
作为前提条件,需要完成监视资源设置。
clp_sqlserverw --createtable -n <SQL Server监视资源名>
手动删除创建的监视表格时,请执行以下命令:
clp_sqlserverw --deletetable -n <SQL Server监视资源名>

4.37.2. SQL Server 监视资源的监视方法

SQL Server监视资源按从以下监视级别中选择的级别进行监视。

  • 级别0(数据库状态)
    参照SQL Server的管理表来确认DB的状态。对监视表格不执行SQL语句的简单监视。

    作为监视结果,如果出现以下情况则视为异常。

    1. 数据库的状态不在线时

  • 级别1(在select中的监视)
    该监视只对监视表格进行参照。对监视表格执行的SQL语句为(select )。

    作为监视结果,如果出现以下情况则视为异常。

    1. 数据库连接或SQL语句响应中通知异常时

  • 级别2(在update/select中的监视)
    该监视还对监视表格进行更新。通过SQL语句,对最大为10位的数值数据进行写入和读入操作。对监视表格执行的SQL语句为(update / select / reindex / vacuum)。
    开始监视时,自动生成监视表的情况下,对监视表执行的SQL语句为( create / insert )。

    作为监视结果,如果出现以下情况则视为异常。

    1. 数据库连接或SQL语句响应中通知异常时

    2. 写入和读入的数据不一致时

  • 级别3(每次都进行create/drop)
    每次都对监视表格进行更新及创建和删除。通过SQL语句,对最大为10位的数值数据进行写入和读入操作。对监视表格执行的SQL语句为(create / insert / select / reindex / drop / vacuum)。

    作为监视结果,如果出现以下情况则视为异常。

    1. 数据库连接或SQL语句响应中通知异常时

    2. 写入和读入的数据不一致时

4.37.3. 监视(固有)标签页

监视级别

从以下选项中选择一项。请务必进行设置。

  • 级别0(数据库状态)
    参照SQL Server的管理表来确认DB的状态。对监视表格不执行SQL语句的简单监视。
  • 级别1(在select中的监视)
    该监视只对监视表格进行参照。对监视表格执行的SQL语句为(select )。
  • 级别2(在update/select中的监视)
    该监视还对监视表格进行更新。对监视表格执行的SQL语句为(update / select / reindex / vacuum )。
    开始监视时,自动生成监视表的情况下,对监视表执行的SQL语句为( create / insert )。
  • 级别3(每次都进行create / drop / vacuum)
    每次都对监视表格进行更新及创建和删除。对监视表格执行的SQL语句为(create / insert / select / reindex/ drop / vacuum)。

默认值 :级别2(在update/select中的监视)

数据库名 (255字节以内)

设置要监视的数据库名。请务必设置。

默认值 : 无

服务器名 (255字节以内)

设置要监视的数据库的服务器名。请务必设置。

默认值 : localhost

用户名 (255字节以内)

设置登录数据库时使用的用户名。请务必设置。

请设置可以访问指定数据库的SQL Server用户。

默认值 : SA

密码 (255字节以内)

设置登录数据库时使用的密码。

默认值 : 无

监视表名 (255字节以内)

设置在数据库上创建的用于监视的表名。请务必设置。

因为该表需要创建和删除,请注意不要与业务用表重名。另外,还需要注意不要与SQL语句的保留字重复。

根据数据库的式样,监视的表名有不能设置的字符。详细请确认数据库的式样。

默认值 : sqlwatch

ODBC驱动名 (255字节以内)

设置SQL Server的ODBC驱动名。请务必设置。

默认值 : ODBC Driver 13 for SQL Server

4.38. 理解Sybase监视资源

Sybase监视资源是监视在服务器上运行的Sybase数据库的监视资源。

4.38.1. Sybase监视资源的注意事项

有关运行确认完毕的Sybase版本请参考《开始指南》的"EXPRESSCLUSTER的运行环境" - "软件" - "运行确认完毕的监视选项应用程序信息"。

本监视资源使用ASE的Open Client DB-Library/C,进行ASE监视。

参数指定值和进行监视的ASE环境不同时,请根据Cluster WebUI的Alert日志中显示错误信息确认环境。

关于下一节"Sybase监视资源的监视方法"中说明的监视级别的内容,请注意以下几点。
在"级别1"中开始监视时,若无监视表,则置于监视错误。请创建以下监视表。
在"级别2"中开始监视时,若无监视表,则EXPRESSCLUSTER自动生成监视表。此时,在Cluster WebUI的Alert日志上显示无监视表的消息。
在"级别3"中的监视执行每次监视表的生成·删除,因此,监视负载高于"级别1"和"级别2"

选择的监视级别

事先创建监视表格

级别0(数据库状态)

无必要

级别1(在select中的监视)

有必要

级别2(在update/select中的监视)

无必要

级别3(每次都进行create/drop)

无必要

可按以下步骤创建监视表格。

监视表格名可指定字母数字,一部分符号(下划线等)。

使用SQL语句生成时(以监视表格名为sybwatch时为例)
sql> CREATE TABLE sybwatch (num INT NOT NULL PRIMARY KEY)
sql> GO
sql> INSERT INTO sybwatch VALUES (0)
sql> GO
sql> COMMIT
sql> GO
使用EXPRESSCLUSTER的命令时
作为前提条件,需要完成监视资源设置。
clp_sybasew --createtable -n <Sybase监视资源名>
手动删除创建的监视表格时,请执行以下命令:
clp_sybasew --deletetable -n <Sybase监视资源名>

4.38.2. Sybase监视资源的监视方法

Sybase监视资源按从以下监视级别中选择的级别进行监视。

  • 级别0(数据库状态)
    参照Sybase的管理表格(sys.sysdatabases ),确认DB的状态。该监视为简单监视,不进行SQL语句的发行。

    作为监视结果,如果出现以下情况则视为异常。

    1. 数据库处于脱机等不可使用的状态时

  • 级别1(在select中的监视)
    该监视只对监视表格进行参照。对监视表格执行的SQL语句为(select )。

    作为监视结果,如果出现以下情况则视为异常。

    1. 数据库连接或SQL语句响应中通知异常时

  • 级别2(在update/select中的监视)
    该监视还对监视表格进行更新。通过SQL语句,对最大为10位的数值数据进行写入和读入操作。对监视表格执行的SQL语句为(update / select )。
    开始监视时,自动生成监视表的情况下,对监视表执行的SQL语句为( create / insert )。

    作为监视结果,如果出现以下情况则视为异常。

    1. 数据库连接或SQL语句响应中通知异常时

    2. 写入和读入的数据不一致时

  • 级别3(每次都进行create/drop)
    每次都对监视表格进行更新及创建和删除。通过SQL语句,对最大为10位的数值数据进行写入和读入操作。对监视表格执行的SQL语句为(create / insert / select / drop )。

    作为监视结果,如果出现以下情况则视为异常。

    1. 数据库连接或SQL语句响应中通知异常时

    2. 写入和读入的数据不一致时

4.38.3. 监视(固有)标签页

监视级别

从以下选项中选择一项。请务必进行设置。

  • 级别0(数据库状态)
    参照Sybase的管理表格( sys.sysdatabases ),确认DB的状态。该监视为简单监视,不进行SQL语句的发行。
  • 级别1(在select中的监视)
    该监视只对监视表格进行参照。对监视表格执行的SQL语句为(select )。
  • 级别2(在update/select中的监视)
    该监视还对监视表格进行更新。对监视表格执行的SQL语句为(update / select )。
    开始监视时,自动生成监视表的情况下,对监视表执行的SQL语句为( create / insert )。
  • 级别3(每次都进行create/drop)
    每次都对监视表格进行更新及创建和删除。对监视表格执行的SQL语句为(create / insert / select / drop )。

默认值 :级别2(在update/select中的监视)

数据库名 (255字节以内)

设置要监视的数据库名。请务必设置。

默认值 : 无

数据库服务器名 (255字节以内)

设置监视的数据库服务器名。请务必设置。

默认值 : 无

用户名 (255字节以内)

设置登录数据库时使用的用户名。请务必设置。

请设置可以访问指定数据库的PostgreSQL用户。

默认值 : sa

密码 (255字节以内)

设置登录数据库时使用的密码。

默认值 : 无

监视表名 (255字节以内)

设置在数据库上创建的用于监视的表名。请务必设置。

因为该表需要创建和删除,请注意不要与业务用表重名。另外,还需要注意不要与SQL语句的保留字重复。

根据数据库的式样,监视的表名有不能设置的字符。详细请确认数据库的式样。

默认值 : sybwatch

Lib路径 (1023字节以内)

设置Sybase的库路径。请务必设置。

默认值 : /opt/sap/OCS-16_0/lib/libsybdb64.so

4.39. 理解Tuxedo监视资源

Tuxedo监视资源是监视在服务器上运行的Tuxedo数据库的监视资源。

4.39.1. Tuxedo监视资源的注意事项

有关运行确认完毕的Tuxedo版本请参考《开始指南》的"EXPRESSCLUSTER的运行环境" - "软件" - "运行确认完毕的监视选项应用程序信息"。

如果不存在Tuxedo的库(libtux.so等),将不能进行监视。

4.39.2. Tuxedo监视资源的监视方法

Tuxedo监视资源进行以下监视。

利用Tuxedo的API,执行应用程序服务器监视。

作为监视结果,如果出现以下情况则视为异常。

  1. 连接应用程序服务器或对状态取得的应答中通知异常时

4.39.3. 监视(固有)标签页

应用服务器名 (255字节以内)

设置监视的应用程序服务器名。请务必设置。

默认值 : BBL

TUXCONFIG文件 (1023字节以内)

设置Tuxedo的配置文件名。请务必设置。

默认值 : 无

Lib路径 (1023字节以内)

设置Tuxedo的库路径。请务必设置。

默认值 : /home/Oracle/tuxedo/tuxedo12.1.3.0.0/lib/libtux.so

4.40. 理解Weblogic监视资源

Weblogic监视资源是监视在服务器上运行的WebLogic数据库的监视资源。

4.40.1. Weblogic监视资源的注意事项

有关运行确认完毕的WebLogic版本请参考《开始指南》的"EXPRESSCLUSTER的运行环境" - "软件" - "运行确认完毕的监视选项应用程序信息"。

在本监视资源中选择 [WLST] 为监视方式时,为了进行监视必须具备Java环境。因为应用程序服务器系统利用了Java的功能,有时发生Java的死机时也视为异常。

由于WebLogic启动时若无法立即运行则视作异常,请通过[监视开始等待时间]进行调整。或者请先启动WebLogic(例:在监视的对象资源上指定启动WebLogic的EXEC资源)。

在RHEL8 环境下,如果监视方法选择[REST API],请将协议设置为[HTTP]。

4.40.2. Weblogic监视资源的监视方法

Weblogic监视资源进行以下监视。

  • 监视方式:选择REST API 时

    WebLogic提供了称为WebLogic RESTful管理服务的REST API。

    通过此REST API执行应用程序服务器监视。

    作为监视结果,当以下应答通知异常时都视为异常。

    1. REST API 的应答中通知异常时

    注解

    监视方式:与WLST相比,可以减少监视时应用程序服务器的CPU负荷。

  • 监视方式:选择WLST时

    利用[weblogic.Admin]命令或[weblogic.WLST]命令执行connect,执行应用程序服务器监视。[weblogic.Admin]命令可执行时,执行[weblogic.Admin]命令。[weblogic.Admin]命令不可执行时,执行[weblogic.WLST]命令。

    作为监视结果,如果出现以下情况则视为异常。

    1. connect应答中通知异常时

    根据不同的[认证方式]执行以下的动作。

    • DemoTrust: 使用WebLogic的Demo用认证文件的SSL认证方式

    • CustomTrust: 使用用户做成的认证文件的SSL认证方式

    • Not Use SSL: 不执行SSL认证

4.40.3. 监视(固有)标签页

IP地址 (79字节以内)

设置监视的WebLogic服务器的IP地址。请务必设置。

默认值 : 127.0.0.1

端口号 (1~65535)

设置连接服务器时的端口号。请务必设置。

默认值 : 7002

监视方式

设置服务器的监视方式。请务必设置。

默认值 : REST API

协议

设置要监视的服务器的协议。[监视方式]中选择REST API时,请务必选择。

默认值 : HTTP

注解

请在RHEL8环境中设置HTTP。

用户名 (255字节以内)

设置WebLogic的用户名。[监视方式]中选择REST API时,请务必输入。

默认值 : weblogic

密码 (255字节以内)

设置WebLogic的密码。[监视方式]中选择REST API时,如有必要请输入。

默认值 : 无

账户隐藏

直接设置用户名和密码时为[关闭],记述到文件内时为[开]。请务必设置。

默认值 :关闭

配置文件 (1023字节以内)

设置保存用户信息的文件名。账户隐藏 [开]时,请务必设置。

默认值 : 无

注册文件 (1023字节以内)

将保存用于访问配置文件路径的密码的文件名以全路径设置。账户隐藏 为[开]时,请务必设置。

默认值 : 无

用户名 (255字节以内)

设置WebLogic的用户名。账户隐藏为 [关闭]时,请务必设置。

默认值 : weblogic

密码 (255字节以内)

设置WebLogic的密码。

默认值 : 无

认证方式

设置连接应用程序服务器时的认证方式。请务必设置。

想使用SSL通信进行监视时,请在[认证方式]里指定[DemoTrust]或[CustomTrust]。

根据Weblogic Administraion Console上的设置来选择[DemoTrust]或[CustomTrust]。

Weblogic Administraion Console的[Key store]为[Demo・Identity和Demo信赖]时,请指定[DemoTrust]。此时不要设定[Key store文件]。

Weblogic Administraion Console的[Key store]为[Custom・Identity和Custom信赖]时,请指定[CustomTrust]。此时必须设定[Key store文件]。

默认值 : DemoTrust

密钥文件 (1023字节以内)

设置SSL认证时的认证文件。认证方式为[CustomTrust]时,请务必设置。请设置Weblogic Administraion Console上的[Custom・Identity・Key store]设定的文件。

默认值 : 无

域环境文件 (1023字节以内)

设置WebLogic的域环境文件名。请务必设置。

默认值 :
/home/Oracle/product/Oracle_Home/user_projects/domains/base_domain/bin/setDomainEnv.sh

附加命令参数 (1023字节以内)

变更传递给"webLogic.WLST"命令的参数时设定。

默认值 : -Dwlst.offline.log=disable -Duser.language=en_US

4.41. 理解Websphere监视资源

Websphere监视资源是监视在服务器上运行的Websphere的监视资源。

4.41.1. Websphere监视资源的注意事项

有关运行确认完毕的Websphere版本请参考《开始指南》的"EXPRESSCLUSTER的运行环境" - "软件" - "运行确认完毕的监视选项应用程序信息"。

为了通过本监视资源进行监视,必须Java环境。因为应用程序服务器系统利用了Java的功能,有时发生Java的死机时也视为异常。

4.41.2. Websphere监视资源的监视方法

Websphere监视资源进行以下监视。

利用[Websphere的serverStatus.sh]命令,执行应用程序服务器的监视。

作为监视结果,如果出现以下情况则视为异常。

  1. 取得的应用程序服务器的状态中通知异常时

4.41.3. 监视(固定)标签页

应用服务器名 (255字节以内)

设置监视的应用程序服务器名。请务必设置。

默认值 :server1

配置文件名 (1023字节以内)

设置Websphere的概况文件名。请务必设置。

默认值 :default

用户名 (255字节以内)

设置Websphere的用户名。请务必设置。

默认值 : 无

密码 (255字节以内)

设置Websphere的密码。

默认值 : 无

安装路径 (1023字节以内)

设置Websphere的安装路径。请务必设置。

默认值 : /opt/IBM/WebSphere/AppServer

4.42. 理解WebOTX监视资源

WebOTX监视资源监视服务器上运行的WebOTX。

4.42.1. WebOTX监视资源的注意事项

有关运行确认完毕的WebOTX版本,请参考《开始指南》的"EXPRESSCLUSTER的运行环境" - "软件" - "运行确认完毕的监视选项应用程序信息"。

要通过本监视资源进行监视,需要Java环境。因为应用服务器系统使用Java的功能,所以发生Java安装等操作时,有时也会视为异常。

4.42.2. WebOTX监视资源的监视方法

WebOTX监视资源监视资源进行以下监视。

利用[WebOTX的otxadmin.sh]命令,对应用服务器进行监视。

作为监视结果,如果出现以下情况则视为异常。

  1. 获取的应用服务器的状态通知有异常

4.42.3. 监视(固定)标签页

连接目的端 (255字节以内)

设置监视的服务器的名称。请务必进行设置。

默认值 : localhost

端口号 (1~65535)

设置与服务器连接时的端口号。请务必进行设置。

监视WebOTX用户域时,请设置WebOTX域的管理端口号。管理端口号为创建域时<域名>.properties的domain.admin.port处设置的端口号。关于<域名>.properties 的详细请参考WebOTX的文档。

默认值 : 6212

用户名 (255字节以内)

设置WebOTX的用户名。请务必进行设置。

监视WebOTX用户域时,请设置WebOTX域的登录用户名。

默认值 :无

密码 (255字节以内)

设置WebOTX的密码。

默认值 : 无

安装路径 (1023字节以内)

设置WebOTX的安装路径。请务必进行设置。

默认值 : /opt/WebOTX

4.43. 理解JVM监视资源

JVM监视资源监视在服务器上操作的Java VM,或监视应用程序服务器使用的资源利用信息。

4.43.1. JVM监视资源的注意事项

创建JVM监视资源前,需要对集群属性中 [JVM监视]标签页中[Java安装路径]进行设定。

请指定WebLogic Server或WebOTX等在Java VM上操作的应用程序服务器作为监视对象的资源。虽然启动JVM监视资源后Java Resource Agent会开始监视,但当刚刚启动JVM监视资源后,监视对象(WebLogic Server或WebOTX)无法立即运行时,请调整[监视开始等待时间]。

JBoss监视不支持Java 9或更高版本。

4.43.2. JVM监视资源的监视方法

JVM监视资源进行以下监视。

利用JMX(Java Management Extensions),执行应用程序服务器的监视。

作为监视结果,如果出现以下情况则视为异常。

  • 无法连接监视对象的Java VM或应用程序服务器时

  • 获取的Java VM或应用程序服务器的资源使用量规定次数(异常判定次数)超出客户定义的界限值时

出现以下监视结果则视为恢复正常。

  • 重新开始复原操作后的监视时低于阈值时

注解

Cluster WebUI的[收集集群日志]不收集监视对象(WebLogic Server和WebOTX)的设置文件及日志文件。

图中显示的是通过JVM监视资源进行的监视操作。
在a)中开始监视作为监视对象的Java VM。使用JMX(Java Management Extensions)对Java VM进行监视。Java Resource Agent通过使用JMX定期获取用于Java VM的资源量来检查Java VM的状态。
当状态从正常变为异常时,在Cluster WebUI中显示在b)中查出的Java VM异常。可以确认状态和警报。此外,向syslog和JVM操作日志通知在c)中发生故障。使用警报服务时,还可以通过电子邮件进行报告。
a)之后,状态从异常变为正常时,在Cluster WebUI中显示在d)中查出Java VM已正常恢复。此外,向syslog和JVM操作日志通知在e)中已正常恢复。
_images/img_l_how-jvm-monitor-resources-perform-monitoring-10.png

图 4.72 通过JVM监视资源进行监视的流程

超过基本界限值时的操作如下。

图的水平轴显示时间,垂直轴显示是否已超过监视界限值(Exceeded/Not exceeded)。
在此,如果监视时超过界限值的状态持续超过异常判定界限值次数(图中为5次)以上,则判定为异常。
判断其处于异常状态后,后续采样如果连续低于异常判定界限值3次时,判断为其为恢复正常状态。
_images/img_how-jvm-monitor-resources-perform-monitoring-20.png

图 4.73 超过界限值时的操作

连续发生异常时情况如下

如果超过界限值的次数持续超过异常判定界限值的次数,则判断为异常状况。
判断其处于异常状态后,即使再一次持续超过异常判定界限值的次数,也不会在Cluster WebUI中再次显示警报。
_images/img_how-jvm-monitor-resources-perform-monitoring-30.png

图 4.74 连续发生异常时的动作

以监视Full GC(Garbage Collection)为例进行说明。

图中水平轴表示时间经过。 图的上面部分显示的是各监视时间中是否查出GC发生,下面部分显示在每个时间点连续多少次查出Full GC。 当异常判定界限值次数连续发生且Full GC发生,则JVM监视资源会检测到监视器异常。 由于异常判定界限值设置为5次,因此当查出Full GC达到5次时会检测到监视器异常。

Full GC对系统的影响很大,因此建议将异常判定界限值设为1次。

_images/img_how-jvm-monitor-resources-perform-monitoring-40.png

图 4.75 监视示例(设置异常判定界限值为5次时)

4.43.3. LB联动(存活侦测功能)

对象LB:HTML文件中带存活侦测功能的LB

JVM监视资源可进行LB联动。以下对监视对象的应用程序服务器为WebOTX时进行说明。LB联动可提供存活侦测功能及监视对象Java VM的负载计算功能。与BIG-IP Local Traffic Manager联动时,请参阅"BIG-IP Local Traffic Manager联动"。

均衡节点指负载均衡对象服务器,均衡节点模块指各均衡节点上安装的模块。均衡模块配置在InterSec/LB400*中。InterSec/LB400*时的LB,请参阅《InterSec/LB400*用户指南》,InterSec/LB400*以外时的LB,请参阅各手册。

若使用本功能,请在Cluster WebUI的[集群的属性]->[JVM监视标签页]->[LB联动设置对话框中设置]。与LB的存活侦测功能联动。

该服务器构筑LB的负载均衡系统时,若JVM监视资源检测出WebOTX的故障(例如:采集信息超过设置的界限值),则将[HTML文件名]中设置的HTML文件重命名为[HTML重命名目标文件名]中设置的文件名。

JVM监视资源对HTML文件名进行重命名后,等待20秒(待机时间)后重新启动WebOTX。待机是为了防止在LB断开均衡节点前重新启动WebOTX。

JVM监视资源在WebOTX重启后检测出WebOTX的正常状态时(例如:连接后的采集信息未超出设置的界限值),将[HTML重命名目标文件名]中设置的HTML文件改回[HTML文件名]中设置的文件名。

LB会定期对HTML文件执行存活侦测,但若存活侦测失败,则均衡节点判定为宕机,LB会将其断开。InterSec/LB400*时,存活侦测的间隔,存活侦测的超时,存活侦测中判定为节点宕机的重试次数,请分别从LB的[ManagementConsole]中[LoadBalancer]->[系统信息]内的存活侦测(均衡节点)间隔参数,HTTP存活侦测超时值参数,存活侦测(均衡节点)次数参数中进行设置。InterSec/LB400*以外的LB的设置,请参阅各使用说明书。

请参考以下提示设置各参数。

待机时间20秒>=(存活侦测(均衡节点)间隔+HTTP存活侦测超时值)×存活侦测(均衡节点)次数

  • 负载均衡器的JVM监视资源存活侦测功能设置

    • 存活侦测(均衡节点)间隔: 10秒

    • HTTP存活侦测超时值: 1秒

    • 存活侦测(均衡节点)次数: 2次

_images/img_linking-with-the-load-balancer-health-check-function-10.png

图 4.76 负载均衡器的JVM监视资源存活侦测功能

4.43.4. LB联动(监视对象Java VM的负载计算功能)

对象LB: InterSec/LB400*

JVM监视资源可进行LB联动。以下对监视对象的应用程序服务器为WebOTX时进行说明。LB联动可提供存活侦测功能及监视对象Java VM的负载计算功能。

与BIG-IP Local Traffic Manager联动时,请参阅"BIG-IP Local Traffic Manager联动"。

均衡节点指负载均衡对象服务器,均衡节点模块指各均衡节点上安装的模块。均衡模块配置在InterSec/LB400*中。InterSec/LB400*时的LB,请参阅《InterSec/LB400*用户指南》,InterSec/LB400*以外时的LB,请参阅各手册。

若使用本功能,请在监视器创建向导的监视(固有)标签页->调整属性[LB联动]对话框中进行设置。与通过LB的CPU负载进行重要性附加的功能联动。

  • [属性]-[监视(固有)]标签页->[调整]属性-[内存]对话框-[监视堆使用率]-[区域全体]

  • [属性]- [监视(固有)]标签页->[调整]属性-[LB联动]对话框-[监视内存Pool]

同时,按以下步骤,将均衡节点模块安装到各服务器后,执行LB联动用的安装命令clpjra_lbsetup.sh,对均衡节点模块进行设置。均衡节点模块的设置将写入/etc/ha4.d/lbadmin.conf。

注解

请以拥有root权限的账户执行。

  1. 执行[EXPRESSCLUSTER安装文件夹]/ha/jra/bin/clpjra_lbsetup.sh。参数如下所示。

    (执行示例)clpjra_lbsetup.sh -e 1 -i 120 -t 180

    参数

    含义

    范围

    -e

    指定本功能禁用/启用。
    lbadmin.conf中的参数名为Enabled。
    0~1
    0:禁用功能 1:启用功能

    -i

    以秒为单位,对计算监视对象Java VM负载的命令执行间隔进行指定。lbadmin.conf中的参数名为JVMSaverCheckInterval。

    1~2147483646

    -t

    以秒为单位,对计算监视对象Java VM负载的命令之超时值进行指定。lbadmin.conf中的参数名为ActionTimeout。

    1~2147483646

JVM监视资源根据采集的Java内存的信息来计算监视对象Java VM的负载。通过以下等式计算Java VM的负载。阈值是指Java堆大小乘以通过[监视(固有)]标签页-调整属性- [内存]标签页-[监视堆使用率]-[区域全体]设定的使用率而算出的值。。

Java VM负载(%)=当前内存使用量(MB)×100÷阈值(MB)

在安装于操作服务器上的均衡节点模块中,JVM监视资源会定期执行命令,比较所采集的监视对象Java VM的负载与另采集的CPU负载,将较高的值作为CPU负载并通知LB 。LB根据均衡节点的CPU负载情况,将信息(要求)分散到最适合的服务器。

  • 均衡节点模块的负载计算功能设置

    • 执行命令的间隔:通过负载均衡器联动Setup命令设置的执行间隔

_images/img_linking-with-the-load-balancer-target-java-vm-load-calculation-function-10.png

图 4.77 均衡节点模块的负载计算功能

4.43.5. BIG-IP Local Traffic Manager联动

对象LB:BIG-IP Local Traffic Manager

JVM监视资源可以与BIG-IP LTM进行联动。下面,将监视对象的应用服务器作为Tomcat进行说明。通过与BIG-IP LTM联动,提供均衡节点的控制功能和监视对象Java VM的负载计算功能。

通过BIG-IP系列API(iControl),实现BIG-IP LTM与JVM监视资源的联动。

均衡节点是指负载分散对象服务器,联动模块是指安装各均衡节点的模块。Java Resource Agent包括联动模块。

使用均衡节点的控制功能时,请执行Cluster WebUI的[集群的属性]->[JVM监视标签页]->[LB联动设定]对话框,JVM监视资源的[属性]-[监视(固有)]标签页-[调整]属性-[LB联动]标签页的设置。

使用监视对象Java VM的负载计算功能时, 请执行Cluster WebUI的[集群的属性]->[JVM监视]标签页->[LB联动设定]对话框的设置。

BIG-IP LTM联动的错误消息,在JVM运用日志中输出如下内容。请详阅"10. 错误消息一览表"的"JVM监视资源输出日志消息"。

Error: Failed to operate clpjra_bigip.[错误代码]

由此服务器构筑BIG-IP LTM负载分散系统的情况下,JVM监视检测出Tomcat的故障动态 (例:大于采集信息设定的阈值) 时,使用iControl将BIG-IP LTM的均衡节点状态从enable更改为disable。

JVM监视更改BIG-IP LTM的均衡节点状态后,等到均衡节点的连接数变0为止。等待后,通过JVM监视资源的[属性]-[监视(固有)]标签页-[调整]属性-[LB联动]标签页来执行指定的[重启命令]。即使经过JVM监视资源的[属性]-[监视(固有)]标签页-[调整]属性-[LB联动]标签页来指定[超时],均衡节点的连接数也没有变0时,不能执行由[重启命令]指定的动作。

JVM监视检测出Tomcat的故障恢复时,使用iControl将BIG-IP LTM的均衡节点状态从disable更改为enable。此时,不能通过JVM监视资源的[属性]-[监视(固有)]标签页-[调整]属性-[LB联动]标签页来指定的[重启命令]执行动作。

BIG-IP LTM的均衡节点状态为disable时,判定为均衡节点挂掉,BIG-IP LTM执行均衡节点的隔离。使用均衡节点的控制功能时,BIG-IP LTM侧无需设定。

BIG-IP LTM的均衡节点状态以JVM监视的故障查出和故障恢复为契机而更改。因此,以JVM监视以外为契机的失效切换时,即使失效切换后BIG-IP LTM的均衡节点状态也有可执行为enable的情况。

_images/img_linking-with-the-big-ip-local-traffic-manager-10.png

图 4.78 均衡节点的控制功能

在JVM监视監視中,从采集的Java内存信息算出监视对象Java VM的负载。通过以下等式计算Java VM负载。Java VM负载(%),是指Java堆大小乘以由[监视(固有)]标签页-调整属性- [内存]标签页-[监视堆使用率]-[区域全体]设定的使用率而算出的值。

Java VM负载(%)=当前内存使用量(MB)×100÷阈值(MB)

在动作中服务器上安装的联动模块上,JVM监视定期执行命令,将采集的监视对象Java VM的负载通知给BIG-IP LTM。BIG-IP LTM根据均衡节点的Java VM负载状况,将通信量(要求)分散给最合适的服务器。

在EXPRESSCLUSTER侧的Cluster WebUI中进行以下设置。

  • JVM监视资源
    [属性]-[监视(固有)]标签页-[调整]属性-[LB联动]标签页打开
    [监视内存Pool]。
  • 自定义监视资源
    [属性]-[监视(共通)]标签页打开
    [监视时序]-[全时]单选按钮。

    [属性]-[监视(固有)]标签页

    选择[用Cluster WebUI创建的脚本]。

    选择[文件]-[编辑],添加下面的强调部分。
    #! /bin/sh
    #***********************************************
    #*   genw.sh                                   *
    #***********************************************
    
    ulimit -s unlimited
    ${CLP_PATH}/ha/jra/bin/clpjra_bigip weight
    exit 0
    

    选中[监视类型]-[同步]单选按钮。

BIG-IP LTM侧设定在BIG-IP Configration Utility的LocalTrafic] - [Pools:PoolList] - [对应的pool] - [Members] - [LoadBalancing] - [ Load Balancing Method]上指定[Ratio(node)]。

  • 负载计算功能设置

    • 命令执行间隔: [属性] - [监视(共通)]标签页 - [间隔] 秒

_images/img_linking-with-the-big-ip-local-traffic-manager-20.png

图 4.79 负载计算功能

4.43.6. 何谓JVM统计日志

保存JVM监视资源收集的监视对象Java VM的统计信息的文件就是JVM统计日志。文件格式为csv格式。日志的存放路径如下。

<EXPRESSCLUSTER安装路径>/log/ha/jra/*.stat

下述的"监视项目"表示JVM监视资源的[属性]-[监视(固有)]标签页内的设置项目。

关于各监视项目,选中[监视],并且设置了阈值时,收集统计信息,输出信息到JVM统计日志。不选中[监视],以及选中[监视]但不设置阈值时,信息不会输出至JVM统计日志。

与监视项目对应的JVM统计日志如下所示。

监视项目

对应的JVM统计日志

[内存]标签页-[监视堆内存使用率]
[内存]标签页-[监视非堆内存使用率]
[内存]标签页-[监视堆内存使用量]
[内存]标签页-[监视非堆内存使用量]

jramemory.stat

[线程]标签页-[监视运行中的线程数]

jrathread.stat

[GC]标签页-[监视Full GC执行时间]
[GC]标签页-[监视Full GC发生次数]

jragc.stat

[WebLogic]标签页-[监视Work Manager的请求]
[WebLogic]标签页-[监视线程Pool的请求]
选中上述任意一个时,输出wlworkmanager.stat和wlthreadpool.stat。
wlworkmanager.stat
wlthreadpool.stat

4.43.7. 确认监视对象Java VM的Java内存区域的使用量(jramemory.stat)

记录监视对象Java VM的Java内存区域使用量的日志文件。通过日志输出设置的循环方式,文件名会变为以下其中之一。

  • 选择[集群的属性]-[监视JVM]标签页-[日志输出设置]-[循环方式]-[文件大小]时:jramemory<从0开始的整数>.stat

  • 选择[集群的属性]-[监视JVM]标签页-[日志输出设置]-[循环方式]-[时间]时:jramemory<YYYYMMDDhhmm>.stat

格式如下所示。

No

格式

描述

1

yyyy/mm/dd hh:mm:ss.SSS

显示记录日志的日期时间。

2

半字节英文数字符号

显示监视对象Java VM的名称。通过JVM监视资源的[属性]-[监视固有]标签页-[识别名称]设置的值。

3

半字节英文数字符号

Java内存池的名称。详细内容请参考"关于Java内存池名称"。

4

半字节英文数字符号

Java内存池的类型。
Heap,Non-Heap

5

半字节数字

Java VM启动时OS上要求的内存量。单位为字节。(init)
监视对象Java VM启动时,可在以下Java VM启动时通过参数指定大小。
  • HEAP:-Xms

  • NON_HEAP 永久区域(Perm Gen):-XX:PermSize

  • NON_HEAP 代码缓存区域(Code Cache):-XX:InitialCodeCacheSize

6

半字节数字

Java VM当前使用的内存量。单位为字节。(used)

7

半字节数字

保证Java VM当前使用的内存量。单位为字节。(committed)
会根据内存的使用状况有所增减,但一定是大于used,小于max。

8

半字节数字

Java VM可使用的最大内存量。单位为字节。(max)
可在以下Java VM启动时通过参数指定大小。
  • HEAP:-Xmx

  • NON_HEAP 永久区域(Perm Gen):-XX:MaxPermSize

  • NON_HEAP 代码缓存区域(Code Cache):-XX:ReservedCodeCacheSize

例)
java-XX:MaxPermSize=128m -XX:ReservedCodeCacheSize=128m javaAP
上例中NON_HEAP的max变为 128m+128m=256m。
(注意)
若在-Xms和-Xmx上指定相同值,则可执行变为(init)>(max)。这是因为HEAP的max显示从-Xmx指定确保的区域空间中减少Survivor Space一半大小之后的空间。

9

半字节数字

测量对象的Java VM在启动后使用的内存量的峰值。Java内存池的名称为HEAP,NON_HEAP时,与Java VM当前使用的内存量(used)相同。单位为字节。

10

半字节数字

[JVM类型]选择[Oracle Java(usage monitoring)]时,请无视本项目。

[JVM类型]选择[Oracle Java(usage monitoring)]以外时,Java内存池的类型(No.4的域)为HEAP时,max(No.8的域)×边界值(%)的内存量。单位为字节。Java内存池的类型为HEAP时,0固定。

4.43.8. 确认监视对象Java VM的线程运行状态(jrathread.stat)

记录监视对象Java VM的线程运行状态的日志文件。通过日志输出设置的循环方式,文件名会变为以下其中之一。

  • 选择[集群的属性]-[监视JVM]标签页-[日志输出设置]-[循环方式]-[文件大小]时:jrathread<从0开始的整数>.stat

  • 选择[集群的属性]-[监视JVM]标签页-[日志输出设置]-[循环方式]-[时间]时:jrathread<YYYYMMDDhhmm>.stat

格式如下所示。

No

格式

描述

1

yyyy/mm/dd hh:mm:ss.SSS

显示记录日志的日期时间。

2

半字节英文数字符号

显示监视对象Java VM的名称。通过JVM监视资源的[属性]-[监视固有]标签页-[识别名称]设置的值。

3

半字节英文数字符号

显示监视对象Java VM中当前在执行的线程数。

4

[半字节数字: 半字节数字:...]

显示监视对象Java VM中死锁的线程ID。反复死锁数ID。

5

半字节英文数字符号

显示监视对象Java VM中死锁的线程的详细信息。死锁数按照以下形式反复。
线程名,线程ID,线程状态 UserTime, CpuTime,WaitedCount, WaitedTime, isInNative, isSuspended <换行>
stacktrace<换行>
:
stacktrace<换行>
stacktrace=ClassName, FileName, LineNumber, MethodName, isNativeMethod

4.43.9. 确认监视对象Java VM的GC运行状态(jragc.stat)

记录监视对象Java VM的GC运行状态的日志文件。通过日志输出设置的循环方式,文件名会变为以下其中之一。

  • 选择[集群的属性]-[监视JVM]标签页-[日志输出设置]-[循环方式]-[文件大小]时:jragc<从0开始的整数>.stat

  • 选择[集群的属性]-[监视JVM]标签页-[日志输出设置]-[循环方式]-[时间]时:jragc<YYYYMMDDhhmm>.stat

在JVM监视资源中输出复制GC和Full GC这2种GC信息。

在JVM监视资源中,对于Oracle Java情况下的以下GC,计算作为Full GC发生次数的增量。

  • MarksweepCompact

  • MarkSweepCompact

  • PS Marksweep

  • ConcurrentMarkSweep

格式如下所示。

No

格式

描述

1

yyyy/mm/dd hh:mm:ss.SSS

显示记录日志的日期时间。

2

半字节英文数字符号

显示监视对象Java VM的名称。通过JVM监视资源的[属性]-[监视固有]标签页-[识别名称]设置的值。

3

半字节英文数字符号

显示监视对象Java VM的GC名称。

监视对象Java VM为Oracle Java时
具有如下内容。
Copy
MarksweepCompact
MarkSweepCompact
PS Scavenge
PS Marksweep
ParNew
ConcurrentMarkSweep
监视对象Java VM为Oracle JRockit时
具有如下内容。
Garbage collection optimized for throughput Old Collector
Garbage collection optimized for short pausetimes Old Collector
Garbage collection optimized for deterministic pausetimes Old Collector
Static Collector
Static Old Collector
Garbage collection optimized for throughput Young Collector

4

半字节数字

显示监视对象Java VM在启动后到测量时间为止的GC发生次数。JVM监视资源在开始监视前发生的GC的发生次数也包含在值内。

5

半字节数字

显示监视对象Java VM在启动后到测量时间为止的GC总执行时间。单位为毫秒。JVM监视资源在开始监视前发生的GC的执行时间也包含在值内。

4.43.10. 确认WebLogic Server的任务管理器的运行状态(wlworkmanager.stat)

记录WebLogic Server的任务管理器的运行状态的日志文件。通过日志输出设置的循环方式,文件名会变为以下其中之一。

  • 选择[集群的属性]-[监视JVM]标签页-[日志输出设置]-[循环方式]-[文件大小]时:wlworkmanager<从0开始的整数>.stat

  • 选择[集群的属性]-[监视JVM]标签页-[日志输出设置]-[循环方式]-[时间]时:wlworkmanager<YYYYMMDDhhmm>.stat

格式如下所示。

No

格式

描述

1

yyyy/mm/dd hh:mm:ss.SSS

显示记录日志的日期时间。

2

半字节英文数字符号

显示监视对象Java VM的名称。通过JVM监视资源的[属性]-[监视固有]标签页-[识别名称]设置的值。

3

半字节英文数字符号

显示应用程序名称。

4

半字节英文数字符号

显示任务管理器名称。

5

半字节数字

显示执行的请求数量。

6

半字节数字

显示待机的请求数量。

4.43.11. 确认WebLogic Server的线程池的运行状态(wlthreadpool.stat)

记录WebLogic Server的线程池的运行状态的日志文件。通过日志输出设置的循环方式,文件名会变为以下其中之一。

  • 选择[集群的属性]-[监视JVM]标签页-[日志输出设置]-[循环方式]-[文件大小]时:wlthreadpool<从0开始的整数>.stat

  • 选择[集群的属性]-[监视JVM]标签页-[日志输出设置]-[循环方式]-[时间]时:wlthreadpool<YYYYMMDDhhmm>.stat

格式如下所示。

No

格式

描述

1

yyyy/mm/dd hh:mm:ss.SSS

显示记录日志的日期时间。

2

半字节英文数字符号

显示监视对象Java VM的名称。通过JVM监视资源的[属性]-[监视固有]标签页-[识别名称]设置的值。

3

半字节数字

显示执行的请求总数。

4

半字节数字

显示待处理的请求数量。

5

半字节数字

显示每个单位时间(秒)的请求处理数量。

6

半字节数字

显示用于执行应用程序的线程的总数。

7

半字节数字

显示空闲状态的线程数。

8

半字节数字

显示执行中的线程数。

9

半字节数字

显示待机状态的线程数。

4.43.12. 关于Java内存池名称

介绍作为输出至JVM运用日志的消息中的memory_name而输出的Java内存池名称以及输出至JVM统计日志jramemory.stat中的Java内存池名称。
作为Java内存池名称输出的字符串,并非由Java监视资源决定,输出从监视对象Java VM中接收的字符串。
另外,由于作为Java VM未公开规格,Java VM的升级会导致更改,恕不提前通知。
因此,不建议对消息中的Java内存池名称进行消息监视。
下述的监视项目表示JVM监视资源的[属性]-[监视(固有)]标签页-[内存]标签页内的设置项目。
以下说明的Java内存池名称为Oracle Java,JRockit上进行实机确认后的结果。

在[JVM类型]中选择[Oracle Java],并且监视对象Java VM的启动选项上添加了"-XX:+UseSerialGC"时,jramemory.stat中的No3的Java内存池名称如下所示。

监视项目

作为memory_name输出的字符串

[监视堆内存使用率]-[领域整体]

HEAP

[监视堆内存使用率]-[Eden Space]

Eden Space

[监视堆内存使用率]-[Survivor Space]

Survivor Space

[监视堆内存使用率]-[Tenured Gen]

Tenured Gen

[监视非堆内存使用率]-[领域整体]

NON_HEAP

[监视非堆内存使用率]-[Code Cache]

Code Cache

[监视非堆内存使用率]-[Perm Gen]

Perm Gen

[监视非堆内存使用率]-[Perm Gen[shared-ro]]

Perm Gen [shared-ro]

[监视非堆内存使用率]-[Perm Gen[shared-rw]]

Perm Gen [shared-rw]

在[JVM类型]中选择[Oracle Java],并且监视对象Java VM的启动选项上添加了"-XX:+UseParallelGC","-XX:+UseParallelOldGC"时,jramemory.stat中的No3的Java内存池名称如下所示。

监视项目

作为memory_name输出的字符串

[监视堆内存使用率]-[领域整体]

HEAP

[监视堆内存使用率]-[Eden Space]

PS Eden Space

[监视堆内存使用率]-[Survivor Space]

PS Survivor Space

[监视堆内存使用率]-[Tenured Gen]

PS Old Gen

[监视非堆内存使用率]-[领域整体]

NON_HEAP

[监视非堆内存使用率]-[Code Cache]

Code Cache

[监视非堆内存使用率]-[Perm Gen]

PS Perm Gen

[监视非堆内存使用率]-[Perm Gen[shared-ro]]

Perm Gen [shared-ro]

[监视非堆内存使用率]-[Perm Gen[shared-rw]]

Perm Gen [shared-rw]

在[JVM类型]中选择[Oracle Java],并且监视对象Java VM的启动选项上添加了"-XX:+UseConcMarkSweepGC"时,jramemory.stat中的No3的Java内存池名称如下所示。

监视项目

作为memory_name输出的字符串

[监视堆内存使用率]-[领域整体]

HEAP

[监视堆内存使用率]-[Eden Space]

Par Eden Space

[监视堆内存使用率]-[Survivor Space]

Par Survivor Space

[监视堆内存使用率]-[Tenured Gen]

CMS Old Gen

[监视非堆内存使用率]-[领域整体]

NON_HEAP

[监视非堆内存使用率]-[Code Cache]

Code Cache

[监视非堆内存使用率]-[Perm Gen]

CMS Perm Gen

[监视非堆内存使用率]-[Perm Gen[shared-ro]]

Perm Gen [shared-ro]

[监视非堆内存使用率]-[Perm Gen[shared-rw]]

Perm Gen [shared-rw]

在[JVM种类]中选择[Oracle Java(usage monitoring)],并且在监视对象Java VM的启动选项上添加了「-XX:+UseSerialGC」时,jramemory.stat中的 No3的Java内存池名称如下所示。

监视项目

作为memory_name输出的字符串

[监视堆内存使用率]-[领域整体]

HEAP

[监视堆内存使用率]-[Eden Space]

Eden Space

[监视堆内存使用率]-[Survivor Space]

Survivor Space

[监视堆内存使用率]-[Tenured Gen]

Tenured Gen

[监视非堆内存使用率]-[领域整体]

NON_HEAP

[监视非堆内存使用率]-[Code Cache]

Code Cache(Java 9以上时,没有输出)

[监视非堆内存使用率]-[ Metaspace]

Metaspace

[监视非堆内存使用量]-[CodeHeap non-nmethods]

CodeHeap non-nmethods

[监视非堆内存使用量]-[CodeHeap profiled]

CodeHeap profiled nmethods

[监视非堆内存使用量]-[CodeHeap non-profiled]

CodeHeap non-profiled nmethods

[监视非堆内存使用量]-[Compressed Class Space]

Compressed Class Space

在[JVM种类]中选择[Oracle Java(usage monitoring)],并且在监视对象Java VM的启动选项中添加了「-XX:+UseParallelGC」,「-XX:+UseParallelOldGC」时,jramemory.stat中的 No3的Java内存池名称如下所示。

监视项目

作为memory_name输出的字符串

[监视堆内存使用率]-[领域整体]

HEAP

[监视堆内存使用率]-[Eden Space]

PS Eden Space

[监视堆内存使用率]-[Survivor Space]

PS Survivor Space

[监视堆内存使用率]-[Tenured Gen]

PS Old Gen

[监视非堆内存使用率]-[领域整体]

NON_HEAP

[监视非堆内存使用率]-[Code Cache]

Code Cache(Java 9以上时,没有输出)

[监视非堆内存使用率]-[ Metaspace]

Metaspace

[监视非堆内存使用量]-[CodeHeap non-nmethods]

CodeHeap non-nmethods

[监视非堆内存使用量]-[CodeHeap profiled]

CodeHeap profiled nmethods

[监视非堆内存使用量]-[CodeHeap non-profiled]

CodeHeap non-profiled nmethods

[监视非堆内存使用量]-[Compressed Class Space]

Compressed Class Space

在[JVM种类]中选择[Oracle Java(usage monitoring)],并且在监视对象Java VM的启动选项中添加了「-XX:+UseConcMarkSweepGC」时,jramemory.stat中的 No3的Java内存池名称如下所示。

监视项目

作为memory_name输出的字符串

[监视堆内存使用率]-[领域整体]

HEAP

[监视堆内存使用率]-[Eden Space]

Par Eden Space

[监视堆内存使用率]-[Survivor Space]

Par Survivor Space

[监视堆内存使用率]-[Tenured Gen]

CMS Old Gen

[监视非堆内存使用率]-[领域整体]

NON_HEAP

[监视非堆内存使用率]-[Code Cache]

Code Cache(Java 9以上时,没有输出)

[监视非堆内存使用率]-[ Metaspace]

Metaspace

[监视非堆内存使用量]-[CodeHeap non-nmethods]

CodeHeap non-nmethods

[监视非堆内存使用量]-[CodeHeap profiled]

CodeHeap profiled nmethods

[监视非堆内存使用量]-[CodeHeap non-profiled]

CodeHeap non-profiled nmethods

[监视非堆内存使用量]-[Compressed Class Space]

Compressed Class Space

在[JVM类型]中选择[Oracle Java(usage monitoring)],并且监视对象Java VM的启动选项中附加了「-XX:+UseParNewGC」时,jramemory.stat中的No3的Java内存池名称如下所示。Java 9以上时,如果附加了「-XX:+UseParNewGC」,监视对象Java VM不能起动。

监视项目

作为memory_name输出的字符串

[监视堆内存使用量]-[领域整体]

HEAP

[监视堆内存使用量]-[Eden Space]

Par Eden Space

[监视堆内存使用量]-[Survivor Space]

Par Survivor Space

[监视堆内存使用量]-[Tenured Gen]

Tenured Gen

[监视非堆内存使用量]-[领域整体]

NON_HEAP

[监视非堆内存使用量]-[Code Cache]

Code Cache

[监视非堆内存使用量]-[Metaspace]

Metaspace

[监视非堆内存使用量]-[CodeHeap non-nmethods]

CodeHeap non-nmethods

[监视非堆内存使用量]-[CodeHeap profiled]

CodeHeap profiled nmethods

[监视非堆内存使用量]-[CodeHeap non-profiled]

CodeHeap non-profiled nmethods

[监视非堆内存使用量]-[Compressed Class Space]

Compressed Class Space

在[JVM类型]中选择[Oracle Java(usage monitoring)] ,并且监视对象Java VM的启动选项中附加了「-XX::+UseG1GC」时,jramemory.stat中的No3的Java内存池名称如下所示。

监视项目

作为memory_name输出的字符串

[监视堆内存使用量]-[领域整体]

HEAP

[监视堆内存使用量]-[Eden Space]

G1 Eden Space

[监视堆内存使用量]-[Survivor Space]

G1 Survivor Space

[监视堆内存使用量]-[Tenured Gen (Old Gen)]

G1 Old Gen

[监视非堆内存使用量]-[领域整体]

NON_HEAP

[监视非堆内存使用量]-[Code Cache]

Code Cache(Java 9以上时,没有输出)

[监视非堆内存使用量]-[Metaspace]

Metaspace

[监视非堆内存使用量]-[CodeHeap non-nmethods]

CodeHeap non-nmethods

[监视非堆内存使用量]-[CodeHeap profiled]

CodeHeap profiled nmethods

[监视非堆内存使用量]-[CodeHeap non-profiled]

CodeHeap non-profiled nmethods

[监视非堆内存使用量]-[Compressed Class Space]

Compressed Class Space

监视对象Java VM为Oracle JRockit时(在[JVM类型]中选择[JRockit]时),jramemory.stat中的No3的Java内存池名称如下所示。

监视项目

作为memory_name输出的字符串

[监视堆内存使用率]-[领域整体]

HEAP memory

[监视堆内存使用率]-[Nursery Space]

Nursery

[监视堆内存使用率]-[Old Space]

Old Space

[监视非堆内存使用率]-[领域整体]

NON_HEAP

[监视非堆内存使用率]-[Class Memory]

Class Memory

JVM统计日志jramemory.stat中的Java内存池名称和Java VM内存空间的关系如下所示。

  • Oracle Java 7时

    _images/img_java-memory-pool-name-10.png

    图 4.80 Java VM内存空间(Oracle Java 7)

图中的No

监视项目

jramemory.stat的Java内存池名称。

(1)

[监视堆内存使用率]-[领域整体]

HEAP

(2)

[监视堆内存使用率]-[Eden Space]

EdenSpace
PS Eden Space
Par Eden Space

(3)+(4)

[监视堆内存使用率]-[Survivor Space]

Survivor Space
PS Survivor Space
Par Survivor Space

(5)

[监视堆内存使用率]-[Tenured Gen]

Tenured Gen
PS Old Gen
CMS Old Gen

(6)

[监视非堆内存使用率]-[Perm Gen]
[监视非堆内存使用率]-[Perm Gen[shared-ro]]
[监视非堆内存使用率]-[Perm Gen[shared-rw]]
Perm Gen
Perm Gen [shared-ro]
Perm Gen [shared-rw]
PS Perm Gen
CMS Perm Gen

(7)

[监视非堆内存使用率]-[Code Cache]

Code Cache

(8)

-

-

(6)+(7)

[监视非堆内存使用率]-[领域整体]

NON_HEAP
※不包含堆栈轨迹
  • Oracle Java 8/Oracle Java 9/Oracle Java 11时

    _images/img_java-memory-pool-name-20.png

    图 4.81 Java VM内存空间(Oracle Java 8, Oracle Java 9/Oracle Java 11)

图中的No

监视项目

jramemory.stat的Java内存池名称。

(1)

[监视堆内存使用率]-[领域整体]

HEAP

(2)

[监视堆内存使用率]-[Eden Space]

EdenSpace
PS Eden Space
Par Eden Space
G1 Eden Space

(3)+(4)

[监视堆内存使用率]-[Survivor Space]

Survivor Space
PS Survivor Space
Par Survivor Space
Survivor Space

(5)

[监视堆内存使用率]-[Tenured Gen]

Tenured Gen
PS Old Gen
CMS Old Gen
G1 Old Gen

(6)

[监视非堆内存使用率]-[Code Cache]

Code Cache(Java 9以上时,没有输出)

(6)

[监视非堆内存使用量]-[CodeHeap non-nmethods]

CodeHeap non-nmethods(仅Java 9以上时输出)

(6)

[监视非堆内存使用量]-[CodeHeap profiled]

CodeHeap profiled nmethods(仅Java 9以上时输出)

(6)

[监视非堆内存使用量]-[CodeHeap non-profiled]

CodeHeap non-profiled nmethods(仅Java 9以上时输出)

(7)

[监视非堆内存使用率]-[Metaspace]

Metaspace

(8)

[监视非堆内存使用量]-[Compressed Class Space]

Compressed Class Space

(6)+(7)+(8)

[监视非堆内存使用率]-[领域整体]

NON_HEAP

  • Oracle JRockit时

    _images/img_java-memory-pool-name-30.png

    图 4.82 Java VM内存空间(Oracle JRockit)

    图中的No

    监视项目

    jramemory.stat的Java内存池名称。

    (1)

    [监视堆内存使用率]-[领域整体]

    HEAP memory

    (2)

    [监视堆内存使用率]-[Nursery Space]

    Nursery

    (3) (注意)

    [监视堆内存使用率]-[Old Space]

    Old Space

    -

    [监视非堆内存使用率]-[领域整体]

    NON_HEAP

    -

    [监视非堆内存使用率]-[Class Memory]

    Class Memory

    注解

    关于jramemory.stat的Java内存池名称"Old Space",并非HEAP内的old区域的值,与"HEAP memory"全体为同值。无法只进行(3) 的测量。

4.43.13. 查出异常时按照不同故障原因执行命令

查出监视资源的异常时,在EXPRESSCLUSTER中不提供按照不同故障原因区分不同命令来执行的手段。
在JVM监视资源中可根据不同故障原因区分命令来执行。查出异常时执行。
根据不同故障原因执行的命令的设置项目如下所示。

故障原因

设置项目

・连接监视对象的Java VM失败
・资源测量失败

[监视(固有)]标签页-[命令]

・堆内存使用率
・非堆内存使用率
・堆内存使用量
・非堆内存使用量

[监视(固有)]标签页-[调整]属性-[内存]标签页-[命令]

・运行中的线程数

[监视(固有)]标签页-[调整]属性-[线程]标签页-[命令]

・Full GC执行时间
・Full GC发生次数

[监视(固有)]标签页-[调整]属性-[GC]标签页-[命令]

・WebLogic的任务管理器的请求
・WebLogic的线程池的请求

[监视(固有)]标签页-[调整]属性-[WebLogic]标签页-[命令]

[命令]将故障原因的详情作为命令的参数传递。参数与结合[命令]的最后进行传递。通过自身创建脚本等向[命令]设置,可执行特别针对故障原因的运行。作为参数传递的字符串如下所示。

已记载多个作为参数传递的字符串时,按照监视对象Java VM的GC方式来传递其中一种。差异的详细内容请参考"关于Java内存池名称"。

记载为(Oracle Java时)(Oracle JRockit时)时,根据JVM类型有所不同。无记载时,JVM类型不会造成区别。

故障原因的详细信息

作为参数传递的字符串

・连接监视对象的Java VM失败
・资源测量失败

[监视(固有)]标签页-[调整]属性-[内存]标签页-[监视堆内存使用率]-[领域整体]
(Oracle Java时)

HEAP

[内存]标签页-[监视堆内存使用率]-[Eden Space]
(Oracle Java时)
EdenSpace
PSEdenSpace
ParEdenSpace
[内存]标签页-[监视堆内存使用率]-[Survivor Space]
(Oracle Java时)
SurvivorSpace
PSSurvivorSpace
ParSurvivorSpace
[内存]标签页-[监视堆内存使用率]-[Tenured Gen]
(Oracle Java时)
TenuredGen
PSOldGen
CMSOldGen
[内存]标签页-[监视非堆内存使用率]-[领域整体]
(Oracle Java时)

NON_HEAP

[内存]标签页-[监视非堆内存使用率]-[Code Cache]
(Oracle Java时)

CodeCache

[内存]标签页-[监视非堆内存使用率]-[Perm Gen]
(Oracle Java时)
PermGen
PSPermGen
CMSPermGen
[内存]标签页-[监视非堆内存使用率]-[Perm Gen[shared-ro]]
(Oracle Java时)

PermGen[shared-ro]

[内存]标签页-[监视非堆内存使用率]-[Perm Gen[shared-rw]]
(Oracle Java时)

PermGen[shared-rw]

[内存]标签页 [监视堆内存使用量]-[领域整体](Oracle Java(usage monitoring)时)

HEAP

[内存]标签页 [监视堆内存使用量]-[Eden Space](Oracle Java(usage monitoring)时)

EdenSpace
PSEdenSpace
ParEdenSpace
G1EdenSpace

[内存]标签页 [监视堆内存使用量]-[Survivor Space](Oracle Java(usage monitoring)时)

SurvivorSpace
PSSurvivorSpace
ParSurvivorSpace
G1SurvivorSpace

[内存]标签页 [监视堆内存使用量]-[Tenured Gen](Oracle Java(usage monitoring)时)

TenuredGen
PSOldGen
CMSOldGen
G1OldGen

[内存]标签页 [监视非堆内存使用量]-[领域整体](Oracle Java(usage monitoring)时)

NON_HEAP

[内存]标签页 [监视非堆内存使用量]-[Code Cache](Oracle Java(usage monitoring)时)

CodeCache

[内存]标签页 [监视非堆内存使用量]-[Metaspace](Oracle Java(usage monitoring)时)

Metaspace

[内存]标签页 [监视非堆内存使用量]-[CodeHeap non-nmethods](Oracle Java(usage monitoring)时)

non-nmethods

[内存]标签页 [监视非堆内存使用量]-[CodeHeap profiled](Oracle Java(usage monitoring)时)

profilednmethods

[内存]标签页 [监视非堆内存使用量]-[CodeHeap non-profiled](Oracle Java(usage monitoring)时)

non-profilednmethods

[内存]标签页 [监视非堆内存使用量]-[Compressed Class Space](Oracle Java(usage monitoring)时)

CompressedClassSpace

[内存]标签页-[监视堆内存使用率]-[领域整体]
(Oracle JRockit时)
HEAP
Heap
[内存]标签页-[监视堆内存使用率]-[Nursery Space]
(Oracle JRockit时)

Nursery

[内存]标签页-[监视堆内存使用率]-[Old Space]
(Oracle JRockit时)

OldSpace

[内存]标签页-[监视非堆内存使用率]-[领域整体]
(Oracle JRockit时)

NON_HEAP

[内存]标签页-[监视非堆内存使用率]-[Class Memory]
(Oracle JRockit时)

ClassMemory

[线程]标签页-[监视运行中的线程数]

Count

[GC]标签页-[监视Full GC执行时间]

Time

[GC]标签页-[监视Full GC发生次数]

Count

[WebLogic]标签页-[监视任务管理器的请求]-[待机请求 请求数]

WorkManager_PendingRequests

[WebLogic]标签页-[监视线程池的请求]-[待机请求 请求数]

ThreadPool_PendingUserRequestCount

[WebLogic]标签页-[监视线程池的请求]-[执行请求 请求数]

ThreadPool_Throughput

以下显示执行示例。

例1)

设置项目

设置内容

[监视(固有)]标签页-[调整]属性-[GC]标签页-[命令]

/usr/local/bin/downcmd

[监视(固有)]标签页-[调整]属性-[GC]标签页-[监视Full GC发生次数]

1

[集群]属性-[JVM监视]标签页-[资源测量设置]-[共同]标签页-[异常判断边界值

3

如果连续发生异常判断边界值次数(3次)并且发生Full GC,则JVM监视资源会查出监视异常,将"/usr/local/bin/downcmd Cont"作为命令执行。

例2)

设置项目

设置内容

[监视(固有)]标签页-[调整]属性-[GC]标签页-[命令]

"/usr/local/bin/downcmd" GC

[监视(固有)]标签页-[调整]属性-[GC]标签页-[监视Full GC执行时间]

65536

[集群]属性-[JVM监视]标签页-[资源测量设置]-[共同]标签页-[异常判断边界值

3

如果连续发生异常判断边界值次数(3次)并且Full GC执行时间超过65535毫秒,则JVM监视资源会查出监视异常,将"/usr/local/bin/downcmd GC Time"作为命令执行。

例3)

设置项目

设置内容

[监视(固有)]标签页-[调整]属性-[内存]标签页-[命令]

"/usr/local/bin/downcmd" memory

[监视(固有)]标签页-[调整]属性-[内存]标签页-[监视堆内存使用率]

on

[监视(固有)]标签页-[调整]属性-[内存]标签页-[Eden Space]

80

[监视(固有)]标签页-[调整]属性-[内存]标签页-[Survivor Space]

80

[集群]属性-[JVM监视]标签页-[资源测量设置]-[共同]标签页-[异常判断边界值]

3

如果连续发生异常判断边界值次数(3次)并且Java Eden Space的使用率和Java Survivor Space的使用率超过80%,则JVM监视资源会查出监视异常,将"/usr/local/bin/downcmd memory EdenSpace SurvivorSpace"作为命令执行。

[命令]中设置的等待命令结束的超时(秒),在集群属性-[JVM监视]-[命令超时]中进行设置。这适用于上述各标签页的[命令]中的相同值。无法在各[命令]中设置。

如果超时,无法执行强制结束[命令]进程之类的处理。请客户执行[命令]进程的后处理(例:强制结束)。如果超时,将以下消息输出至JVM运用日志中。

action thread execution did not finish. action is alive = <指令>

注意事项如下所示。

  1. 查出Java VM正常复归时(异常->正常时)无法执行[命令]。

  2. [命令]以查出Java VM异常时(边界值的超过连续数次发生异常判断时)为契机执行。不在每个边界值超出上执行。

  3. 在多个标签页上设置[命令]后,同时发生故障时执行多个[命令]。因此,请注意系统负载。

  4. 同时监视[监视(固有)]标签页-[调整]属性-[WebLogic]标签页-[监视任务管理器的请求],[监视(固有)]标签页-[调整]属性-[WebLogic]标签页-[监视任务管理器的请求]-[待机请求 平均值]时,可执行会同时执行2次[命令]。

    这是由于[集群]属性-[JVM监视]标签页-[资源测量设置]-[WebLogic]标签页--[间隔 请求数]和[集群]属性-[JVM监视]标签页-[资源测量设置]-[WebLogic]标签页--[间隔 平均值]的异常查出可执行同时发生。请设置成仅监视其中一方作为回避方法。以下监视项目的组合也一样。

    • [监视(固有)]标签页-[调整]属性-[WebLogic]标签页-[监视线程池的请求]-[待机请求 请求数]和[监视(固有)]标签页-[调整]属性-[WebLogic]标签页-[监视线程池的请求]-[待机请求 平均值]

    • [监视(固有)]标签页-[调整]属性-[WebLogic]标签页-[监视线程池的请求]-[待机请求 请求数]和[监视(固有)]标签页-[调整]属性-[WebLogic]标签页-[监视线程池的请求]-[执行请求 平均值]

4.43.14. 监视WebLogic Server

完成监视对象WebLogic Server的设置,并作为应用程序服务器运行的步骤请参考WebLogic Server的使用说明书。

本章只介绍JVM监视资源监视时所必需的设置。

  1. 启动WebLogic Server Administration Console。
    启动方法请参考WebLogic Server使用说明书的"Administration Console的概要"。
    选择域设置-域-设置-整体。在这里请先确认"启用管理端口"复选框为未选中状态。
  2. 在域设置-服务器中选择监视对象的服务器名。选择的服务器名设置为Cluster WebUI的编辑模式中[属性]-[监视(固有)]标签的识别名。请参考"理解JVM监视资源"。

  3. 在监视对象服务器的设置-整体中,确认"监听端口"中管理连接的端口号。

  4. 停止WebLogic Server。停止方法请参考WebLogic Server使用说明书的"WebLogic Server的启动和停止"。

  5. 打开WebLogic Server的管理服务器启动脚本(startWebLogic.sh)。

  6. 在打开的脚本中记载以下内容。

    • 监视对象为WebLogic Server的管理服务器时

    JAVA_OPTIONS="${JAVA_OPTIONS}
    -Dcom.sun.management.jmxremote.port=n
    -Dcom.sun.management.jmxremote.ssl=false
    -Dcom.sun.management.jmxremote.authenticate=false
    -Djavax.management.builder.initial=weblogic.management.jmx.mbeanserver.WLSMBeanServerBuilder"
    

    ※在实际操作中请将上述内容记载为1行。

    • 监视对象为WebLogic Server的管理对象服务器时

    if [ "${SERVER_NAME}" = "SERVER_NAME" ]; then
    JAVA_OPTIONS="${JAVA_OPTIONS}
    -Dcom.sun.management.jmxremote.port=n
    -Dcom.sun.management.jmxremote.ssl=false
    -Dcom.sun.management.jmxremote.authenticate=false
    -Djavax.management.builder.initial=weblogic.management.jmx.mbeanserver.WLSMBeanServerBuilder"
    fi
    

    ※在实际操作中,请将if语句(2~5行)记载为1行。

注解

n用来指定监视时使用的端口号。指定的端口号请指定为与监视对象Java VM的监听端口号不同的号码。此外,同一设备有多个监视对象的WebLogic Server时,请指定不同于监听端口号和其他应用程序端口号的号码。

注解

SERVER_NAME指定为"选择监视对象服务器"中确认的监视对象服务器名。存在多个监视对象服务器时,按照同样的设置(1~6行)更改服务器名,重复设置。

注解

上述内容中添加的部分请放在以下记载的前面。:

${JAVA_HOME}/bin/java ${JAVA_VM} ${MEM_ARGS} ${JAVA_OPTIONS}
-Dweblogic.Name=${SERVER_NAME} -Djava.security.policy=${WL_HOME}/server/lib/weblogic.policy
${PROXY_SETTINGS} ${SERVER_CLASS}

※在实际操作中请将上述内容记载为1行

※因WebLogic的版本而异,上述的java引数的内容有可执行不同,在执行java之前,若已记载了JAVA_OPTIONS,则没有问题。

注解

监视[内存标签]的[Perm Gen[shared-ro]]或[Perm Gen[shared-rw]]时,请添加以下内容。

-client -Xshare:on -XX:+UseSerialGC

  1. 监视WorkManager和线程Pool的请求时,请进行如下设置。

    启动监视对象WebLogic Server的WLST(wlst.sh)。请在显示的控制台画面上执行以下命令。

    >connect('USERNAME','PASSWORD','t3://SERVER_ADDRESS:SERVER_PORT')
    > edit()
    > startEdit()
    > cd('JMX/DOMAIN_NAME'\ )
    > set('PlatformMBeanServerUsed','true')
    > activate()
    > exit()
    

    请将上述USERNAME,PASSWORD,SERVER_ADDRESS,SERVER_PORT,DOMAIN_NAME替换为符合域环境的值

  2. 重启监视对象WebLogic Server

4.43.15. 监视WebOTX

本指南将介绍JVM监视资源的监视对象WebOTX的设置步骤。

启动WebOTX集成操作管理控制台。启动方法请参考《WebOTX操作篇(Web版集成操作管理工具)》手册的"集成操作管理工具的启动和停止"。

以下设置中,监视WebOTX上JMX代理的Java进程与监视进程组上的Java进程其设定内容有所不同。请根据监视对象进行设置。

4.43.16. 监视WebOTX域代理的Java进程

不需要本操作。

4.43.17. 监视WebOTX进程组的Java进程

  1. 通过集成操作管理工具连接域。

  2. 在树形图中选择[<域名>]-[TP系统]-[应用程序组]-[<应用程序组名>]-[进程组]-[<进程组名>]。

  3. 在右侧显示的[JVM选项]标签内的[其他参数]属性中,用1行指定下一个Java选项。n用来指定端口号。若同一设备有多个监视对象Java VM存在,请指定不同的端口号。这里指定的端口号在Cluster WebUI([集群的属性]->[JVM监视]标签->[连接设置对话框]->[管理端口号])中也会设置。

    -Dcom.sun.management.jmxremote.port=n
    -Dcom.sun.management.jmxremote.ssl=false
    -Dcom.sun.management.jmxremote.authenticate=false
    -Djavax.management.builder.initial=com.nec.webotx.jmx.mbeanserver.JmxMBeanServerBuilder
    

    ※在WebOTX V9.2以上不需要进行-Djavax.management.builder.initial的指定。

  4. 完成设置后点击[更新]。完成设置后,重启进程组。

    本设置也可在WebOTX集成操作管理工具[Java系统属性]标签内的[Java系统属性]中进行指定。此时,"-D"为不指定,"="之前的字符串指定为"名称","="之后的字符串指定为"值"。

注解

使用WebOTX 进程组的功能设置进程故障时的重启时,如果在EXPRESSCLUSTER的恢复操作中执行进程组的重启,则WebOTX 进程组的功能有可执行不能正常运行。因此,监视WebOTX 进程组时,请从Cluster WebUI对JVM监视资源进行以下的设置。

设置标签名

项目名

设置值

监视(共通)

监视时机

不间断

复归操作

复归操作

仅执行最终操作

复归操作

最终操作

不操作

此外,关于WebOTX 进程组的监视,不支持LB联动功能。

4.43.18. 接收WebOTX notification通知

通过登录特定的监听器类,当WebOTX查出故障时就发行notification。JVM监视资源接收到该notification,就会向JVM运行日志发出以下的通知。

%1$s: Notification received. %2$s.

%1$s,%2$s的意思如下。
%1$s:监视对象Java VM
%2$s:notification的通知 (ObjectName=**,type=**,message=**)

现在,可监视的资源的Mbean的详细信息如下表所述。

ObjectName

[domainname]:j2eeType=J2EEDomain,name=[domainname],category=runtime

Notification类型

nec.webotx.monitor.alivecheck.not-alive

消息

Failed

4.43.19. 监视JBoss

监视单机模式或监视域模式,设定的内容不同。请根据监视对象进行设置。

本章将介绍JVM监视资源的监视对象JBoss的设置步骤。

单机模式时

  1. 停止JBoss,(JBoss安装路径)从编辑器打开/bin/standalone.conf。

  2. 打开的设置文件描述以下内容。n指定端口号。同一设备上存在多个监视对象的Java VM时,请指定不重复的端口号。此处指定的端口号也可通过Cluster WebUI([监视资源的属性]->[监视(固有)]标签页->[连接端口号])进行设置。

    在「if [ "x$JBOSS_MODULES_SYSTEM_PKGS" = "x" ]; then」之前添加以下内容

    JBOSS_MODULES_SYSTEM_PKGS="org.jboss.logmanager"
    

    「if [ "x$JAVA_OPTS" = "x" ]; then … fi:」之后添加以下内容

    JAVA_OPTS="$JAVA_OPTS -Xbootclasspath/p:$JBOSS_HOME/modules/org/jboss/logmanager/main/jboss-logmanager-1.3.2.Final-redhat-1.jar"
    JAVA_OPTS="$JAVA_OPTS -Djava.util.logging.manager=org.jboss.logmanager.LogManager"
    JAVA_OPTS="$JAVA_OPTS -Dcom.sun.management.jmxremote.port=n
    -Dcom.sun.management.jmxremote.ssl=false
    -Dcom.sun.management.jmxremote.authenticate=false"
    

    ※jboss-logmanager-*.jar因JBoss版本的不同,所保存的文件价,文件名也不同,因此请根据安装环境指定安装路径。

  3. 保存上述设置后,启动JBoss。

  4. 请在Cluster WebUI(JVM监视资源名称->[属性]-[监视(固有)]标签页-识别名称)上设置与其他监视对象不重复的任意字符串(例:JBoss)。

域模式时

请在Cluster WebUI(JVM监视资源名称->[属性]-[监视(固有)]标签页-识别名称)上设置与其他监视对象不重复的任意字符串(例:JBoss)。另外,请在Cluster WebUI(JVM监视资源名称->[属性]->[监视(固有)]标签页->进程名称)中设置Java VM启动时的全部参数以特定唯一性。

4.43.20. 监视Tomcat

本章将介绍JVM监视资源的监视对象Tomcat的设置步骤。

  1. 使用rpm包安装了Tomcat时,停止Tomcat,打开/etc/sysconfig/tomcat6 或者/etc/sysconfig/tomcat。使用rpm包未安装Tomcat时,停止Tomcat,创建(Tomcat安装路径)/bin/setenv.sh。

  2. 打开后,在设置文件的Java选项中,用1行记载以下内容。n用来指定端口号。若同一设备有多个监视对象Java VM存在,请指定不同的端口号。这里指定的端口号在Cluster WebUI([集群的属性]->[JVM监视]标签->[连接设置对话框]->[管理端口号])中也会设置。

    CATALINA_OPTS="${CATALINA_OPTS}
    -Dcom.sun.management.jmxremote.port=n
    -Dcom.sun.management.jmxremote.ssl=false
    -Dcom.sun.management.jmxremote.authenticate=false"
    
  3. 保存上述设置后,启动Tomcat。

  4. 请在Cluster WebUI(JVM监视资源名->[属性]->[监视(固有)]标签->[识别名])中,设置与监视对象不同的任意字符串(例如:tomcat)。

4.43.21. 监视SVF

对JVM监视资源中,监视对象的SVF 的设置进行说明。

监视对象为Tomcat时

请将OS的SVF用户的环境变量做以下更改。n 指定端口号。如果同一机器中存在多个监视对象的Java VM,则需要指定不重复的端口编号。此处指定的端口编号也可通过Cluster WebU ([监视资源的属性]->[监视(固有)]标签页->[连接端口编号])来设置。

JAVA_OPTS="-Xms512m -Xmx512m -Dcom.sun.management.jmxremote.port=n
-Dcom.sun.management.jmxremote.ssl=false
-Dcom.sun.management.jmxremote.authenticate=false"
export JAVA_OPTS

监视对象为Tomcat以外时

  1. 从下表中选择监视对象,从编辑器打开该当的脚本。

    监视对象

    编辑的脚本

    Simple Httpd Service(8.x时)

    <SVF安装路径>/bin/SimpleHttpd

    Simple Httpd Service(9.x时)

    <SVF安装路径>/bin/UCXServer

    RDE Service

    <SVF安装路径>/rdjava/rdserver/rd_server_startup.sh

    <SVF安装路径>/rdjava/rdserver/svf_server_startup.sh

    RD Spool Balancer

    <SVF安装路径>/rdjava/rdbalancer/rd_balancer_startup.sh

    SVF Print Spooler Service

    <SVF安装路径>/bin/spooler

  2. 在Java选项指定处用1行来记述以下的内容。n用来指定端口编号。如果同一机器中存在多个监视对象的Java VM,则需要指定不重复的端口编号。此处指定的端口编号也可通过Cluster WebUI ([监视资源的属性]->[监视(固有) ]标签页->[连接端口编号])来设置。

    JAVA_OPTIONS="${JAVA_OPTIONS}
    -Dcom.sun.management.jmxremote.port=n
    -Dcom.sun.management.jmxremote.ssl=false
    -Dcom.sun.management.jmxremote.authenticate=false"
    
  3. 监视对象为RDE Service时,在以下的启动路径中和rd_balancer_startup.sh中追加${JAVA_OPTIONS}。

    java -Xmx256m -Xms256m -Djava.awt.headless=true ${JAVA_OPTIONS}
    -classpath $CLASSPATH jp.co.fit.vfreport.RdSpoolPlayerServer &
    

4.43.22. 监视自己制造的Java应用程序

对在JVM监视资源中监视的目标的Java应用程序的设置步骤进行说明。在监视目标的Java应用程序为停止状态下,在Java应用程序启动时的参数中以下的Java参数中指定1行。n 指定用于监视的端口号。如果同一机器中存在多个监视对象的Java VM,则需要指定不重复的端口号。此处指定的端口号也可通过Cluster WebU ([监视资源的属性]->[监视(固有)]标签页->[连接端口编号])来设置。

-Dcom.sun.management.jmxremote.port=n
-Dcom.sun.management.jmxremote.ssl=false
-Dcom.sun.management.jmxremote.authenticate=false

根据Java应用程序还需要添加以下内容。

-Djavax.management.builder.initial=<MBeanServerBuilder 的类名>

4.43.23. 监视(固有)标签页

监视对象

从列表中选择监视对象。监视WebSAM SVF for PDF,WebSAM Report Director Enterprise和WebSAM Universal Connect/X 时,请选择[WebSAM SVF]。监视自己制造的Java应用程序时,请选择[Java应用程序]。

JBoss Enterprise Application Platform的单机模式时选择[JBoss],监视JBoss Enterprise Application Platform的域模式时选择"JBoss域模式"。

默认值 : 无

JVM类型

从列表中选择监视对象应用程序操作的Java VM。

Java 8以及OpenJDK8以上时请选择[Oracle Java(usage monitoring)]。Java 8则需要进行如下的规格更改。

  • 在非堆空间无法获取各内存的最大值。

  • Perm Gen被更改为Metaspace。

  • 增加了Compressed Class Space。

因此,在Java 8上,[内存]标签页的监视项目需要进行如下的更改。

  • 将使用率监视更改为使用量监视。

  • 无法监视[Perm Gen],Perm Gen[shared-ro],Perm Gen[shared-rw]。请将复选框设定为Off。

  • 可以监视[Metaspace] ,[Compressed Class Space]。

在Java 9中有以下的设计变更。

  • Code Cache被分割。

因此,Java 9时的[内存]标签页的监视项目需进行以下的变更。

  • 不能监视[Code Cache]。请将复选框设定为Off。

  • 可以监视[CodeHeap non-nmethods],[CodeHeap profiled],[CodeHeap non-profiled]。

各个监视对象,分别可以指定以下的内容。

  • 监视对象为[WebLogic Server]时
    亦可选择[Oracle Java],[Oracle Java(usage monitoring)],[Oracle JRockit]。
  • 监视对象为[Tomcat]时
    亦可选择[Oracle Java],[Oracle Java(usage monitoring)],[OpenJDK]。
  • 监视对象为[WebLogic Server] ,[Tomcat]之外时
    亦可选择[Oracle Java],[Oracle Java(usage monitoring)]。

默认值 : 无

识别名(255字节以内)

识别名是在JVM监视的JVM运行日志中输出监视对象信息时,为了识别与其他JVM监视资源而设定的。为此,请在JVM监视资源之间设定唯一的字符串。请务必进行设置。

  • 监视对象为[WebLogic Server]时
    参考"监视WebLogic Server"中的2,设置监视对象的服务器实例名。
  • 监视对象为[WebOTX进程组"时
    请设置进程组名。
  • 监视对象为[WebOTX域代理]时
    请设置域名。
  • 监视对象为[JBoss] [JBoss 域模式]时
    请参考"监视JBoss"进行设置。
  • 监视对象为[Tomcat]时
    请参考"监视Tomcat"进行设置。
  • 监视对象为[WebOTX ESB]时
    与"WebOTX 进程组"时一样设置。
  • 监视对象为[WebSAM SVF]时
    请参考"监视SVF"进行设置。
  • 监视对象为[Java应用程序]时
    请将监视对象的Java VM 进程指定为一个唯一可识别的字符串。

默认值 : 无

连接端口号 (1024~65535)

JVM监视资源设定在监视对象Java VM和JMX进行连接时使用的端口号。JVM监视资源通过监视对象Java VM连接JMX来获取信息。为此,登录JVM监视资源时,需要将监视对象Java VM中JMX连接用端口设定为开放。请务必进行设置。集群内的服务器设置相同。不建议设置42424~61000。

  • 监视对象为[WebLogic Server]时
    请参考"监视WebLogic Server"中的6,设置连接端口号。
  • 监视对象为[WebOTX进程组]时
    参考"监视WebOTX进程组的Java进程"进行设置。
  • 监视对象为[WebOTX域代理]时
    请设置"(WebOTX安装路径)/<域名>.properties"中的"domain.admin.port"。
  • 监视对象为[JBoss]时
    请参考"监视JBoss"进行设置。
  • 监视对象为[JBoss 域模式]时
    无须设置。
  • 监视对象为[Tomcat]时
    请参考"监视Tomcat"进行设置。
  • 监视对象为[WebOTX ESB]时
    与"WebOTX 进程组"时一样设置。
  • 监视对象为[WebSAM SVF]时
    请参考"监视SVF"进行设置。
  • 监视对象为[Java应用程序]时
    请将监视对象的Java VM 进程指定为一个唯一可识别的字符串。

默认值 : 无

进程名(1024字节以内)

进程名是JVM监视资源在进行监视对象JavaVM和JMX连接时,为了区别于别的JVM监视资源而设定的。因此请设定可以唯一标识JVM监视资源的字符串。

  • 监视对象为[JBoss 域模式]以外时
    由于根据[连接端口号]可以识别监事对象Java VM,因此不需要设置。内部版本 3.3.5-1为止,取得虚拟内存使用量时或者监视对象的信息输出到JVM 运行日志时也使用本参数进行识别,需要指定。但是,内部版本 4.0.0-1 以上因为 [监视虚拟内存使用量]被删除,不能设置。
  • 监视对象为[JBoss 域模式]时
    请参考"监视JBoss"进行设置。

默认值 : 无

用户名(255字节以内)

设置连接监视对象Java VM的管理员名称。

  • 监视对象选择为[WebOTX域代理]时
    请设置"/opt/WebOTX/<域名>.properties"中"domain.admin.user"的值。
  • 监视对象为[WebOTX域代理]以外时
    无法设置。

默认值 :无

密码 (255字节以内)

设置连接监视对象Java VM的管理员密码。

  • 监视对象选择为[WebOTX域代理]时
    请设置"/opt/WebOTX/<域名>.properties"中"domain.admin.passwd"的值。
  • 监视对象为[WebOTX域代理]以外时
    无法设置。

默认值 : 无

命令 (255字节以内)

查出监视对象的Java VM异常时,设置要执行的命令。可指定根据不同异常原因执行的命令和参数。请指定绝对路径。另外,请用双引号("")将执行文件名括起来。例)"/usr/local/bin/command" arg1 arg2
此处无法连接监视对象Java VM或获取使用资源量时查出异常时,设置要执行的命令。

默认值: 无

点击[调整]后,弹出的对话框中会显示以下内容。根据以下说明进行详细设置。

4.43.24. 内存标签(在[JVM类型]选择[Oracle Java],[OpenJDK]时)

监视堆内存使用率

对监视对象Java VM使用的Java堆空间使用率进行监视设置。

  • 复选框选中(默认值)
    监视。
  • 复选框未选中
    不监视。

领域整体 (1~100)

设置监视对象Java VM使用的Java堆空间使用率之界限值。

默认值 : 80[%]

Eden Space (1~100)

设置监视对象Java VM使用的Java Eden Space使用率之界限值。作为GC方式指定G1 GC时,请改读为G1 Eden Space。

默认值 : 100[%]

Survivor Space (1~100)

设置监视对象Java VM使用的Java Survivor Space使用率之界限值。作为GC方式指定G1 GC时,请改读为G1 Survivor Space。

默认值 : 100[%]

Tenured Gen (1~100)

设置监视对象Java VM使用的JJava Tenured(Old) Gen空间使用率之界限值。作为GC方式指定G1 GC时,请改读为G1 Old Gen。

默认值 : 80[%]

监视非堆内存使用率

对监视对象Java VM使用的Java非堆空间之使用率进行监视设置。

  • 复选框选中(默认值)
    监视。
  • 复选框未选中
    不监视。

领域整体 (1~100)

设置监视对象Java VM使用的Java非堆空间使用率之界限值。

默认值 : 80[%]

Code Cache (1~100)

设置监视对象Java VM使用的Java Code Cache空间使用率之界限值。

默认值 : 100[%]

Perm Gen (1~100)

设置监视对象Java VM使用的Java Perm Gen空间使用率之界限值。

默认值 : 80[%]

Perm Gen[shared-ro] (1~100)

设置监视对象Java VM使用的Java Perm Gen [shared-ro]空间使用率之界限值。

Java Perm Gen [shared-ro]领域是在监视对象Java VM的启动选 项中添加了 -client -Xshare:on -XX:+UseSerialGC后启动时被使用的领域。

默认值 : 80[%]

Perm Gen[shared-rw] (1~100)

设置监视对象Java VM使用的Java Perm Gen [shared-rw]空间使用率之界限值。

Java Perm Gen [shared-rw]领域是在监视对象Java VM的启动选 项中添加了 -client -Xshare:on -XX:+UseSerialGC后启动时被使用的领域。

默认值 : 80[%]

命令 (255字节以内)

查出监视对象的Java VM异常时,设置要执行的命令。可指定根据不同异常原因执行的命令和参数。请指定绝对路径。另外,请用双引号("")将执行文件名括起来。例)"/usr/local/bin/command" arg1 arg2
此处在监视对象的Java VM的Java堆内存区域,Java非堆内存区域上查出异常时,设置要执行的命令。

默认值: 无

默认值

点击[默认值]按钮后,所有项目将设置为默认值。

4.43.25. 内存标签(在[JVM类型]中选择[Oracle Java(usage monitoring)] 时)

监视堆内存使用量

对监视对象Java VM使用的Java堆空间使用量进行监视设置。

  • 复选框选中
    监视。
  • 复选框未选中(默认值)
    不监视。

领域整体(0~102400)

设置监视对象Java VM使用的Java堆空间使用量的界限值。0时不监视。

默认值 : 0[MB]

Eden Space(0~102400)

设置监视对象Java VM使用的Java Eden Space使用量的界限值。0时不监视。作为GC方式指定G1 GC时,请改读为G1 Eden Space。

默认值 : 0[MB]

Survivor Space(0~102400)

设置监视对象Java VM使用的Java Survivor Space使用量的界限值。0时不监视。作为GC方式指定G1 GC时,请改读为G1 Survivor Space。

默认值 : 0[MB]

Tenured Gen(0~102400)

设置监视对象Java VM使用的Java Tenured(Old) Gen空间使用量的界限值。0时不监视。作为GC方式指定G1 GC时,请改读为G1 Old Gen。

默认值 : 0[MB]

监视非堆内存使用量

对监视对象Java VM使用的Java非堆空间使用量进行监视设置。

  • 复选框选中
    监视。
  • 复选框未选中(默认值)
    不监视。

领域整体(0~102400)

设置监视对象Java VM使用的Java非堆空间使用量的界限值。0时不监视。

默认值 : 0[MB]

Code Cache(0~102400)

设置监视对象Java VM使用的Java Code Cache空间使用量的界限值。0时不监视。

默认值 : 0[MB]

CodeHeap non-nmethods(0~102400)

设置监视对象Java VM使用的Java CodeHeap non-nmethods空间使用量的界限值。0时不监视。

默认值 : 0[MB]

CodeHeap profiled(0~102400)

设置监视对象Java VM使用的Java CodeHeap profiled nmethods空间使用量的界限值。0时不监视。

默认值 : 0[MB]

CodeHeap non-profiled (0~102400)

设置监视对象Java VM使用的Java CodeHeap non-profiled nmethods空间使用量的界限值。0时不监视。

默认值 : 0[MB]

Compressed Class Space(0~102400)

设置监视对象Java VM使用的Compressed Class Space空间使用量的界限值。0时不监视。

默认值 : 0[MB]

Metaspace(0~102400)

设置监视对象Java VM使用的Metaspace空间使用量的界限值。

默认值 : 0[MB]

命令 (255字节以内)

查出监视对象的Java VM异不间断监视,设置要执行的命令。可指定根据不同异常原因执行的命令和参数。请指定绝对路径。另外,请用双引号("")将执行文件名括起来。例) "/usr/local/bin/command" arg1 arg2
此处在监视对象的Java VM的Java堆内存区域,Java非堆内存区域上查出异常时,设置要执行的命令。

默认值: 无

默认值

点击[默认值]按钮后,所有项目将设置为默认值。

4.43.26. 内存标签(在[JVM类型]选择[Oracle JRockit]时)

仅在[JVM类型]中选择[JRockit]时显示。

监视堆内存使用率

对监视对象Java VM使用的Java堆空间使用率进行监视设置。

  • 复选框选中(默认值)
    监视。
  • 复选框未选中
    不监视。

领域整体 (1~100)

设置监视对象Java VM使用的Java堆空间使用率之界限值。

默认值 : 80[%]

Nursery Space (1~100)

设置监视对象JRockit JVM使用的Java Nursery Space使用率之界限值。

默认值 : 80[%]

Old Space (1~100)

设置监视对象JRockit JVM使用的Java Old Space使用率之界限值。

默认值 : 80[%]

监视非堆内存使用率

对监视对象Java VM使用的Java非堆空间之使用率进行监视设置。

  • 复选框选中(默认值)
    监视。
  • 复选框未选中
    不监视。

领域整体 (1~100)

设置监视对象Java VM使用的Java堆空间使用率之界限值。

默认值 : 80[%]

Class Memory (1~100)

设置监视对象JRockit JVM使用的Java Class Memory使用率之界限值。

默认值 : 100[%]

命令 (255字节以内)

查出监视对象的Java VM异常时,设置要执行的命令。可指定根据不同异常原因执行的命令和参数。请指定绝对路径。另外,请用双引号("")将执行文件名括起来。例)"/usr/local/bin/command" arg1 arg2
此处在监视对象的Java VM的Java堆内存区域,Java非堆内存区域上查出异常时,设置要执行的命令。

默认值: 无

默认值

点击[默认值]按钮后,所有项目将设置为默认值。

4.43.27. 线程标签

监视动作中的线程数 (1~65535)

设置监视对象Java VM中正在运行的线程上限值。

默认值 : 65535[线程]

命令 (255字节以内)

查出监视对象的Java VM异常时,设置要执行的命令。可指定根据不同异常原因执行的命令和参数。请指定绝对路径。另外,请用双引号("")将执行文件名括起来。例)"/usr/local/bin/command" arg1 arg2
此处在监视对象Java VM中当前运行的线程数上查出异常时,设置要执行的命令。

默认值: 无

默认值

点击[默认值]按钮后,所有项目将设置为默认值。

4.43.28. GC标签

监视Full GC执行时间 (1~65535)

在监视对象Java VM中,设置前一次测量后的Full GC执行时间之界限值。Full GC执行时间指的是,除以前一次测量后Full GC发生次数而得出的平均值。

若希望将Full GC执行时间3000毫秒,Full GC发生次数3次的情况判定为异常,则请将前一次测量后的Full GC执行时间设置为1000毫秒以下。

默认值 : 65535[毫秒]

监视Full GC发生次数 (1~65535)

在监视对象Java VM中,设置前一次测量后的Full GC发生次数之界限值。

默认值 : 1(次)

命令 (255字节以内)

查出监视对象的Java VM异常时,设置要执行的命令。可指定根据不同异常原因执行的命令和参数。请指定绝对路径。另外,请用双引号("")将执行文件名括起来。例)"/usr/local/bin/command" arg1 arg2
此处在监视对象Java VM的Full GC执行时间和Full GC发生次数上查出异常时,设置要执行的命令。

默认值: 无

默认值

点击[默认值]按钮后,所有项目将设置为默认值。

4.43.29. WebLogic标签

仅在[监视对象]中选择[WebLogic Server]时显示。

监视Work Manager的请求

在WebLogic Server中,对Work Manager的待机请求状态进行监视设置。

  • 复选框选中
    监视。
  • 复选框未选中(默认值)
    不监视。

监视对象Work Manager

对监视对象的WebLogic Server,设置监视目标应用程序的Work Manager名称。执行Work Manager监视时,请务必设置。

App1[WM1,WM2,…];App2[WM1,WM2,…];…

在App和WM中可指定的字符为ASCII字符。(不包括Shift_JIS 编码0x005C 和0x00A1~0x00DF )

若应用程序中包含存档的版本,请在App中指定"应用程序名#版本"。

若应用程序名中包含"["或"]",请在其前面添加"¥¥"。

(例如)应用程序名为app[2]时,则为app¥¥[2¥¥]

默认值 : 无

请求数 (1~65535)

在监视对象WebLogic Server的Work Manager中,设置待机请求数的界限值。

默认值 : 65535

平均值 (1~65535)

在监视对象WebLogic Server的Work Manager中,设置待机请求数平均值的界限值。

默认值 : 65535

相比上一次测量值的增加率 (1~1024)

在监视对象WebLogic Server的Work Manager中,设置上一次测量后待机请求数增量的界限值。

默认值 : 80[%]

监视线程Pool的请求

在监视对象WebLogic Server的线程Pool中,对待机请求数,执行请求数进行监视设定。
所谓的请求数,它包括WebLogic Server内部的等待处理,执行的HTTP请求数,EJB的调用,WebLogic Serve内部处理的请求数等。但是,即使增加了也不能判断异常状态。请在JVM统计日志收集的时候指定。
  • 复选框选中(默认值)
    监视。
  • 复选框未选中
    不监视。

待机请求 请求数 (1~65535)

设置待机请求数的界限值。

默认值 : 65535

待机请求 平均值 (1~65535)

设置待机请求数平均值的界限值。

默认值 : 65535

待机请求 相比上一次测量值的增加率 (1~1024)

设置上一次测量后,待机请求数增量的界限值。

默认值 : 80[%]

执行请求 请求数 (1~65535)

设置单位时间内执行请求数的界限值。

默认值 : 65535

执行请求 平均值 (1~65535)

设置单位时间内执行的请求数平均值之界限值。

默认值 : 65535

执行请求 相比上一次测量值的增加率 (1~1024)

设置上一次测量后,单位时间内执行的请求数增量之界限值。

默认值 : 80[%]

命令 (255字节以内)

查出监视对象的Java VM异常时,设置要执行的命令。可指定根据不同异常原因执行的命令和参数。请指定绝对路径。另外,请用双引号("")将执行文件名括起来。例)"/usr/local/bin/command" arg1 arg2
此处在WebLogic Server的任务管理器的请求和线程池的请求中查出异常时,设置要执行的命令。

默认值: 无

默认值

点击[默认值]按钮后,所有项目将设置为默认值。

4.43.30. LB联动标签

LB种类选择[BIG-IP LTM]以外时,显示本画面。

监视内存Pool

对通知LB动态负载信息时,是否监视内存Pool进行设置。

  • 复选框选中
    监视。
  • 复选框未选中(默认值)
    不监视。

默认值

点击[默认值]按钮后,所有项目将设置为默认值。

4.43.31. LB联动标签(BIG-IP LTM时)

在LB联动类别中选择[BIG-IPLTM]时,显示此画面。

监视内存Pool

对通知LB动态负载信息时,是否监视内存Pool进行设置。

  • 选中复选框
    监视。
  • 不选中复选框(默认值)
    不监视。

故障节点动态分离

检测出监视目标的故障状态(例:超出采集信息设定的阈值)时,BIG-IP LTM的均衡节点状态从enable更改为disable的设定。

  • 选中复选框
    从enable更改为disable。
  • 不选中复选框(默认值)
    不更改。

重启命令

等待均衡节点的连接数变0后,把要执行命令指定为绝对路径。检测出常驻监视和监视目标的故障时,重启监视目标的情况下生效。请指定重启命令为JVM监视资源之间的通用值。

超时(0~2592000)

设定均衡节点状态从enable更改为disable后,均衡节点的连接数变0为止等待的超时时间。超时后,不能执行[重启命令]。

默认值:3600[秒]

默认值

点击[默认值]按钮,使[监视内存Pool],[动态隔离故障节点],[超时]项目设定为默认值。

注解

使用BIG-IP Local Traffic Manager联动,需要OpenSSL库。不支持OpenSSL 1.1.0或更高版本。

4.44. 理解系统监视资源

系统监视资源可持续收集系统资源统计信息,并根据一定的知识信息进行解析处理。通过解析结果,可尽早发现资源枯竭。

4.44.1. 系统监视资源的注意事项

使用系统监视资源时,各服务器上需要zip以及unzip包。

有关运行确认完毕的System Resource Agent版本,请参考《开始指南》的"EXPRESSCLUSTER的运行环境" - "软件" - "运行确认完毕的监视选项应用程序信息"。

请在复归对象中指定System Resource Agent检测到资源监视异常时的失效切换对象资源。

System Resource Agent的设定值建议使用默认。

以下情况可执行无法查出资源监视异常。

  • 在系统全体资源监视下,反复在阈值上下增减时

动作中如果更改了OS的日期和时间时,每隔10分钟执行的解析处理的时机只在日期/时刻变更后的第一次发生偏离。由于会发生以下情况,必要时请挂起和恢复集群操作。

  • 即使过了异常检出的经过时间,也不执行异常的检出。

  • 异常检出经过时间前,执行异常的检出。

进行集群的挂起/复原时,从其启动的瞬间即开始收集信息。

SELinux请设置为permissive 或 disabled。

如果设为enforcing ,则可执行无法用EXPRESSCLUSTER进行必要的通信。

系统资源使用量的解析每10分钟进行一次。因此,持续监视时间最多可执行经过10分钟后才会查出异常。

磁盘资源使用量的解析每60分钟进行一次。因此,持续监视时间最多可执行经过60分钟后才会查出异常。

磁盘资源的剩余容量监视中指定的磁盘容量,请指定为比实际磁盘容量小的数值。如果指定为较大值,将被认为剩余容量不足,查出异常。

交换正在监视中的磁盘时,如果交换前和交换后的磁盘在以下项目有差异,需要清除之前的解析信息。

  • 磁盘的总容量

  • 文件系统

请在没有获得Swap领域的机器中,不要选中系统的总虚拟内存使用量的监视。

磁盘资源监视功能,不能对固定磁盘以外的磁盘进行监视。

通过System Resource Agent收集磁盘使用率是通过磁盘总容量和磁盘使用可执行容量进行计算而得。通过df(1) 命令显示的磁盘使用率根据计算方法的不同,值也可执行存在若干差异。

使用磁盘资源监视功能可同时监视的最大磁盘数为64台。

如果监视资源的定义画面的类型栏中,没有显示"系统监视"时,请选择[获取License信息]来获取License信息。

系统监视资源向文件中输出收集的统计信息以及解析信息。这些文件个数达到下述最大个数时,从旧的文件执行删除。
(下述文中的<data路径> 是<安装目录>/ha/sra/data/。)
  • 系统资源的统计信息
    路径: <data路径>/hasrm_monitor_list.xml.YYYYMMDDhhmmss.zip
    最大个数: 1500 个
  • 系统资源的解析信息
    路径: <data路径>/hasrm_analyze_list.xml.YYYYMMDDhhmmss.zip
    最大个数: 3 个
  • 磁盘资源的统计信息
    路径: <data路径>/hasrm_diskcapacity_monitor_list.xml.YYYYMMDDhhmmss.zip
    最大个数: 10 个
  • 磁盘资源的解析信息
    路径: <data路径>/hasrm_diskcapacity_analyze_list.xml.YYYYMMDDhhmmss.zip
    最大个数: 3 个

4.44.2. 系统监视资源的监视方法

系统监视资源进行以下监视。

持续收集并解析系统以及磁盘资源的使用量。

如果资源使用量超过预设阈值,则会查出异常。

若查出异常的状态与监视持续时间连续,则会通知资源监视异常。

利用默认值进行系统资源监视时,如资源的使用量达到90%以上的状态持续,则在60分钟后通知资源监视的异常。

查出利用默认值进行系统资源监视时的总内存使用量的异常的示例如下所示。

  • 若总内存使用量一直持续超过总内存使用量阈值状态,达到一定时间即会超出阈值。

    _images/img_how-system-monitor-resources-perform-monitoring-10.png

    图 4.83 若超过总内存使用量阈值的状态持续一定时间时(查出异常)

  • 若总内存使用率持续在总内存使用阈值上下浮动,则不会超出总内存使用量阈值。

    下图中,总内存使用量暂时超过总内存使用量的阈值(90%)。 但是,由于超过该阈值的状态不会持续监视持续时间(60分),因此不会查出总内存使用量异常。

    _images/img_how-system-monitor-resources-perform-monitoring-20.png

    图 4.84 若超过总内存使用量阈值的状态不持续一定时间时(不查出异常)

利用默认值进行磁盘资源监视时,在24小时后通知通知级别的异常。

查出利用默认值进行磁盘资源监视时的磁盘使用率的异常的示例如下所示。

监视级别的磁盘容量监视

  • 磁盘使用率在警告级别上限值所指定的一定的阈值以上

    由于磁盘使用率在警告级别上限值以上,因此判断为磁盘容量监视异常。

    _images/img_how-system-monitor-resources-perform-monitoring-30.png

    图 4.85 磁盘使用率在警告级别上限值以上时(查出异常)

  • 磁盘使用率在一定范围内增减,不会超过警告级别上限值所指定的一定的阈值以上

    _images/img_how-system-monitor-resources-perform-monitoring-40.png

    图 4.86 磁盘使用率不在警告级别上限值以上时(不查出异常)

通知级别的磁盘容量监视

  • 磁盘使用率与经过时间同时持续处在通知级别上限值所指定的一定阈值以上的状态,并经过了一定时间时

    由于磁盘使用率持续超过通知级别上限值,因此判断为磁盘容量监视异常。

    _images/img_how-system-monitor-resources-perform-monitoring-50.png

    图 4.87 当磁盘使用率在一定时间持续高于通知级别上限值时(查出异常)

  • 磁盘使用率在一定范围内增减,不会超过通知级别上限值所指定的一定的阈值以上

    尽管磁盘使用率暂时超过了通知级别上限值,但是由于该状态在一定时间内没有持续,因此不判断为磁盘容量监视异常。

    _images/img_how-system-monitor-resources-perform-monitoring-60.png

    图 4.88 当磁盘使用率在一定时间没有持续高于通知级别上限值时(不查出异常)

4.44.3. 监视(固有)标签页

CPU使用率的监视

设置是否进行CPU使用率的监视。

  • 复选框为"选中"
    进行CPU使用率的监视。
  • 复选框为"未选中"
    不进行CPU使用率的监视。

使用率 (1~100)

设置查出CPU使用率异常的阈值。

持续时间 (1~1440)

设置查出CPU使用率异常的时间。

若持续高于阈值的时间超过指定时间,将会查出异常。

总内存使用量的监视

设置是否进行总内存使用量的监视。

  • 复选框为"选中"
    进行总内存使用量的监视。
  • 复选框为"未选中"
    不进行总内存使用量的监视。

使用量 (1~100)

设置查出内存使用量异常的阈值(占系统内存量百分比)。

持续时间 (1~1440)

设置查出总内存使用量异常的时间。

若持续高于阈值的时间超过指定时间,将会查出异常。

总虚拟内存使用量的监视

设置是否进行总虚拟内存使用量的监视。

  • 复选框为"选中"
    进行总虚拟内存使用量的监视。
  • 复选框为"未选中"
    不进行总虚拟内存使用量的监视。

使用量 (1~100)

设置查出虚拟内存使用量异常的阈值。

持续时间 (1~1440)

设置查出总虚拟内存使用量异常的时间。

超过阈值的持续时间在所指定的时间以上时,查出异常。

总打开文件数的监视

设置是否进行总打开文件数的监视。

  • 复选框为"选中"
    进行总虚拟内存使用量的监视。
  • 复选框为"未选中"
    不进行总虚拟内存使用量的监视。

总打开文件数 (0~100)

设置查出总打开文件异常的阀值(对系统上限值的比率)。

持续时间 (1~1440)

设置查出总打开文件异常的时间

超过阈值的持续时间在所指定的时间以上时,查出异常。

总线程数的监视

设置是否进行总线程数的监视。

  • 复选框为"选中"
    进行总线程数的监视。
  • 复选框为"未选中"
    不进行总线程数的监视。

总线程数 (0~100)

设置查出总启动线程数异常的阀值(对系统上限值的比率)。

持续时间 (1~1440)

设置查出总线程数异常的时间

超过阈值的持续时间在所指定的时间以上时,查出异常。

每个用户的启动进程数的监视

设置是否进行各用户的启动进程数的监视。

  • 复选框为"选中"
    进行各用户的启动进程的监视。
  • 复选框为"未选中"
    不进行各用户的启动进程的监视。

各用户的启动进程数 (0~100)

设置查出各用户的启动进程数异常的阀值(对系统上限值的比率)。

持续时间 (1~1440)

设置查出各用户的启动进程数异常的时间

超过阈值的持续时间在所指定的时间以上时,查出异常。

添加

添加要监视的磁盘。会显示出[输入监视条件]对话框。

按照[输入监视条件]对话框的说明,进行判定为异常的监视条件的详细设置。

删除

从监视对象中删除在[磁盘列表]上选择的磁盘。

编辑

会显示出[输入监视条件]对话框。由于会显示出在[磁盘列表]上选择的磁盘的监视条件,因此可进行编辑,然后选择[OK]。

Mount点 (1024字节以内)

设置进行监视的Mount。需要以[/]开头。

使用率

设置是否进行磁盘使用率的监视。

  • 复选框为"选中"
    进行磁盘使用率的监视。
  • 复选框为"未选中"
    不进行磁盘使用率的监视。

警告级别 (1~100)

设置检测磁盘使用率警報级别异常的阈值。

通知级别 (1~100)

设置检测磁盘使用率通知级别异常的阈值。

持续时间 (1~43200)

设置检测磁盘使用率通知级别异常的时间。

在指定时间以上持续超过阈值时,检测为异常。

剩余容量

设置是否进行磁盘空余容量的监视。

  • 复选框为"选中"
    进行磁盘空余容量的监视。
  • 复选框为"未选中"
    不进行磁盘空余容量的监视。

警告级别 (1~4294967295)

设置检测磁盘空余容量警報级别异常的容量(MB)。

通知级别 (1~4294967295)

设置检测磁盘空余容量通知级别异常的容量(MB)。

持续时间 (1~43200)

设置检测磁盘空余容量通知级别异常的时间。

在指定时间以上持续超过阈值时,检测为异常。

4.45. 理解进程资源监视资源

进程资源监视资源可持续收集进程所使用的资源统计信息,并根据一定的知识信息进行解析处理。通过解析结果,可尽早发现资源枯竭。

4.45.1. 进程资源监视资源的注意事项

使用进程资源监视资源时,各服务器上需要zip以及unzip包。

有关运行确认完毕的版本,请参考《开始指南》的"EXPRESSCLUSTER的运行环境" - "软件" - "运行确认完毕的监视选项应用程序信息"。

请在复归对象中指定检测到进程资源监视资源异常时的失效切换对象资源。

进程资源监视资源的设定值建议使用默认。

换出的进程不作为资源异常检测对象。

动作中如果更改了OS的日期和时间时,每隔10分钟执行的解析处理的时机只在日期/时刻变更后的第一次发生偏离。由于会发生以下情况,必要时请挂起和恢复集群操作。

  • 即使过了异常检出的经过时间,也不执行异常的检出。

  • 异常检出经过时间前,执行异常的检出。

进行集群的挂起/复原时,从其启动的瞬间即开始收集信息。

SELinux请设置为permissive 或 disabled。

如果设为enforcing ,则可执行无法用EXPRESSCLUSTER进行必要的通信。

进程资源使用量的解析每10分钟进行一次。因此,持续监视时间最多可执行经过10分钟后才会查出异常。

如果监视资源的定义画面的类型栏中,没有显示[process resource monitor]时,请选择[获取License信息]来获取License信息。
进程资源监视资源所需的证书,请参考《开始指南》的"注意限制事项"-"研究系统配置时"-"功能列表与所需License"。
进程资源监视资源向文件中输出收集的统计信息以及解析信息。这些文件个数达到下述最大个数时,从旧的文件执行删除。
(下述文中的<data路径> 是<安装目录>/ha/sra/data/。)
  • 进程资源的统计信息
    路径: <data路径>/hasrm_monitor_list.xml.YYYYMMDDhhmmss.zip
    最大个数: 1500 个
  • 进程资源的解析信息
    路径: <data路径>/hasrm_analyze_list.xml.YYYYMMDDhhmmss.zip
    最大个数: 3 个

进程资源监视资源的状态从异常回到正常,请执行以下任意一种。

  • 集群的挂起·恢复

  • 集群的停止·启动

4.45.2. 进程资源监视资源的监视方法

进程资源监视资源进行以下监视。

持续收集并解析进程资源的使用量。

如果资源使用量超过预设阈值,则会查出异常。

若查出异常的状态与监视持续时间连续,则会通知资源监视异常。

进程资源监视(CPU,内存,线程数,僵死进程)在默认值下运行时,24小时后将通知资源监视的异常。

查出进程资源监视的内存使用量异常的示例如下所示。

  • 内存使用量与经过时间同时增减,并且更新了规定次数以上的最大值,增加率变为初始值的10%以上时

    由于最大更新次数为24小时(默认),并且增加率高于初始值的10%,因此判断为内存泄漏。

    _images/img_how-process-resource-monitor-resources-perform-monitoring-10.png

    图 4.89 内存使用量更新了规定次数以上的最大值,增加率超过初始值的10%(查出异常)

  • 在一定的范围内,内存使用量与经过时间同时增减

    _images/img_how-process-resource-monitor-resources-perform-monitoring-20.png

    图 4.90 内存使用量在一定范围内增减(不查出异常)

4.45.3. 监视(固有)标签页

进程名 (1023字节以内)

设置监视对象进程的进程名。不设置进程名时,启动中的所有进程都作为监视对象。

此外,以下3种情况也可指定进程名的通配符。除此之外无法指定。

【前方一致】 <进程名所包含的字符串>*

【后方一致】 *<进程名所包含的的字符串>

【部分一致】 *<进程名所包含的字符串>*

可指定为监视对象的进程名最多为1023字节。若指定超过1023字节的进程名之进程为监视对象时,使用通配符号(*)进行指定。

监视对象进程的进程名超过1023字节时,可识别的进程名只有前1023字节。使用通配符(*)指定时,请指定小于1023字节的字符串。

请通过ps(1)命令等确认实际运行进程的进程名后,设定监视对象进程名。

  • 执行结果实例

UID        PID  PPID  C STIME TTY          TIME CMD
root         1     0  0 Sep12 ?        00:00:00 init [5]
:
root      5314     1  0 Sep12 ?        00:00:00 /usr/sbin/acpid
root      5325     1  0 Sep12 ?        00:00:00 /usr/sbin/sshd
htt       5481     1  0 Sep12 ?        00:00:00 /usr/sbin/htt -retryonerror 0
在 /usr/sbin/htt 监视情况 执行上述命令,得出以上结果
指定监视对象进程名为 /usr/sbin/htt -retryonerror 0。

在监视对象进程名中,进程的参数为进程名的一部分来作为监视对象进程的特别指定。指定监视对象进程名时,请指定包括参数在内的进程名。仅监视不含参数的进程名时,请使用通配符号(*)来指定不含参数的前方一致或部分一致。

CPU使用率的监视

设置是否进行CPU使用率的监视。

  • 复选框为"选中"
    进行CPU使用率的监视。
  • 复选框为"未选中"
    不进行CPU使用率的监视。

使用率(1~100)

设置查出CPU使用率异常的阈值。

持续时间(1~129600)

设置查出CPU使用率异常的时间。

若持续高于阈值的时间超过指定时间,将会查出异常。

总内存使用量的监视

设置是否进行内存使用量的监视。

  • 复选框为"选中"
    进行内存使用量的监视。
  • 复选框为"未选中"
    不进行内存使用量的监视。

相比初次监视的增加率(1~1000)

设置查出内存使用量异常的阈值。

持续时间(1~129600)

设置查出内存使用量异常的时间。

若持续高于阈值的时间超过指定时间,将会查出异常。

打开文件数的监视(最大值)

设置是否进行打开文件数的监视(最大值)。

  • 复选框为"选中"
    进行打开文件数的监视。
  • 复选框为"未选中"
    不进行打开文件数的监视。

刷新次数(1~1024)

设置查出打开文件数异常的刷新次数。
打开文件数的最大值超过指定次数时,查出异常。

打开文件数的监视(内核上限值)

设置是否进行打开文件数的监视(内核上限值)。

  • 复选框为"选中"
    进行打开文件数的监视。
  • 复选框为"未选中"
    不进行打开文件数的监视。

比率(1~100)

设置查出打开文件数异常的阈值(对于内核上限值的比率)。

线程数的监视

设置是否进行线程数的监视。

  • 复选框为"选中"
    进行线程数的监视。
  • 复选框为"未选中"
    不进行线程数的监视。

持续时间(1~129600)

设置查出线程数异常的时间。

若线程数增加,存在超过指定时间以上的进程时,将会查出异常。

监视僵死进程

设置是否进行僵死进程的监视。

  • 选中复选框
    进行僵死进程的监视。
  • 不选中复选框
    不进行僵死进程的监视。

持续时间(1~129600)

设置查出僵死进程的时间。
如果存在超过指定的僵死进程时间的进程,则查出异常。

监视同一名称的进程

设置是否监视同一名称的进程。

  • 选中复选框
    进行同一名称进程的监视。
  • 不选中复选框
    不进行同一名称进程的监视。

个数(1~10000)

设置查出同一名称进程异常的个数。
同一名称进程超过指定个数时,查出异常。

4.46. 理解AWS Elastic IP监视资源

AWS Elastic IP监视资源利用EIP控制时,利用AWS CLI命令确认EIP的存在的监视资源。

4.46.1. AWS Elastic IP监视资源的注意事项

4.46.2. 使环境变量反映到AWS Elastic IP监视资源执行的AWS CLI中

请参考本指南的"3. 组资源的详细信息"-"理解AWS Elastic IP资源"-"使环境变量反映到AWS Elastic IP资源执行的AWS CLI中"。

4.46.3. 监视(固有)标签页

AWS CLI命令未得到应答时的动作

指定AWS CLI命令未得到应答时的动作。例如,当区域终端节点由于维护而停止或停机,到区域终端节点的通信路径出现问题或延迟,由于重负载导致的AWS CLI超时或credential错误时,就会发生AWS CLI命令响应获取失败。设置以下内容作为基准。

  • AWS CLI命令失败时进行失效切换:请设置为[运行复归动作]。

  • AWS CLI命令失败时不进行失效切换直接显示警告时:请设置不运行复归动作(显示警告)。

  • AWS CLI命令失败,由于监视对象非异常,不做任何处理时:请设置不运行复归动作(不显示警告)。即使在这种情况下,当无法确认EIP的存在时也可以检测到异常。因此,建议使用此设置。

4.47. 理解AWS虚拟IP监视资源

AWS虚拟IP监视资源利用VIP控制时,利用OS API及AWS CLI命令确认VIP的存在及VPC的路径是否健全的监视资源。AWS虚拟IP监视资源监视时执行AWS CLI,进行route table的确认处理。

4.47.1. AWS虚拟IP监视资源的注意事项

4.47.2. 使环境变量反映到AWS虚拟IP监视资源执行的AWS CLI中

请参考本指南的"3. 组资源的详细信息"-"理解AWS虚拟IP资源"- "使环境变量反映到AWS虚拟IP资源执行的AWS CLI中"。

4.47.3. 监视(固有)标签页

AWS CLI命令未得到应答时的动作

指定获取AWS CLI命令响应失败时的动作。例如,当区域终端节点由于维护而停止或停机,到区域终端节点的通信路径出现问题或延迟,由于重负载导致的AWS CLI超时或credential错误时,就会发生AWS CLI命令响应获取失败。设置以下内容作为基准。

  • AWS CLI命令失败时进行失效切换:请设置为[运行复归动作]。

  • AWS CLI命令失败时不进行失效切换直接显示警告时:请设置不运行复归动作(显示警告)。

  • AWS CLI命令失败,由于监视对象非异常,不做任何处理时:请设置不运行复归动作(不显示警告)。即使在这种情况下,当无法确认VIP的存在时也可以检测到异常。因此,建议使用此设置。

4.48. 理解AWS AZ监视资源

AWS AZ监视资源利用AWS CLI命令,监视各服务器所属的AZ是否健全的监视资源。 使用AWS CLI可以获取的AZ状态为available时为正常,information或impaired时为警告,unavailable时为异常。内部版本4.2.0-1之前的版本中,available 以外的场合都为异常。

4.48.1. AWS AZ监视资源的注意事项

4.48.2. 使环境变量反映到AWS AZ监视资源执行的AWS CLI中

请参考本指南的"3. 组资源的详细信息"-"理解AWS虚拟IP资源"- "使环境变量反映到AWS虚拟IP资源执行的AWS CLI中"。

4.48.3. 监视(固有)标签页

可用性区域 (45字节以内) 服务器個个别设置

指定进行监视的可用区域。

AWS CLI命令未得到应答时的动作

指定获取AWS CLI命令响应失败时的动作。例如,当区域终端节点由于维护而停止或停机,到区域终端节点的通信路径出现问题或延迟,由于重负载导致的AWS CLI超时或credential错误时,就会发生AWS CLI命令响应获取失败。设置以下内容作为基准。

  • AWS CLI命令失败时进行失效切换:请设置为[运行复归动作]。

  • AWS CLI命令失败时不进行失效切换直接显示警告时:请设置不运行复归动作(显示警告)。

  • AWS CLI命令失败,由于监视对象非异常,不做任何处理时:请设置不运行复归动作(不显示警告)。即使在这种情况下,当无法确认AZ的安定性时也可以检测到异常。因此,建议使用此设置。

4.49. 理解AWS DNS监视资源

AWS DNS监视资源利用OS API及AWS CLI命令,确认登录的IP地址是否健全的监视资源。

以下情况视为异常并进行通知

  • 该资源记录集不存在时。

  • 根据虚拟主机名(DNS 名)的域名解析无法得到登录的[IP 地址]时。

4.49.1. AWS DNS 监视资源的注意事项

4.49.2. 向AWS DNS 监视资源执行的AWS CLI反映环境变量

请参照本指南的"3. 组资源的详细信息"-"理解AWS DNS资源"-的"使环境变量反映到AWS DNS 资源执行的AWS CLI中"。

4.49.3. 监视(固有)标签页

监视资源记录集

  • 复选框On(默认)
    确认该资源记录集是否存在。
  • 复选框Off
    不监视。

AWS CLI命令未得到应答时的动作

指定AWS CLI 命令未得到应答时的动作。例如,当区域终端节点由于维护而停止或停机,到区域终端节点的通信路径出现问题或延迟,由于重负载导致的AWS CLI超时或credential错误时,就会发生AWS CLI命令响应获取失败。设置以下内容作为基准。

  • AWS CLI命令失败时进行失效切换:请设置为[运行复归动作]。

  • AWS CLI命令失败时不进行失效切换直接显示警告时:请设置不运行复归动作(显示警告)。

  • AWS CLI命令失败,由于监视对象非异常,不做任何处理时:请设置不运行复归动作(不显示警告)。即使在这种情况下,当无法确认注册IP地址的健全性时,也可以检测到错误。因此,建议使用此设置。

执行域名解析检查

  • 复选框On(默认)
    确认是否能根据虚拟主机名(DNS名)的域名解析得到登录的IP地址。
  • 复选框Off
    不监视。

4.50. 理解Azure 探头端口监视资源

Azure 探头端口监视资源针对启动Azure Probe端口资源的节点,进行Azure探头端口资源启动时所启动Probe端口控制进程的死活监视,没有正常启动时,变为监视异常。

4.50.1. Azure 探头端口监视资源的注意事项

  • 添加Azure 探头端口资源后会自动新建。针对一个Azure 探头端口资源会自动新建一个Azure 探头端口监视资源。

  • Azure探头端口监视资源监视Azure探头端口资源中是否发生探头等待超时。因此,需要将Azure探头端口监视资源的监视时间间隔设置为大于在受监视的Azure探头端口资源上设置的[Probe等待超时]的值。

  • 请参考《开始指南》的"注意限制事项" - "创建EXPRESSCLUSTER的信息时"-"关于Azure 探头端口资源的设置"。

4.50.2. 监视(固有)标签页

Probe端口等待超时的动作

在Azure 探头端口资源上指定发生探头端口等待超时时的复归动作。

4.51. 理解Azure负载均衡监视资源

Azure负载均衡器监视资源针对没有启动Azure 探头端口资源的节点,确认与Probe端口相同端口号是否被开放。

4.51.1. Azure负载均衡监视资源的注意事项

4.51.2. 监视(固有)标签页

目标资源

指定对象的Azure 探头端口资源名。

4.52. 理解Azure DNS监视资源

Azure DNS监视资源对Microsoft Azure的权威DNS服务器发送请求,确认登录的IP地址是否健全的监视资源。

以下情况视为异常并进行通知。

  • 根据虚拟主机名(DNS 名)的域名解析无法得到登录的[IP 地址]时。

  • 取得DNS服务器一览失败时

4.52.1. Azure DNS 监视资源的注意事项

4.52.2. 监视(固有)标签页

执行域名解析检查

  • 复选框On(默认)
    确认是否能根据虚拟主机名(DNS名)的域名解析得到登录的IP地址。
  • 复选框Off
    不监视。

4.53. 理解Google Cloud 虚拟 IP 监视资源

Google Cloud 虚拟 IP监视资源,对启动了Google Cloud 虚拟 IP资源的节点,对在Google Cloud 虚拟 IP资源启动时启动的控制过程进行死活监视。没有正常启动时视为监视异常。此外,如果在等待存活侦测时发生超时,则会发生监视错误,具体取决于指定[存活侦测超时的动作]。

4.53.1. Google Cloud 虚拟 IP 监视资源的注意事项

  • 添加Google Cloud 虚拟 IP 资源后自动创建。对于每一个Google Cloud 虚拟 IP 资源都自动创建一个 Google Cloud 虚拟 IP 监视资源。

  • Google Cloud 虚拟 IP监视资源监视等待存活侦测时Google Cloud 虚拟 IP资源中是否发生了超时。因此,Google Cloud 虚拟 IP监视资源的监视间隔,必须大于监视目标的Google Cloud 虚拟 IP资源设置的[存活侦测超时]的值。

  • 请参考《开始指南》的"注意限制事项" - "创建EXPRESSCLUSTER的信息时" - "关于Google Cloud 虚拟 IP 资源的设置"。

4.53.2. 监视 (固有) 标签页

存活侦测超时的动作

请指定Google Cloud虚拟IP资源在等待存活侦测时发生超时的复归动作。

4.54. 理解Google Cloud 负载均衡监视资源

Google Cloud负载均衡监视资源,对没有启动Google Cloud虚拟IP资源的节点,确认是否开放了与用于存活侦测的端口相同的端口号。

4.54.1. Google Cloud 负载均衡监视资源的注意事项

4.54.2. 监视 (固有) 标签页

对象资源

指定作为对象的 Google Cloud 虚拟 IP 资源名。

4.55. 理解Google Cloud DNS监视资源

Google Cloud DNS监视资源确认在 Google Cloud DNS上是否存在由指定为启动时监视对象资源的 Google Cloud DNS资源控制的记录集和A记录。

4.55.1. Google Cloud DNS 监视资源的注意事项

4.56. 理解Oracle Cloud 虚拟 IP 监视资源

Oracle Cloud 虚拟 IP监视资源,对启动了Oracle Cloud 虚拟 IP资源的节点,对在Oracle Cloud 虚拟 IP资源启动时启动的控制过程进行死活监视。没有正常启动时视为监视异常。此外,如果在等待存活侦测时发生超时,则会发生监视错误,具体取决于指定[存活侦测超时的动作]。

4.56.1. Oracle Cloud 虚拟 IP 监视资源的注意事项

  • 添加Oracle Cloud 虚拟 IP 资源后自动创建。对于每一个Oracle Cloud 虚拟 IP 资源都自动创建一个Oracle Cloud 虚拟 IP 监视资源。

  • Oracle Cloud 虚拟 IP监视资源监视等待存活侦测时Oracle Cloud 虚拟 IP资源中是否发生了超时。因此,Oracle Cloud 虚拟 IP监视资源的监视间隔,必须大于监视目标的Oracle Cloud 虚拟 IP资源设置的[存活侦测超时]的值。

  • 请参考《开始指南》的"注意限制事项" - "创建EXPRESSCLUSTER的信息时" - "关于Oracle Cloud 虚拟 IP 资源的设置"。

4.56.2. 监视 (固有) 标签页

存活侦测超时的动作

请指定Oracle Cloud虚拟IP资源在等待存活侦测时发生超时的复归动作。

4.57. 理解Oracle Cloud 负载均衡监视资源

Oracle Cloud负载均衡监视资源,对没有启动Oracle Cloud虚拟IP资源的节点,确认是否开放了与用于存活侦测的端口相同的端口号。

4.57.1. Oracle Cloud 负载均衡监视资源的注意事项

4.57.2. 监视 (固有) 标签页

对象资源

指定作为对象的Oracle Cloud 虚拟 IP 资源名。