1. 前言

1.1. 读者对象和用途

《EXPRESSCLUSTER® X 开始指南》以初次使用EXPRESSCLUSTER的用户为对象,就EXPRESSCLUSTER的产品概要,导入集群系统的装入图和其他手册的使用方法等指南进行了说明。此外,就最新的运行环境信息和限制事项等进行说明。

1.2. 本手册的构成

1.3. EXPRESSCLUSTER手册体系

EXPRESSCLUSTER的手册分为以下4 类。各指南的标题和用途如下所示。

《EXPRESSCLUSTER X 开始指南》 (Getting Started Guide)

本手册的读者对象为所有用户,对产品概要,运行环境,升级信息以及现有的问题等进行了说明。

EXPRESSCLUSTER X 安装&设置指南》 (Installation and Configuration Guide)

本手册的读者对象为导入使用EXPRESSCLUSTER构筑集群系统的系统工程师以及导入集群系统后进行维护和操作的系统管理员,对使用EXPRESSCLUSTER导入集群系统后到开始操作前的必备事项进行说明。手册按照实际导入集群系统时的顺序,对使用EXPRESSCLUSTER的集群系统的设计方法,EXPRESSCLUSTER的安装设置步骤,设置后的确认以及开始操作前的测试方法进行了说明。

EXPRESSCLUSTER X 参考指南》 (Reference Guide)

本手册的读者对象为管理员以及导入使用EXPRESSCLUSTER的集群系统的系统工程师。对EXPRESSCLUSTER的操作步骤,各模块的功能以及疑难解答信息等进行了说明,是对《安装&设置指南》的补充。

EXPRESSCLUSTER X 维护指南》(Maintenance Guide)

本手册的读者对象为管理员以及导入使用EXPRESSCLUSTER的集群系统后进行维护和操作的系统管理员,对EXPRESSCLUSTER的维护的相关信息进行了说明。

1.4. 本手册的标记规则

在本手册中,需要注意的事项,重要的事项以及相关信息等用如下方法标记。

注解

表示虽然比较重要,但是并不会引起数据损失或系统以及机器损伤的信息。

重要

表示为避免数据损失和系统,机器损坏所必需的信息。

参见

表示参考信息的位置。

另外,在本手册中使用以下标记法。

标记

使用方法

[ ] 方括号
在命令名的前后,
显示在画面中的字句 (对话框,菜单等) 的前后。
点击[启动]
[详细信息]对话框

命令行中的[ ] 方括号

表示括号内的值可以不予指定(可省)。

clpstat -s [-h host_name]

等宽字体

路径名,命令行,系统输出(消息,提示等),目录,文件名,函数,参数。

c:\Program files\EXPRESSCLUSTER

粗体
用户在命令提示符后实际输入的值。
输入以下内容。
clpcl -s -a
斜体
用户将之替换为有效值后输入的项目。

clpstat -s [-h host_name]

EXPRESSCLUSTER X 在本手册的图中,为了表示EXPRESSCLUSTER,使用该图标。

1.5. 最新信息来源

关于最新的产品信息,请参考以下Web站点。

2. 何谓集群系统

本章就集群系统的概要进行说明。

本章说明的项目如下所示。

2.1. 集群系统的概要

现在的计算机社会中,持续的提供不停止的服务已经成为通往成功的关键。例如仅由于1台机器故障或超负荷而宕机就导致对客户的服务全面停止。这样的话,不但会带来莫大的损失,还会失去客户的信任。

随着集群系统的导入,发生意外事故时会将系统停止时间(宕机时间)降低到最小限度,使负载均衡,提高其可用性。

所谓集群,有"集团","团"的意思,顾名思义是"将多个计算机汇集成一群(或者多群),谋求提升可靠性及处理性能的系统"。集群系统有多个种类,可分为下列3种。其中,EXPRESSCLUSTER属于High Availability集群。

  • HA (High Availability) 集群
    是平时作为运行服务器作业,在运行服务器发生故障时将业务交接到待机服务器的集群。是以高可用性为目的的集群。包括共享磁盘型,镜像磁盘型。
  • 负载均衡集群
    是将客户端的请求遵从恰当的负荷均衡原则分配给各节点的集群。是以高扩展性为目的的集群,一般无法进行数据交接。包括load balance集群,并列数据库集群。
  • HPC (High Performance Computing)集群
    是指计算量非常大的集群。是为使用超级计算机执行单一业务的集群。使用所有节点的CPU来执行单一业务的网格计算技术近年来已成为热点。

2.2. HA (High Availability)集群

一般提升系统可用性时,会认为对构成系统的组件进行冗余化,消除Single Point of Failure是重要的。所谓Single Point of Failure指的是计算机的构成要素(硬件的组件)因为只有一个,所以该处发生故障时会有使业务停止的弱点。所谓HA集群是使用多台节点进行冗余化操作,将系统停止时间控制在最小限度,提升业务可用性(availability)的集群系统。
某些骨干业务系统等的宕机会给业务带来很大影响,因此此类系统不允许停止,需要导入HA集群。

HA集群可分为共享磁盘型和镜像磁盘型。以下开始逐一进行说明。

2.2.1. 共享磁盘型

集群系统中服务器间必须要交接数据。将这些数据从多个服务器放到像以SAN连接的FibreChannel磁盘阵列装置这样可以访问的外置磁盘(共享磁盘)上,通过该磁盘在服务器间交接数据即称为共享磁盘型集群系统。

连接共享磁盘的2台服务器

图 2.1 HA集群配置图(共享磁盘型)

  • 由于需要共享磁盘而价格高

  • 适用于处理大规模数据的系统

运行业务应用程序的服务器(运行服务器)发生故障时,集群系统查出故障并在交接业务的服务器(待机服务器)中自动启动业务应用程序,交接业务。这称为失效切换。集群系统交接的业务由磁盘,IP地址,应用程序等资源构成。

在没有集群化的系统中使用其它服务器重启应用程序时,客户端必须再次连接不同的IP地址。但是多数的集群系统里不是以业务为单位给服务器分配IP,而是分配其他网络的IP地址(虚拟IP地址)。因此客户端没必要去区分正在执行业务的是运行服务器还是待机服务器,如同连接同一个服务器一样,可以持续地运行业务。

由于运行服务器宕机发生失效切换时,共享磁盘上的数据没有进行妥当的结束处理就交接给待机服务器。因此待机服务器中有必要对交接的数据进行逻辑检查。这与一般未集群化的系统宕机后重启时进行的处理是一样的。例如,如果是数据库就需要回滚及前滚的处理。由此客户端仅运行未确认的SQL就可以继续业务。

故障发生后,被查出故障的服务器经过物理隔离修复后,只要连接集群系统就可以作为待机服务器恢复运行。重视业务连续性的实际操作中,也可以不进行组的故障恢复。如果必须要在原来的服务器上运行业务时,请移动组。

4个场景,一般使用,发生故障,服务器恢复,业务移动

图 2.2 发生故障到恢复的流程

  1. 一般使用

  2. 发生故障

  3. 服务器恢复

  4. 业务移动

由于失效切换处的服务器配置不够,双向待机引起超负荷等原因而希望在原来的服务器上运行业务时,原来节点的恢复作业完成后将暂时停止业务,在原来的节点上重启业务。将失效切换的组返回到原来的服务器称为故障恢复。

图 2.3 从发生故障到恢复的流程 所示,只有1个业务,待机服务器为不运行业务的待机形态称为单向待机。

连接共享磁盘的2台服务器

图 2.3 HA集群的运行形态(单向待机)

图 2.4 HA集群的运行形态(双向待机) 所示,有两个业务以上,各种服务器有运行系统和待机系统两种形态,称为双向待机。
Server 1是Application A的运行系统,同时又是Application B的待机系统。
Server 2是Application B的运行系统,同时又是Application A的待机系统。
连接共享磁盘的2台服务器

图 2.4 HA集群的运行形态(双向待机)

2.2.2. 镜像磁盘型

上述共享磁盘型适用于大规模系统,但共享磁盘大体价格较高因此构筑系统的成本也会增大。所以,不使用共享磁盘,而通过将各服务器磁盘在服务器间建立镜像,可以以更低的价格实现相同功能,这类集群系统称为镜像磁盘型集群系统。

但是,由于需要在服务器间为数据建立镜像,因此不适用于需要大量数据的大规模系统。

应用程序发出Write请求时,数据镜像引擎会将数据写入本地磁盘的同时,通过心跳线将Write请求分发给待机服务器。所谓心跳线是连接在服务器之间的电缆,在集群系统中用于服务器的死活监视。数据镜像型中除死活监视外还用于数据的传送。待机服务器的数据镜像引擎通过将接收的数据写入待机服务器的本地磁盘中,使运行服务器和待机服务器间的数据实现同步。

对于应用程序发出的Read请求,仅从运行服务器的磁盘中读取。

连接各种磁盘的2台服务器

图 2.5 数据镜像的结构

快照备份就是使用数据镜像的例子。因数据镜像型的集群系统在2个地方持有共享数据,只需将待机服务器从集群分离,即可作为快照备份来保存数据。

HA集群的机制和问题点

下面就集群的实现和问题点进行说明。

2.3. 系统构成

共享磁盘型集群将磁盘阵列装置在集群服务器间实现共享。服务器发生故障时待机服务器使用共享磁盘上的数据实现数据的交接。

镜像磁盘型集群是经过网络将集群服务器上的数据磁盘镜像化的构成。服务器故障时使用待机服务器上的镜像数据交接业务。数据的镜像化以I/O为单位进行,因此从上层应用程序看是与共享磁盘相同的。

下图是共享磁盘型集群的构成图例。

配置集群的2台服务器,PC

图 2.6 系统构成

根据运行形态可以将失效切换型集群分为下列几类。

单向待机集群

将其中一个服务器作为运行服务器作业,另一方的服务器作为待机服务器不进行作业的运行形态。可以以最简单的运行形态构建失效切换后没有性能下降的高可用性系统。

配置集群的2台服务器,PC

图 2.7 单向待机集群(1)

配置集群的2台服务器,PC

图 2.8 单向待机集群(2)

同一应用程序双向待机集群

在多个服务器上运行相同的业务应用程序并互相待机的运行形态。各业务应用程序独立运行。失效切换时在一台服务器上将运行多个同一业务应用程序,所以必须是可以实现这种运行的应用程序。可以将某个业务数据分割成多个时,按照想要访问的数据变更客户端连接的服务器,可以构筑以数据分割为单位的负载均衡系统。

配置集群的2台服务器,PC

图 2.9 同一应用程序双向待机集群(1)

配置集群的2台服务器,PC

图 2.10 同一应用程序双向待机集群(2)

不同应用程序双向待机集群

是使多种业务应用程序在不同的服务器上运行并互相待机的运行形态。失效切换时在一台服务器上将运行多个业务应用程序,因此必须使这些应用程序可以共存。可以构筑以业务为单位的负荷均衡系统。

Application A和Application B是不同应用程序。

配置集群的2台服务器,PC

图 2.11 不同应用程序双向待机集群(1)

配置集群的2台服务器,PC

图 2.12 不同应用程序双向待机集群(2)

N + N 结构

应用以上的结构,可以扩展到使用更多的节点。下图是在3台服务器上运行3种不同业务,一旦发生问题时向1台待机服务器交接该业务的结构。在单向待机中正常时待机服务器不进行任何业务,因此闲置的资源比率为1/2。如果采用此结构,闲置的资源比率为1/4,可以降低成本。另外,另外如果有1台服务器发生异常,也不会降低性能。

配置集群的4台服务器

图 2.13 N + N 结构 (1)

配置集群的4台服务器

图 2.14 N + N 结构 (2)

2.4. 查出故障的原理

集群软件一查出给持续业务带来问题的故障就会执行业务交接(失效切换)。在进入失效切换处理的具体内容之前,先简单地介绍一下集群软件是怎样查出故障的。

EXPRESSCLUSTER为监视服务器,定期地与伙伴服务器进行生存确认。将此生存确认称为心跳。

心跳和服务器故障的查出

集群系统中应该查出的最基本的故障是配置集群的服务器的宕机。服务器的故障中包含电源异常以及内存错误等硬件故障或者OS的崩溃等。为了查出此类故障,使用心跳来监视服务器的死活。

心跳可以仅通过确认ping的应答这种死活监视方式,根据集群软件不同,也可以传送本地服务器的状态信息等内容。集群软件收发心跳,在心跳无应答时视作该服务器故障并开始失效切换处理。但考虑到由于服务器的高负荷等原因会导致心跳的收发延迟,所以到判定为服务器故障需要一定程度的缓冲时间。因此实际发生故障的时间和集群软件查出故障的时间会存在时间差。

资源故障的查出

业务停止的主要原因不仅仅是由于配置集群的服务器的宕机。例如,由于业务应用程序使用的磁盘装置以及NIC的故障,或者业务应用程序本身的故障等也会导致业务停止。为了提升可用性,也必须查出这样的资源故障,实施失效切换。

作为查出资源异常的手段,所要监视的资源为物理设备时可以采用实际尝试访问的方法。应用程序的监视中,除了应用程序进程本身的死活监视以外,在对业务没有影响的范围内,也可以考虑尝试服务端口。

2.4.1. 共享磁盘的互斥控制

共享磁盘型的失效切换集群中,多个服务器上共享磁盘装置。一般而言,文件系统通过保持服务器内数据的缓存,可以激发超出磁盘装置物理I/O性能界限的文件I/O性能。

如果从多个服务器上mount同时访问某个文件系统的话会怎么样呢?

通常的文件系统不考虑在自身以外的服务器上更新磁盘上的数据。因此缓存和磁盘上的数据会产生矛盾,最终将导致数据遭到损坏。失效切换集群系统中,为了防止后面提到的网络分区状态所引起的多个服务器同时mount文件系统,会对磁盘装置采取互斥控制。

2.4.2. 网络分区症状 (Split-brain-syndrome)

切断所有连接在服务器间的心跳线时,仅根据心跳所进行的死活监视将不能与服务器宕机进行区分。这种状态下会被当作是服务器宕机,实行失效切换处理,在多个服务器上同时mount文件系统,将损坏共享磁盘上的数据。

相互连接的网络被断开的2台服务器

图 2.15 网络分区症状

将这样的问题称为"网络分区症状"或者Split-brain-syndrome。为了解决这个问题,在失效切换集群中所有的心跳线都被切断时,可以考虑运用能确切实现共享磁盘装置互斥控制的各种对策。

2.5. 集群资源的交接

集群管理的资源中有磁盘,IP地址,应用程序等内容。下面说明用于交接这些集群资源的失效切换集群系统的功能。

2.5.1. 数据的交接

在共享磁盘型集群中,共享磁盘装置上的分区保存服务器之间的交接数据。也就是说,所谓的交接数据,就是在正常的服务器上对应用程序使用的文件所在分区的文件系统重新mount。由于共享磁盘装置与交接目标服务器是物理连接,因此,集群软件应该做就只有文件系统的mount。

连接共享磁盘的2台服务器

图 2.16 数据的交接

看似简单,但是在设计/构筑集群系统时有几点必须要注意。

一个是文件系统以及数据库的恢复时间问题。要交接的文件在故障发生的前一刻被其他的服务器所使用,或者也许正在被更新。因此,有些文件系统,有时需要交接时进行一致性的检查,如果是数据库就需要进行回滚等处理。这种情况与电源故障造成宕机重启单个服务器时是一样的。此类恢复处理需要较长时间时,若就此追加在失效切换时间(业务的交接时间)上,将成为系统可用性低下的主要原因。

还有一个就是写入保证的问题。应用程序向共享磁盘里写入数据时,通常是通过文件系统写入。应用程序即使写入完成,文件系统仍会保留在磁盘缓存上,所以未写入共享磁盘,运行服务器就宕机的情况下,磁盘缓存上的数据将不能交接到待机服务器。因此,发生故障时,需要切实交接到待机服务器的重要数据,必须要通过同步写入等方法,切实地写入到磁盘中。这与单个服务器宕机时数据不因断电而丢失一样。也就是说,在设计集群系统时要考虑到:交接给待机服务器的只有共享磁盘中记录的数据,象磁盘缓存这样的内存上的数据不予交接。

2.5.2. IP地址的交接

集群软件进行的下一个任务是IP地址的交接。失效切换时,通过IP地址的交接,所以不用在意业务在哪个服务器上运行。集群软件交接IP地址的目的就在于此。

2.5.3. 应用程序的交接

集群软件业务交接的最后任务是交接应用程序。与容错计算机(FTC)不同,在一般的失效切换集群中不交接包含应用程序运行中内存内容的进程状态等。也就是说,通过将故障服务器上运行的应用程序,在正常的服务器中重新执行,来完成应用程序的交接。

例如对DB实例进行失效切换时,并非以发生故障前一刻的状态重启,而是和先宕机再启动一样,进行事务的回滚,并且需要从客户端再次连接。该数据库恢复所需要的时间可以通过DBMS的Check Point Interval的设置在某种程度上进行控制,但是一般都需要几分钟。

多数应用程序仅通过再次执行就可以再续业务,但是也有的应用程序需要在故障发生后进行业务恢复操作。为此,集群软件通过启动脚本替代应用程序以便能够描述业务恢复步骤。脚本中以描述脚本执行的主要原因以及执行服务器等信息为主,根据需要,也描述清除正在更新的文件等恢复步骤。

2.5.4. 失效切换总结

从上述内容可以理解以下集群软件的运行。

  1. 查出故障(心跳/资源监视)

  2. Fencing (解决网络分区状态(解决NP) 以及 切断发生故障的服务器)

  3. 数据的交接

  4. IP地址的交接

  5. 应用程序的交接

显示停止时间内的时间经过以及状态转换的图

图 2.17 失效切换时间一览表

集群软件为了实现失效切换,就是这样将所有处理一一在短时间内予以实施,来实现高可用性(High Availability)的。

2.6. Single Point of Failure的排除

在构筑高可用性系统时把握所要求的或者说目标的可用性水平是很重要的。也就是说对于可执行阻碍系统运行的各种故障,应采用冗余结构,以使运行得以持续并在短时间内能够恢复,讨论或设计系统时就需要从上述策略的性价比方面进行考虑。

所谓Single Point of Failure(SPOF),前面讲过是指和系统停止相关联的部位。集群系统可以实现服务器的多重化,排除系统的SPOF。但是共享磁盘等服务器间共享部分会成为SPOF。设计多重化或者排除该共享部分的系统成为构筑高可用性系统的要点。

集群系统要提升可用性,但是失效切换中也需要几分钟的系统切换时间。因此也可以说失效切换时间是可用性低下的一个主要原因。为此在高可用性系统中,提高单个服务器可用性的ECC存储以及冗余电源等的技术是重要的。但是在此并不涉及单个服务器的可用性提升技术,而是深入研究一下集群系统中容易造成SPOF的下述3项内容,看看能有怎样的对策。

  • 共享磁盘

  • 通往共享磁盘的访问路径

  • LAN

2.6.1. 共享磁盘

通常共享磁盘按照磁盘阵列组合RAID,所以磁盘的成对驱动器不会成为SPOF。但是由于内置RAID控制器,所以控制器会有问题。多个集群系统中采用的共享磁盘里可以实现控制器的二重化。

为了发挥二重化RAID控制器的长处,通常有必要实现共享磁盘访问路径的二重化。但是如果是由二重化的多个控制程序能够同时访问同一逻辑磁盘单元(LUN)的共享磁盘,每个控制器上连接1台服务器则在控制器发生异常时在节点间实施失效切换,就可以实现高可用性。

内置一个RAID Controller的共享磁盘和与之相连的2台服务器

图 2.18 RAID控制器和访问路径为SPOF的示例

内置两个RAID Controller的共享磁盘和与之相连的2台服务器

图 2.19 RAID控制器和访问路径二重化的示例

※HBA: 是Host Bus Adapter的略称,不是指共享磁盘端的而是指服务器本体端的适配器。

一方面,在不使用共享磁盘的数据镜像型失效切换集群中,由于将所有的数据都在其他服务器的磁盘中建立镜像,所以可以实现不存在SPOF的系统构成。但是需要考虑下列几点。

  • 通过网络实现数据镜像化导致磁盘I/O性能(特别是write性能)低下

  • 服务器故障恢复时,镜像在再次同步中的系统性能(镜像复制通过后台实施)低下

  • 镜像的再次同步时间(镜像再次同步完成为止无法失效切换)

也就是说数据的链接多而数据容量不大的系统中,采用数据镜像型失效切换集群对于提升可用性是有效的。

2.6.2. 共享磁盘的访问路径

共享磁盘型集群的一般结构中,共享磁盘的访问路径在配置集群的各服务器中是共享的。以SCSI为例,1条SCSI路径上可以连接2台服务器和共享磁盘。因此,对共享磁盘的访问路径异常是整个系统瘫痪的重要原因。

解决办法:是准备多条访问共享磁盘的路径的冗余结构,使应用程序对共享磁盘的访问路径看起来像1条。实现该结构的设备驱动程序被称为路径失效切换驱动程序等。

具有到共享磁盘的二重化访问路径的2台服务器

图 2.20 路径失效切换驱动

2.6.3. LAN

不仅限于集群系统,在网络上执行某些服务的系统中,LAN的故障也是阻碍系统运行的重要因素。集群系统中,进行适当的设置,可在NIC故障时进行节点间失效切换,提高可用性。但是集群系统外的网络机器发生故障时,仍然会阻碍系统工作。

2台服务器和通过路由器与之相连的PC

图 2.21 LAN故障的示例(NIC)

图中所示的情况,即使服务器上的NIC发生故障,也可以通过失效切换,继续从PC访问服务器上的服务。

2台服务器和通过路由器与之相连的PC

图 2.22 LAN故障的示例(路由器)

该图所示的情况,如果路由器发生故障,则无法继续从PC访问服务器上的服务(路由器为SPOF)。

在这种情况下,通过LAN的冗余化,可以提高系统的可用性。在集群系统中,提高LAN的可用性时,可以同样利用单个服务器下的技术。比如,可以考虑通过不接通预备的网络机器的电源,在发生故障的情况下手动进行切换的原始方法,以及冗余配置高性能的网络机器,多重化网络路径来自动切换路径的方法。另外,可以考虑利用如英特尔公司的ANS之类,支持NIC的冗余配置的驱动程序。

LoadBalance装置 (Load Balance Appliance) 和防火墙服务器(Firewall Appliance)也是容易导致SPOF的网络机器。这些通常使用标准或可选软件,来构建失效切换结构。同时,这些机器一般在系统整体中处于非常重要的位置,所以必须要考虑搭建冗余结构。

2.7. 支持可用性的操作

2.7.1. 操作前测试

我们常说产生系统故障的主要原因大多为设置的错误以及操作的维护。从这一点考虑,实现高可用性系统时,操作前的测试和恢复故障手册的完备对于系统的稳定运行是很重要的。作为测试观点,结合实际操作,执行下列工作成为提升可用性的要点。

  • 找出故障发生位置,商讨对策,进行模拟故障测试,并实际验证。

  • 进行假设的集群"一系列状态变化"的测试,对降级运行时的性能进行验证。

  • 以这些测试为基础,完善系统操作/恢复故障手册。

设计简单的集群系统,可以简化上述的验证和手册,是提升系统可用性的要点。

2.7.2. 故障的监视

虽然我们已经做了上述的努力,可执行还是会发生故障。系统长期持续运行后,必然会发生故障,其原因可执行是硬件老化,软件的内存泄漏,或者操作时超过系统当初设计的承受能力等。因此,在提高硬件,软件可用性的同时,需要进一步监视故障,在发生故障时采取恰当的处理,这一点非常重要。例如,万一服务器发生故障,可以通过搭建集群系统,只需要几分钟的切换时间就可以使系统继续运行,但是如果置之不管,系统失去冗余性,发生下一个故障时集群系统就没有任何意义了。

因此,发生故障时,系统管理员必须要采取措施防范下一故障的发生,排除新发生的SPOF。在支持系统管理业务上,远程维护,故障通知等功能非常重要。

以上介绍了使用集群系统实现高可用性时所需的周边技术以及其他的一些要点。简单总结一下,就是要注意以下几点:

  • 排除或掌握Single Point of Failure

  • 进行不容易出故障的简洁设计,基于操作前的测试,完善系统操作/恢复故障手册

  • 及早查出发生的故障并进行恰当的处理

3. 关于EXPRESSCLUSTER

本章介绍EXPRESSCLUSTER各个组件的说明,从集群系统的设计到运行步骤之间的流程。

本章将介绍以下内容。

3.1. 何谓EXPRESSCLUSTER

对集群有了一定的理解后,让我们介绍一下EXPRESSCLUSTER。所谓EXPRESSCLUSTER 是用于实现HA集群系统的软件。

3.2. EXPRESSCLUSTER的产品结构

EXPRESSCLUSTER可以大致分为2个模块。

  • EXPRESSCLUSTER Server
    是EXPRESSCLUSTER的主体。安装在配置集群系统的各服务器上。在EXPRESSCLUSTER Server 中包含了所有EXPRESSCLUSTER的高可用性功能。另外,也包含Cluster WebUI的服务器端的功能。
  • Cluster WebUI
    是创建EXPRESSCLUSTER配置信息和进行操作管理的管理工具。以Web浏览器作为用户界面。实体嵌入在EXPRESSCLUSTER Server中,但操作是在管理终端的Web浏览器上进行,这点与EXPRESSCLUSTER Server不同。

3.3. EXPRESSCLUSTER的软件配置

EXPRESSCLUSTER的软件配置如下图所示。在配置集群的服务器上安装"EXPRESSCLUSTER Server(EXPRESSCLUSTER主体)"。Cluster WebUI的本体功能包含在EXPRESSCLUSTER Server内,因此无需另外安装。Cluster WebUI除了使用管理PC上的Web浏览器,也可以使用配置集群的各服务器上的Web浏览器。

  1. EXPRESSCLUSTER Server (Main module)

  2. Cluster WebUI

2台服务器和Management PC

图 3.1 EXPRESSCLUSTER的软件配置

3.3.1. EXPRESSCLUSTER 的故障监视原理

在EXPRESSCLUSTER 中通过执行服务器监视,业务监视,内部监视3个监视任务,可以迅速确切地查出故障。以下介绍这些监视的详细内容。

3.3.2. 何谓服务器监视

所谓服务器监视是失效切换型集群系统最基本的监视功能,是监视配置集群的服务器是否停止运行的功能。
服务器监视(心跳)使用下列通信路径。
  • 主网
    是集群服务器间通信专用的LAN。进行心跳的同时在服务器间交换信息。
    连接共享磁盘的2台服务器

    图 3.2 LAN心跳/内核模式LAN心跳(Primary interconnect)

  • 从网
    用于与客户端通信用路径。也用于服务器间的信息交换以及心跳线的备份。
    连接共享磁盘的2台服务器

    图 3.3 LAN心跳/内核模式LAN心跳(Secondary interconnect)

  • Witness
    配置失效切换型集群的各服务器与运行Witness 服务器服务的外部服务器(Witness 服务器)间进行通信,通过与保持Witness 服务器的其他服务器间的通信信息确认生存。
    连接共享磁盘的2台服务器

    图 3.4 Witness心跳

3.3.3. 何谓业务监视

所谓业务监视是对业务应用程序本身,以及使业务陷入无法执行状态的故障主要原因进行监视的功能。

  • 按照监视可选软件对应用程序/协议的停止/结果异常进行监视
    虽然需要另外购买License,但是可以监视数据库应用程序(Oracle,DB2等),协议(FTP,HTTP等) ,应用程序服务器(WebSphere,WebLogic等)的停止/结果异常。详细信息请参考《参考指南》的"监视资源的详细信息"。
  • 应用程序的生存状态监视
    能够使用启动资源(称为应用程序资源,服务资源)启动应用程序,通过监视用资源 (称为应用程序监视资源,服务监视资源) 定期监视进程的生存。在由于业务应用程序异常退出造成业务中断时有效。

注解

如果EXPRESSCLUSTER直接启动的应用程序为启动,结束监视对象的常驻进程的应用程序,则无法查出常驻进程的异常。

注解

无法查出应用程序内部状态的异常 (应用程序的停止,结果异常) 。

  • 资源的监视
    通过EXPRESSCLUSTER的监视资源能够监视集群资源(磁盘分区,IP地址等)和公网的状态。在由于必须资源异常造成业务中断时有效。

3.3.4. 何谓内部监视

内部监视是EXPRESSCLUSTER内部模块之间的相互监视,用于监视EXPRESSCLUSTER的各监视功能是否正常运行。
EXPRESSCLUSTER内部进行以下监视。
  • EXPRESSCLUSTER进程的生存状态监视

3.3.5. 可监视的故障和无法监视的故障

EXPRESSCLUSTER中有可监视的故障和无法监视的故障。在构建和运用集群系统时,需要先了解哪些故障能够监视,而哪些不能监视。

3.3.6. 通过服务器监视可以查出的故障和无法查出的故障

监视条件: 故障服务器的心跳停止

  • 可以监视的故障示例

    • 硬件故障(OS无法继续运行)

    • STOP错误

  • 无法监视的故障示例

    • OS局部功能故障(仅鼠标,键盘等出现故障等)

3.3.7. 通过业务监视可以查出的故障和无法查出的故障

监视条件: 故障应用程序的消失,持续的资源异常,与某网络设备通信的路径中断

  • 可监视故障示例

    • 应用程序的异常退出

    • 共享磁盘访问故障(HBA的故障等)

    • 公网 NIC的故障

  • 无法监视的故障示例

  • 应用程序的停止/结果异常
    应用程序的停止/结果异常在EXPRESSCLUSTER里无法直接监视 1 ,但是监视应用程序查出异常时,会创建自动结束程序,在应用程序资源下启动该程序,在应用程序监视资源内予以监视,则可执行发生失效切换。
1

监视选项中有关操作,数据库应用程序(Oracle,DB2等),协议(FTP,HTTP等) ,应用程序服务器(WebSphere,WebLogic等),可以进行停止/结果异常的监视。

3.4. Fencing 功能

EXPRESSCLUSTER 具有“网络分区解决”和“强制停止”作为Fencing机制。

3.4.1. 网络分区解决

EXPRESSCLUSTER查出某个服务器心跳停止时,要判断其真正原因是服务器故障,还是网络分区状态造成的。判定为服务器故障时执行失效切换(健全的服务器上启动各种资源,启动业务应用程序),判定为网络分区状态时比起持续业务更优先的是保存数据,因此要执行紧急关机等处理。
网络分区解决方式有下列方法。
  • PING方式

  • HTTP 方式

  • 共享磁盘方式

  • PING + 共享磁盘方方式

  • 多数决定方式

  • 不解决网络分区

参见

关于网络分区解决方法设置的详细内容,请参考《参考指南》的"网络分区解决资源的详细信息"。

3.4.2. 强制停止

当检测到服务器故障时,正常的服务器可以向发生故障的服务器发出停止请求。通过将有故障的服务器迁移到停止状态,排除了业务应用同时在多台服务器上启动的可能性。强制停止的处理在失效切换开始前执行。

参见

关于设置强制停止的详细内容, 请参考《参考指南》的"强制停止资源的详细信息"。

3.5. 失效切换的原理

一旦查出其他服务器的心跳中断,EXPRESSCLUSTER将在开始失效切换前判断是服务器的故障还是网络分区状态。然后,在正常的服务器上启动各种资源,启动业务应用程序来执行失效切换。

这时,同时移动的资源的集合称为失效切换组。失效切换组从使用者的角度看,可认为是虚拟计算机。

注解

在集群系统中,通过在正常的节点上重启应用程序来执行失效切换。因此,应用程序在内存上存放的执行状态无法失效切换。

从发生故障到失效切换结束要花费数分钟。以下是时间表。

显示自发生故障以来的时间经过和状态转换的图

图 3.5 失效切换的时间表

  1. 心跳超时

  • 执行业务的服务器发生故障后,直至待机服务器查出该故障为止的时间。

  • 考虑到业务负荷等导致的延迟,调整集群属性的设置值。
    (默认值为30秒。)
  1. Fencing

  • 为了执行网络分区解决和强制停止的时间。

  • 网络分区解决,
    是为了确认对方服务器的心跳的中断(心跳超时)是由于网络分区状态引起还是实际上对方服务器发生故障引起的所需时间。
    通常是瞬间完成确认。
  • 强制停止是,对判断发生了故障的对方服务器发出停止请求。
    所需时间根据集群的运行环境(物理环境、虚拟环境、Cloud等)不同而有所不同。
  1. 各种资源的启动

  • 启动业务所需资源所用的时间。

  • 进行文件系统恢复,磁盘内数据交接,IP地址交接等。

  • 按照一般的设置只需几秒即可启动,但启动时间也会根据登录到失效切换组上的资源的种类和数量发生变化。
    (具体内容请参考《安装&设置指南》。)
  1. 应用程序的恢复处理/重启

  • 启动业务所用的应用程序所需时间。也包括数据库的回滚/前滚等数据恢复处理的时间。

  • 回滚/前滚时间等通过Check Point Interval的调整,可在某种程度上预测。具体内容请参考各软件产品的文档。

3.5.1. 由EXPRESSCLUSTER构建的共享磁盘型集群的硬件配置

共享磁盘型集群的EXPRESSCLUSTER的HW配置如下图所示。

用于服务器间的通信

  • NIC 两块 (1块用于与外部通信,1块为EXPRESSCLUSTER专用)

  • 共享磁盘的特定空间

通常使用以上的配置。

与共享磁盘的连接接口使用SCSI或者FibreChannel,最近多使用FibreChannel。

连接Shared disk的Server 1,Server 2

图 3.6 集群配置示例(共享磁盘型)

FIP1

10.0.0.11 (从Cluster WebUI客户端访问)

FIP2

10.0.0.12 (从业务客户端访问)

NIC1-1

192.168.0.1

NIC1-2

10.0.0.1

NIC2-1

192.168.0.2

NIC2-2

10.0.0.2

  • 共享磁盘:

    磁盘心跳用分区盘符

    E

    磁盘资源盘符

    F

    文件系统

    NTFS

以上是使用共享磁盘时的集群环境示例。

3.5.2. 用EXPRESSCLUSTER构建的镜像磁盘型集群的硬件配置

通过为各服务器的磁盘上的分区建立镜像,可替代共享磁盘装置。与共享磁盘型相比适合规模小,预算少的系统。

注解

使用镜像磁盘,您需要购买Replicator可选软件或Replicator DR可选软件。

复制镜像磁盘数据所用的网络,通常用心跳线(EXPRESSCLUSTER的内部通信用NIC)来兼用。
用EXPRESSCLUSTER构建的镜像磁盘型集群的硬件配置如下图所示。
  • 使用镜像磁盘时的集群环境示例(在安装OS的磁盘中确保集群分区和数据分区时)

    在以下配置中,将安装了OS的磁盘的空闲分区作为集群分区和数据分区使用。

    内置磁盘的Server 1,Server 2

    图 3.7 集群配置示例(1)(镜像磁盘型)

    FIP1

    10.0.0.11 (从Cluster WebUI客户端访问)

    FIP2

    10.0.0.12 (从业务客户端访问)

    NIC1-1

    192.168.0.1

    NIC1-2

    10.0.0.1

    NIC2-1

    192.168.0.2

    NIC2-2

    10.0.0.2

    集群分区盘符

    E

    文件系统

    RAW

    数据分区盘符

    F

    文件系统

    NTFS

  • 使用镜像磁盘时的集群环境示例(准备了用于集群分区和数据分区的磁盘时)

    在以下配置中,已准备并连接了用于集群分区和数据分区的磁盘。

    连接各种磁盘的Server 1,Server 2

    图 3.8 集群配置示例(2)(镜像磁盘型)

    FIP1

    10.0.0.11 (从Cluster WebUI客户端访问)

    FIP2

    10.0.0.12 (从业务客户端访问)

    NIC1-1

    192.168.0.1

    NIC1-2

    10.0.0.1

    NIC2-1

    192.168.0.2

    NIC2-2

    10.0.0.2

    集群分区盘符

    E

    文件系统

    RAW

    数据分区盘符

    F

    文件系统

    NTFS

3.5.3. 用EXPRESSCLUSTER构建的共享磁盘型集群的硬件配置

该配置通过组合共享磁盘型和镜像磁盘型,镜像化共享磁盘上的分区,从而实现在共享磁盘设备出现故障时也能够不中断业务。该配置也可以利用在远程站点之间,通过与远程站点的镜像化对应灾害的发生。

注解

使用共享型镜像磁盘,您需要购买Replicator DR可选软件。

与镜像磁盘一样,需要复制数据用的网络,一般可以由私网(EXPRESSCLUSTER内部通信使用的NIC)兼用。

用EXPRESSCLUSTER构建的共享磁盘型集群的硬件配置如下图所示。

  • 使用共享型镜像磁盘时的集群环境的示例 (在2台服务器中使用共享磁盘,并镜像第3台服务器的常规磁盘时)

    连接相同共享磁盘的2台服务器,连接磁盘的1台服务器

    图 3.9 集群配置示例(共享型镜像磁盘型)

    FIP1

    10.0.0.11 (从Cluster WebUI客户端访问)

    FIP2

    10.0.0.12 (从业务客户端访问)

    NIC1-1

    192.168.0.1

    NIC1-2

    10.0.0.1

    NIC2-1

    192.168.0.2

    NIC2-2

    10.0.0.2

    NIC3-1

    192.168.0.3

    NIC3-2

    10.0.0.3

  • 共享磁盘

    心跳用分区盘符

    E

    文件系统

    RAW

    集群分区盘符

    F

    文件系统

    RAW

    数据分区盘符

    G

    文件系统

    NTFS

以上是在同一网络内镜像化共享磁盘时的集群环境示例。如果使用共享型镜像磁盘,则在连接在同一共享磁盘设备的服务器组之间进行镜像化,但在上述示例中,共享磁盘将镜像化到server3的本地磁盘上,因此待机系服务器组svg2的成员服务器只有server3一台。

连接相同共享磁盘的2台服务器,连接磁盘的1台服务器

图 3.10 集群配置示例(共享型镜像磁盘型,远程集群)

FIP1

10.0.0.11 (从Cluster WebUI客户端访问)

FIP2

10.0.0.12 (从业务客户端访问)

NIC1-1

192.168.0.1

NIC1-2

10.0.0.1

NIC2-1

192.168.0.2

NIC2-2

10.0.0.2

NIC3-1

192.168.0.3

NIC3-2

10.0.0.3

  • 共享磁盘

    心跳用分区盘符

    E

    文件系统

    RAW

    集群分区盘符

    F

    文件系统

    RAW

    数据分区盘符

    G

    文件系统

    NTFS

上图是与远程站点之间进行镜像化时的集群环境示例。在该例中,因为服务器组之间的Public-LAN网段不同,因此没有使用浮动IP地址,而是使用了虚拟IP地址。使用虚拟IP地址时,需要将中途的路由全部设置为传播主路径。并且推荐将镜像模式设置为非同步,开启数据压缩功能。

3.5.4. 何谓集群对象

在EXPRESSCLUSTER中按照以下结构管理各种资源。

  • 集群对象
    集合了一群服务器的集群系统。
  • 服务器对象
    表示实体服务器的对象,属于集群对象。
  • 服务器组对象
    捆绑了服务器的对象,属于集群对象。使用共享磁盘资源时需要使用该对象。
  • 心跳资源对象
    表示实体服务器的NW部分的对象,属于服务器对象。
  • 网络分区解决资源对象
    表示网络分区解决构造的对象,属于服务器对象。
  • 组对象
    表示虚拟的服务器的对象,属于集群对象。
  • 组资源对象
    表示虚拟服务器的资源(NW,磁盘)的对象,属于组对象。
  • 监视资源对象
    表示监视构造的对象,属于集群对象。

3.6. 何谓资源

在EXPRESSCLUSTER中,监视方和被监视方均被称作资源,并将监视方和被监视方的资源分类管理。这样,除能更明确的区分监视/被监视对象,在构建集群和查出故障时还可更容易应对。资源分为心跳资源,网络分区解决资源,组资源和监视资源4类。以下说明其概要。

参见

关于各资源的具体内容,请参考《参考指南》。

3.6.1. 心跳资源

是在服务器间用来确认彼此存活的资源。

以下是当前支持的心跳资源。

  • LAN心跳资源
    表示使用Ethernet的通信。
  • Witness 心跳资源
    表示从Witness 服务器服务运行的外部服务器中取得的与各服务器间的通信状态。

3.6.2. 网络分区解决资源

以下是解决网络分区状态的资源。

  • DISK网络分区解决资源
    DISK方式的网络分区解决资源。仅共享磁盘结构时可用。
  • PING网络分区解决资源
    PING方式的网络分区解决资源。
  • HTTP 网络分区解决资源
    HTTP 方式的网络分区解决资源。
  • 多数决定网络分区解决资源
    多数决定方式的网络分区解决资源。

3.6.3. 组资源

进行失效切换时的单位,即配置失效切换组的资源。

以下是当前支持的组资源。

  • 应用程序资源 (appli)
    启动/停止应用程序(包括用户创建的应用程序)。
  • 浮动IP资源 (fip)
    提供虚拟的IP地址。从客户端访问时与普通IP地址相同。
  • 镜像磁盘资源 (md)
    提供本地磁盘上的特定分区的镜像建立和访问控制功能。仅镜像磁盘结构时可用。
  • 注册表同步资源 (regsync)
    在多个服务器上对特定的注册表进行同步,以实现在配置集群的服务器间令应用程序和服务按照同样的设置来运行。
  • 脚本资源 (script)
    启动/停止用户创建脚本等脚本(BAT)。
  • 磁盘资源 (sd)
    提供对共享磁盘上的特定分区的访问控制功能。仅当连接了共享磁盘装置时可用。
  • 服务资源 (service)
    启动/停止数据库和Web等服务。
  • 虚拟计算机名资源 (vcom)
    提供虚拟的计算机名。从客户端访问时与普通计算机名相同。
  • 动态DNS资源 (ddns)
    在动态DNS服务器中登录虚拟主机名和运行服务器的IP地址。
  • 虚拟IP资源 (vip)
    提供虚拟的IP地址。从客户端访问时与普通IP地址相同。在网络地址不同的网段间配置远程集群时使用。
  • CIFS资源 (cifs)
    提供共享磁盘/镜像磁盘上的文件夹共享功能。
  • 共享磁盘资源 (hd)
    是组合了磁盘资源和镜像磁盘资源的一种资源,提供对共享磁盘或本地磁盘上特定分区进行镜像或访问控制的功能。
  • AWS Elastic IP资源 (awseip)
    在AWS上利用EXPRESSCLUSTER时,提供可授予EIP的机能。
  • AWS虚拟IP资源 (awsvip)
    在AWS上利用EXPRESSCLUSTER时,提供可授予VIP的机能。
  • AWS辅助IP资源 (awssip)
    在AWS上利用EXPRESSCLUSTER时,提供可授予辅助IP的机能。
  • AWS DNS资源 (awsdns)
    在AWS上利用EXPRESSCLUSTER时,在Amazon Route 53上登录虚拟主机名和启动服务器的IP地址。
  • Azure 探头端口资源 (azurepp)
    Microsoft Azure 上利用EXPRESSCLUSTER时,提供可在运行业务的节点开放特定的端口的机能。
  • Azure DNS资源 (azuredns)
    在Microsoft Azure上利用EXPRESSCLUSTER时,在Azure DNS上登录虚拟主机名和启动服务器的IP地址。
  • Google Cloud 虚拟 IP 资源 (gcvip)
    在Google Cloud Platform上使用ExpressCluster时,提供了一种在业务运行的节点上打开特定端口的机制。
  • Google Cloud DNS 资源 (gcdns)
    Google Cloud Platform上利用EXPRESSCLUSTER时,在Cloud DNS上登录虚拟主机名和启动服务器的IP地址。
  • Oracle Cloud 虚拟 IP 资源 (ocvip)
    在Oracle Cloud Infrastructure上使用ExpressCluster时,提供了一种在业务运行的节点上打开特定端口的机制。

注解

使用镜像磁盘资源,需要《EXPRESSCLUSTER X Replicator》或《EXPRESSCLUSTER X Replicator DR》的License。
使用共享磁盘资源时,需要《EXPRESSCLUSTER X Replicator DR》的License。
没有注册License的资源不会显示在Cluster WebUI的列表中。

3.6.4. 监视资源

集群系统内进行监视的主体资源。

以下是当前支持的监视资源。

  • 应用程序监视资源 (appliw)
    提供应用程序资源启动的进程的死活监视功能。
  • 磁盘RW监视资源 (diskw)
    提供对文件系统的监视。此外,当文件系统I/O停止 (Stall) 时,提供通过有意的STOP错误或者HW重置实施失效切换的功能。也可用于对共享磁盘的文件系统的监视。
  • 浮动IP监视资源 (fipw)
    提供对浮动IP资源启动的IP地址的监视。
  • IP监视资源 (ipw)
    提供对网络通堵的监视。
  • 镜像磁盘监视资源 (mdw)
    提供对镜像磁盘的监视。
  • NIC Link Up/Down监视资源 (miiw)
    提供对LAN线缆的链接状态的监视。
  • 多目标监视资源 (mtw)
    提供将多个监视资源集中在一起的状态。
  • 注册表同步监视资源 (regsyncw)
    提供对注册表同步资源进行的同步处理的监视。
  • 磁盘TUR监视资源 (sdw)
    对通过SCSI的[TestUnitReady]命令向共享磁盘访问路径发出的动作进行监视。也可用于FibreChannel的共享磁盘。
  • 服务监视资源 (servicew)
    提供服务的死活监视功能。
  • 虚拟计算机名监视资源 (vcomw)
    提供对虚拟计算机名资源启动的虚拟计算机的监视。
  • 动态DNS监视资源 (ddnsw)
    定期在动态DNS服务器中登录虚拟主机名和运行服务器的IP地址。
  • 虚拟IP监视资源 (vipw)
    提供对虚拟IP资源启动的IP地址的监视。
  • CIFS监视资源 (cifsw)
    提供对CIFS资源公布的共享文件夹的监视。
  • 共享型镜像磁盘监视资源 (hdw)
    提供对共享型镜像磁盘的监视。
  • 共享型镜像磁盘TUR监视资源 (hdtw)
    通过SCSI的[TestUnitReady]命令,提供对用作共享型镜像磁盘的共享磁盘设备访问路径运行的监视。也可以用于FibreChannel的共享磁盘。
  • 自定义监视资源 (genw)
    有进行监视处理的命令或脚本时,提供通过其动作结果进行监视系统的功能。
  • 进程名监视资源 (psw)
    通过指定进程名,提供任意的进程死活监视功能。
  • DB2监视资源 (db2w)
    提供对IBM DB2数据库的监视。
  • ODBC监视资源 (odbcw)
    提供对ODBC可访问的数据库的监视。
  • Oracle监视资源 (oraclew)
    提供对Oracle数据库的监视。
  • PostgreSQL监视资源 (psqlw)
    提供对PostgreSQL数据库的监视。
  • SQL Server监视资源 (sqlserverw)
    提供对SQL Server数据库的监视。
  • FTP监视资源 (ftpw)
    提供对FTP服务器的监视。
  • HTTP监视资源 (httpw)
    提供对HTTP服务器的监视。
  • IMAP4监视资源 (imap4w)
    提供对IMAP服务器的监视。
  • POP3监视资源 (pop3w)
    提供对POP服务器的监视。
  • SMTP监视资源 (smtpw)
    提供对SMTP服务器的监视。
  • Tuxedo监视资源 (tuxw)
    提供对Tuxedo应用程序服务器的监视。
  • WebSphere监视资源 (wasw)
    提供对WebSphere应用程序服务器的监视。
  • WebLogic监视资源 (wlsw)
    提供对WebLogic应用程序服务器的监视。
  • WebOTX监视资源 (otxw)
    提供对WebOTX应用程序服务器的监视。
  • 消息接收监视资源(mrw)
    用于实现"设置接收异常发生通知时执行的异常时动作"及"异常发生通知的Cluster WebUI显示"的监视资源。
  • JVM 监视资源 (jraw)
    提供Java VM的监视机构。
  • 系统监视资源 (sraw)
    提供系统整体资源的监视机构。
  • 进程资源监视资源(psrw)
    提供用于监视特定于进程的资源的机制。
  • 用户空间监视资源 (userw)
    提供用户空间的停止监视功能。此外,当用户空间停止时,提供通过有意的STOP错误或者HW重置实施失效切换的功能。
  • AWS Elastic IP监视资源 (awseipw)
    提供在AWS Elastic IP资源授予的Elastic IP(以下称为EIP)的监视机能。
  • AWS虚拟IP监视资源 (awsvipw)
    提供在AWS虚拟IP资源授予的虚拟IP(以下称为VIP)的监视机能。
  • AWS辅助IP监视资源 (awssipw)
    提供在AWS辅助IP资源授予的辅助IP的监视机能。
  • AWS AZ监视资源 (awsazw)
    提供Availability Zone(以下称为AZ)的监视机能。
  • AWS DNS监视资源 (awsdnsw)
    提供在AWS DNS资源授予的虚拟主机名和IP地址的监视机能。
  • Azure 探头端口监视资源 (azureppw)
    可针对Azure 探头端口资源所启动的节点,提供为了进行死活监视的端口的监视机能。
  • Azure负载均衡器监视资源 (azurelbw)
    可针对Azure 探头端口资源所启动的节点,提供与Probe端口相同的端口号是否开放的监视机能。
  • Azure DNS监视资源 (azurednsw)
    提供在Azure DNS资源授予的虚拟主机名和IP地址的监视机能。
  • Google Cloud 虚拟 IP 监视资源 (gcvipw)
    对启动了Google Cloud虚拟IP资源的节点,提供用于进行死活监视的端口的监控机制。
  • Google Cloud 负载均衡监视资源 (gclbw)
    对没有启动Google Cloud虚拟IP资源的节点,提供确认是否开放了与用于存活侦测的端口相同的端口号的监控机制。
  • Google Cloud DNS监视资源 (gcdnsw)
    提供在Google Cloud DNS资源授予的虚拟主机名和IP地址的监视机构。
  • Oracle Cloud 虚拟 IP 监视资源 (ocvipw)
    对启动了Oracle Cloud虚拟IP资源的节点,提供用于进行死活监视的端口的监控机制。
  • Oracle Cloud 负载均衡监视资源 (oclbw)
    对没有启动Oracle Cloud虚拟IP资源的节点,提供确认是否开放了与用于存活侦测的端口相同的端口号的监控机制。

注解

使用DB2监视资源,ODBC监视资源,Oracle监视资源,PostgreSQL监视资源和SQL Server监视资源,需要《EXPRESSCLUSTER X Database Agent》的License。
使用FTP监视资源,HTTP监视资源,IMAP4监视资源,POP3监视资源和SMTP监视资源,需要《EXPRESSCLUSTER X Internet Server Agent》的License。
Tuxedo监视资源,WebLogic监视资源,WebSphere监视资源,WebOTX监视资源,需要《EXPRESSCLUSTER X Application Server Agent》的License。
使用JVM监视资源,需要《EXPRESSCLUSTER X Java Resource Agent》的License。
使用系统监视资源,进程资源监视资源,需要《EXPRESSCLUSTER X System Resoruce Agent》的License。
没有注册License的资源不会显示在Cluster WebUI的列表中。

3.7. 开始使用EXPRESSCLUSTER吧!

以上是对EXPRESSCLUSTER的简要说明。

下面,按照以下顺序一边阅读相应的指南一边构建使用了EXPRESSCLUSTER的集群系统。

3.7.1. 最新信息的确认

请参考本指南的 "4. EXPRESSCLUSTER的运行环境" , "5. 最新版本信息" , "6. 注意限制事项"。

3.7.3. 集群系统的构建

请参考《安装&设置指南》的全篇。

3.7.4. 开始操作集群系统后的故障对策

请参考《维护指南》的"维护信息"以及

参考指南》的"疑难解答","错误消息一览表"

4. EXPRESSCLUSTER的运行环境

在本章中对EXPRESSCLUSTER的运行环境进行说明。

本章中说明的项目如下。

4.1. 硬件运行环境

EXPRESSCLUSTER在以下结构的服务器上运行。

  • x86_64

4.1.1. 所需规格

EXPRESSCLUSTER Server所需要的规格如下。

  • Ethernet端口 2个以上

  • 共享磁盘,镜像用磁盘或者镜像用空分区 (使用镜像磁盘时)

  • DVD-ROM驱动器

4.2. EXPRESSCLUSTER Server的运行环境

4.2.1. 对应OS

EXPRESSCLUSTER Server对应的OS如下。

x86_64版

OS

备注

Windows Server 2016 Standard

Windows Server 2016 Datacenter

Windows Server 2019 Standard

Windows Server 2019 Datacenter

Windows Server 2022 Standard

Windows Server 2022 Datacenter

4.2.2. 所需内存容量和磁盘容量

所需内存容量
(用户模式)

256MB( 2 )

所需内存容量
(Kernel模式)

32MB + 4MB( 3 )×(镜像磁盘资源数+共享型镜像磁盘资源)

所需磁盘容量
(安装后)

100MB

所需磁盘容量
(操作时)

5.0GB + 9.0GB ( 4 )

2

不包含可选软件类 。

3

镜像磁盘资源及共享型镜像磁盘资源所需的内存容量。

4

镜像磁盘资源及共享型镜像磁盘资源所需的磁盘大小。

非同步方式地更改或者队列大小变化时,并且差分Bitmap大小变化时,都需要添加配置时指定大小的内存。此外,由于使用内存与镜像磁盘的I/O相对应,随着磁盘负荷的增加,使用的内存大小也会增加。

关于DISK网络分区解决资源所使用的分区所需的大小,请参考"关于共享磁盘"。

关于集群分区所需的大小请参考"关于镜像磁盘用的分区","关于共享型镜像磁盘用的分区"。

4.2.3. 监视可选软件已经确认完毕的应用程序信息

监视可选软件已经将下列应用程序作为监视对象进行了运行确认。

x86_64版

监视资源
监视对象
应用程序
EXPRESSCLUSTER
Version
备注

Oracle监视

Oracle Databse 19c (19.3)

13.00~

DB2监视

DB2 V11.5

13.00~

PostgreSQL监视

PostgreSQL 14.1

13.00~

PowerGres on Windows V13

13.00~

SQL Server监视

SQL Server 2019

13.00~

Tuxedo监视

Tuxedo 12c Release 2 (12.1.3)

12.00~

WebLogic监视

WebLogic Server 11g R1

12.00~

WebLogic Server 11g R2

12.00~

WebLogic Server 12c R2 (12.2.1)

12.00~

WebLogic Server 14c (14.1.1)

12.20~

WebSphere监视

WebSphere Application Server 8.5

12.00~

WebSphere Application Server 8.5.5

12.00~

WebSphere Application Server 9.0

12.00~

WebOTX监视

WebOTX Application Server V9.1

12.00~

WebOTX Application Server V9.2

12.00~

WebOTX Application Server V9.3

12.00~

WebOTX Application Server V9.4

12.00~

WebOTX Application Server V9.5

12.00~

WebOTX Application Server V10.1

12.00~

WebOTX Application Server V10.3

12.30~

JVM监视

WebLogic Server 11g R1

12.00~

WebLogic Server 11g R2

12.00~

WebLogic Server 12c R2 (12.2.1)

12.00~

WebLogic Server 14c (14.1.1)

12.20~

WebOTX Application Server V9.1

12.00~

WebOTX Application Server V9.2

12.00~

WebOTX Application Server V9.3

12.00~

WebOTX Application Server V9.4

12.00~

WebOTX Application Server V9.5

12.00~

WebOTX Application Server V10.1

12.00~

WebOTX Application Server V10.3

12.30~

WebOTX Enterprise Service Bus V8.4

12.00~

WebOTX Enterprise Service Bus V8.5

12.00~

WebOTX Enterprise Service Bus V10.3

12.30~

Apache Tomcat 8.0

12.00~

Apache Tomcat 8.5

12.00~

Apache Tomcat 9.0

12.00~

WebSAM SVF for PDF 9.1

12.00~

WebSAM SVF for PDF 9.2

12.00~

WebSAM Report Director Enterprise 9.1

12.00~

WebSAM Report Director Enterprise 9.2

12.00~

WebSAM Universal Connect/X 9.1

12.00~

WebSAM Universal Connect/X 9.2

12.00~

系统监视

无指定版本

12.00~

进程资源监视

无指定版本

12.10~

注解

x86_64环境中利用监视选项时,监视对象的应用程序也请利用x86_64版的应用程序。

4.2.4. SNMP联动功能的运行环境

对SNMP 联动功能的运行确认完毕的OS如下表中所示。

x86_64 版

OS
备注

Windows Server 2016

4.2.5. JVM监视器的运行环境

使用JVM监视器时,需要可Java 的执行环境。

Java(TM) Runtime Environment
Version7.0 Update 6 (1.7.0_6) 以上
Java(TM) Runtime Environment
Version8.0 Update 11 (1.8.0_11) 以上
Java(TM) Runtime Environment
Version9.0 (9.0.1) 以上
Java(TM) SE Development Kit
Version11.0 (11.0.5) 以上

4.2.6. 系统监视,进程资源监视以及系统资源信息收集功能的运行环境

要使用System Resource Agent,需要可执行Microsoft .NET Framework的环境。
Microsoft .NET Framework 4.5 以上
Microsoft .NET Framework 4.5 日文 Language Pack以上

注解

在Windows Server 2012之后的OS中,已安装了.NET Framework 4.5以上的版本(安装的.NET Framework版本取决于OS。)

4.2.7. AWS Elastic IP资源,AWS虚拟IP资源,AWS Elastic IP监视资源,AWS 虚拟IP监视资源,AWS AZ监视资源的运行环境

想使用AWS Elastic IP资源,AWS虚拟IP资源,AWS Elastic IP监视资源,AWS虚拟IP监视资源,AWS AZ监视资源时,需要以下的软件。

软件

版本

备注

AWS CLI

1.6.0~
2.0.0~
Python
2.7.5~
3.6.7~
3.8.2~

AWS CLI 附带的 Python 不可以

4.2.8. AWS辅助IP资源,AWS 辅助IP监视资源

想使用AWS辅助IP资源,AWS 辅助IP监视资源时,需要以下的软件。

软件

版本

备注

AWS CLI

2.0.0~

4.2.9. AWS DNS资源,AWS DNS监视资源的运行环境

想使用AWS DNS资源,AWS DNS监视资源时,需要以下的软件。

软件

版本

备注

AWS CLI

1.11.0~

Python
2.7.5~
3.6.7~
3.8.2~

AWS CLI 附带的 Python 不可以

4.2.10. AWS 强制停止资源

想使用AWS 强制停止资源时,需要以下的软件。

软件

版本

备注

AWS CLI

2.0.0~

4.2.11. Azure探头端口资源,Azure探头端口监视资源,Azure负载均衡监视资源的运行环境

执行了Azure探头端口资源,Azure探头端口监视资源,Azure负载均衡监视资源的动作确认的Microsoft Azure上的部署模型如下所示。

负载均衡的设定方法请参考《EXPRESSCLUSTER X Mircosoft Azure的HA Cluster构筑指南 (Windows版)》。

部署模型
EXPRESSCLUSTER
版本
备注

资源管理器

12.00~

需要追加负载均衡器

4.2.12. Azure DNS 资源,Azure DNS 监视资源的运行环境

使用Azure DNS资源,Azure DNS监视资源时,需要以下的软件。

软件

版本

备注

Azure CLI

2.0~

执行了Azure DNS资源,Azure DNS监视资源的运行确认的 Microsoft Azure上的部署模型如下所示。

Azure DNS 的设定方法请参考《EXPRESSCLUSTER X Mircosoft Azure的HA Cluster构筑指南 (Windows版)》。

部署模型
EXPRESSCLUSTER
版本
备注

资源管理器

12.00~

需要追加Azure DNS

4.2.13. Google Cloud 虚拟 IP 资源,Google Cloud 虚拟 IP 监视资源,Google Cloud 负载均衡监视资源的运行环境

已确认Google Cloud 虚拟 IP 资源,Google Cloud 虚拟 IP 监视资源,Google Cloud 负载均衡监视资源的运行环境的 Google Cloud Platform 上的 OS 的版本信息如下所示。

部署模型
EXPRESSCLUSTER
版本
备注

Windows Server 2016

12.20~

Windows Server 2019

12.20~

4.2.14. Google Cloud DNS 资源,Google Cloud DNS 监视资源的运行环境

想使用Google Cloud DNS资源,Google Cloud DNS监视资源时,需要以下的软件。

软件

版本

备注

Google Cloud SDK

295.0.0~

Google Cloud SDK 的前提条件,安装方法请参考以下内容。
安装Google Cloud SDK:

4.2.15. Oracle Cloud 虚拟 IP 资源,Oracle Cloud 虚拟 IP 监视资源,Oracle Cloud 负载均衡监视资源的运行环境

已确认Oracle Cloud 虚拟 IP 资源,Oracle Cloud 虚拟 IP 监视资源,Oracle Cloud 负载均衡监视资源的运行环境的 Oracle Cloud Infrastructure 上的 OS 的版本信息如下所示。

部署模型
EXPRESSCLUSTER
版本
备注

Windows Server 2016

12.20~

4.2.16. OCI强制停止资源

想使用OCI 强制停止资源时,需要以下的软件。

软件

版本

备注

OCI CLI

3.5.3~

4.2.17. clpcfadm.py命令的运行环境

使用clpcfadm.py命令时,需要以下软件。

软件

版本

备注

Python

3.6.8~

4.3. Cluster WebUI的运行环境

对为了运行Cluster WebUI而所需环境进行说明。

4.3.1. 运行确认完毕的OS,浏览器

现在的支持情况如下。

浏览器

语言

Internet Explorer 11

日语/英语/中文

Internet Explorer 10

日语/英语/中文

Firefox

日语/英语/中文

Google Chrome

日语/英语/中文

Microsoft Edge (Chromium)

日语/英语/中文

注解

通过IP地址连接时,需要事先将该IP地址登录到 [本地Intranet] 的 [站点] 中。

注解

用 Internet Explorer11连接Cluster WebUI时,Internet Explorer可执行会停止。为了避免发生,请更新Internet Explorer(KB4052978或更高版本)。此外,为了在Windows 8.1/Windows Server 2012R2中应用KB4052978以上的版本,请提前应用KB2919355。相关信息请参考Microsoft部署的信息。

注解

不支持平板电脑和智能手机等移动设备。

4.3.2. 所需内存容量/磁盘容量

  • 所需内存容量 500MB以上

  • 所需磁盘容量 200MB以上

5. 最新版本信息

在本章中对EXPRESSCLUSTER的最新信息进行说明。为您介绍新发布版本中强化和改善的内容。

5.1. EXPRESSCLUSTER和手册的对应一览表

本手册以以下版本的EXPRESSCLUSTER为前提进行说明。请注意EXPRESSCLUSTER的版本和手册版数的对应关系。

EXPRESSCLUSTER
内部版本
手册
版数
备注

13.01

开始指南

第2版

安装&设置指南

第1版

参考指南

第2版

维护指南

第2版

5.2. 功能强化

对于各个版本,分别进行了以下的功能强化。

No.

内部版本

功能强化项目

1

13.00

支持Windows Server 2022。

2

13.00

随着主版本升级,部分功能被移除。 详细信息请参考功能删除列表。

3

13.00

添加了当服务器宕机时为整个集群集体抑制自动失效切换的功能。

4

13.00

当由于检测到组资源的启动·停止异常时以及监视资源异常时的最终动作而重新启动服务器的次数被重置时,将会通过警报日志通知。

5

13.00

在动态失效切换以外的自动失效切换中,可以从失效切换目标中排除在指定的监视资源中检测出异常的服务器。

6

13.00

添加了用于添加防火墙规则的clpfwctrl 命令。

7

13.00

添加了 AWS 辅助 IP 资源和 AWS 辅助 IP 监视资源。

8

13.00

使用 BMC 的强制停止功能已更新为 BMC 强制停止资源。

9

13.00

虚拟机强制停止功能已更新为 vCenter 强制停止资源。

10

13.00

AWS环境的强制停止功能已添加到强制停止资源中。

11

13.00

OCI环境的强制停止功能已添加到强制停止资源中。

12

13.00

强制停止脚本已被更新为自定义强制停止资源。

13

13.00

添加了一项功能,将伴随 OS 关闭的所有操作(例如检测到监视异常时的恢复操作等)更改为 OS 重新启动。

14

13.00

改进了有关组之间开始和停止等待处理的警报消息。

15

13.00

资源启动属性的设置值可以在clpstat的设置信息的显示选项中显示。

16

13.00

即使在本地服务器为集群停止状态,也可以使用clpcl/clpstdn命令指定-h选项。

17

13.00

使用非真实 IP 地址连接到 Cluster WebUI 并切换到设置模式时,会输出警告消息。

18

13.00

即使在Cluster WebUI的设置模式下无法获取要排除的分区信息,也可以反映和导出配置信息。

19

13.00

可以在Cluster WebUI的设置模式中在已注册组资源的状态下删除组。

20

13.00

更改了 Cluster WebUI 中发生通信超时时的错误消息的内容。

21

13.00

更改了 Cluster WebUI 的镜像磁盘页面上执行完整复制等失败时的错误消息的内容。

22

13.00

添加了可以复制Cluster WebUI 的设置模式下注册的组、组资源、监视资源的功能。

23

13.00

添加了在Cluster WebUI 的设置模式下,将注册的组资源移动到其他组的功能。

24

13.00

可以在Cluster WebUI的设置模式下从[组的属性]的组资源列表中更改设置。

25

13.00

可以在Cluster WebUI的设置模式下从[监视通用属性]的监视资源列表中更改设置。

26

13.00

Cluster WebUI的设置模式中显示组资源停止时的依赖关系。

27

13.00

添加了在Cluster WebUI 的设置模式中显示组资源启动时以及停止时的依赖关系图的功能。

28

13.00

添加了在Cluster WebUI 的状态画面中按照组资源/监视资源的类型和资源名缩小范围检索的功能。

29

13.00

将 CIFS 资源的[恢复共享设置时的失败视为启动异常]的默认值从打开更改为关闭。

30

13.00

WebManager 服务使用HTTPS 作为通信方式时,可以使用中间证书作为证书文件。

31

13.00

添加了clpcfconv.sh命令,将集群配置信息文件从旧版本转换为当前版本。

32

13.00

添加了OS启动时延迟启动集群服务的功能。

33

13.00

Cluster WebUI的集群配置信息检查的错误结果中,可以显示处理方法等详细内容。

34

13.00

可以在指定 clpcfset 命令的create选项时指定OS类型。

35

13.00

添加了在 clpcfset 命令中添加 del 选项,从集群配置信息中删除资源和参数的功能。

36

13.00

添加了增强clpcfset命令界面的clpcfadm.py命令。

37

13.00

更改了 AWS DNS 资源的启动完成时间,是在确认记录集已经传播到AWS Route53后再启动。

38

13.00

AWS DNS监视资源的监视开始等待时间的默认值更改为300秒。

39

13.00

clpstat命令可以二重启动。

40

13.00

添加了Node Manager服务。

41

13.00

添加了心跳统计信息功能。

42

13.00

HTTP NP解决资源中,即使在不使用Witness心跳资源时,也可以使用Proxy服务器。

43

13.00

HTTP监视资源支持Digest认证。

44

13.00

可以在FTP监视资源中监视使用FTPS的FTP服务器。

45

13.00

可以多次注册登录系统监视资源。

46

13.00

可以多次注册登录进程资源监视资源。

47

13.00

添加了在进程资源监视资源中只把特定进程作为监视对象的功能。

48

13.00

可以使用单个服务监视资源监视任意服务。

49

13.00

调整了 clpmdctrl 命令和 clpmdstat 命令的选项系统,以匹配 clphdctrl 命令和 clphdstat 命令。

5.3. 修改信息

各版本做了以下修改。

No.
修改版本
/ 发生版本
修改项目
重要性
发生条件
发生频率

1

13.00
/ 9.00~12.32

组资源单体启动成功时,同组内的其他组资源会执行复旧操作。

在存在启动异常状态的组资源的状态下,同组内的其他组资源单体启动时会发生。

2

13.00
/ 12.10~12.32

Cluster WebUI 的设置模式下修改组资源的"注释"时,修改内容会没有被更新。

在修改组资源的"注释"并按下[适用]按钮后,如将"注释"返回到修改前的状态并点击[OK]按钮时会有修改内容没有被更新的情况。

3

13.00
/ 12.10~12.32

Cluster WebUI 的设置模式下修改监视资源的"注释"时,修改内容会没有被更新。

在修改监视资源的"注释"并按下[适用]按钮后,如将"注释"返回到修改前的状态并点击[OK]按钮时会有修改内容没有被更新的情况。

4

13.00
/ 12.10~12.32

在停止完毕的服务器上连接 Cluster WebUI 时,宕机后重启状态的服务器的[服务器复归]按钮被禁用了。

当存在停止完毕的服务器上连接 Cluster WebUI 宕机后重启状态下的服务器时会发生。

5

13.00
/ 12.10~12.32

在 Cluster WebUI 的设置模式下,WebLogic监视的监视(固有)画面上的"安装路径"项目不是必须输入项目。

经常发生。

6

13.00
/ 12.00~12.32

在 Cluster WebUI 的状态画面上执行集群操作时,如果发生通信超时,则会再次发出相同的请求。

如果Cluster WebUI和集群服务器之间发生通信超时,则一定会发生该情况。

7

13.00
/ 12.10~12.32

Cluster WebUI 的设置模式下设置依赖关系时,Cluster WebUI 可能会暂时失去响应。

2个组资源互相依赖时发生。

8

13.00
/ 12.20~12.32

Clpstat命令的应答可能会延迟。

和其他服务器的通信切断时会发生。

9

13.00
/ 11.10~12.32

在监视资源延迟警告的警报日志中,response time 可能会输出 0。

监视资源延迟警告的警报日志被输出时会发生。

10

13.00
/ 12.20~12.32

可能会发生clpwebmc的AP错误。

Cluster WebUI的设置模式下反映已删除服务器的集群配置信息时偶尔会发生。

11

13.00
/ 12.00~12.32

监视资源可能会错误地检测到监视超时。

在执行监视资源的监视处理时,小几率发生。

12

13.00
/ 12.20~12.32

HTTP方式的NP解决资源中,当目标响应为状态编码301时会异常。

响应为状态编码301时才会发生。

13

13.00
/ 12.00~12.32

将进程资源监视资源的[内存使用量的监视]的[持续时间(分)]的表示法修改为[最大更新次数(次)]。

通过Cluster WebUI或者clpstat命令显示属性时会发生。

14

13.00
/ 12.00~12.32

在HTTP监视资源中,如果对发出HEAD请求的响应的状态编码在400或500范围内,并且如果为监视URI指定了默认值以外的URI,则发出警告而不是异常。

对发出HEAD请求的响应的状态编码在400或500范围内,并且为监视URI指定了默认值以外的URI时会发生。

15

13.00
/ 12.10~12.32

当要监视的脚本的进程在自定义监视资源中消失时,警报消息中不会输出目标监视资源名称。

要监视的脚本的进程在自定义监视资源中消失时会发生。

16

13.00
/ 11.01~12.32

响应镜像相关命令可能需要很长时间。

当镜像磁盘连接断开或配置集群的服务器一部分关闭时会发生。

17

13.00
/ 12.20~12.32

EXPRESSCLUSTER Information Base服务可能会异常终止。

当执行以下任一操作时,极小概率会发生发生。
- 集群启动
- 集群停止
- 集群挂起
- 集群恢复

18

13.01
/ 9.00~12.32,13.00
由于 CVE-2021-20700-20707 的漏洞,可能会发生以下情况。
・可执行任意代码
・可上传任何文件
・可读取任何文件

当 EXPRESSCLUSTER 中的特定进程接收到由恶意第三方制作的违反 EXPRESSCLUSTER 内部协议的数据包时发生。

19

13.01
/ 13.00

clprexec 命令的 --script 选项无效。

指定 --script 选项,执行 clprexec 命令时发生。

20

13.01
/ 13.00

使用 clpcfset 命令添加强制停止资源时,集群启动失败。

使用clpcfset命令,启动添加了强制停止资源的集群配置信息的集群时发生。

6. 注意限制事项

在本章中对注意事项,现有问题及其避免方法进行说明。

本章中说明的项目如下。

6.1. 研究系统配置时

对HW的准备,系统配置以及共享磁盘配置时需要留意的事项进行说明。

6.1.1. 关于镜像磁盘/共享型镜像磁盘的需求

  • 不能使用动态磁盘。请使用基本磁盘。

  • 用于镜像磁盘/共享型镜像磁盘的分区(数据分区和集群分区)不能mount到NTFS文件夹下使用。

  • 使用镜像磁盘资源/共享型镜像磁盘资源需要镜像用的分区(数据分区和集群分区)。

  • 镜像用的分区的磁盘上的配置没有特别限制,数据分区的大小按字节单位必须完全一致。此外,集群分区需要1024MiB以上的容量。

  • 数据分区作为扩展分区上的逻辑分区建立时,请确认两个服务器上都建立逻辑分区。即使主分区与逻辑分区指定了相同的容量大小,实际大小也有可执行会不同。

  • 为负载均衡建议将集群分区和数据分区分别设在不同的磁盘上(虽然创建在同一块磁盘上也能够运行,但非同步镜像和镜像中断状态下的写入性能会有些许下降)。

  • 在磁盘上要确保用镜像资源建立镜像的数据分区,则两台服务器的磁盘类型必须相同。

    例)

    组合

    服务器1

    服务器2

    OK

    SCSI

    SCSI

    OK

    IDE

    IDE

    NG

    IDE

    SCSI

  • 用"Disk Management"等确保的分区大小,按照磁盘柱面周围的块(单元)数来分配。因此,如果服务器间用作镜像磁盘的磁盘的几何数据不同,可执行无法使数据分区的大小完全一致。为了避免此类问题发生,对于确保数据分区的磁盘,建议两台服务器上的HW配置,包括RAID结构等在内,应该一致。

  • 两台服务器的磁盘类型和几何数据不匹配时,在设定镜像磁盘资源/共享型镜像磁盘资源前,请通过[clpvolsz]命令确认两台服务器数据分区的正确大小,如果大小不一致,请再次使用[clpvolsz]命令缩小较大的分区。

  • 为RAID结构的磁盘建立镜像时,对磁盘阵列控制器的缓存以Write-Thru方式使用则写入性能大大下降,建议您使用Write Back方式。但使用Write Back方式时,要使用搭载了电池的磁盘阵列控制器或者同时使用UPS。

  • 有OS的页文件的分区不能建立镜像。

6.1.2. 有关IPv6环境

在IPv6环境下,不能使用以下功能。

  • AWS Elastic IP 资源

  • AWS 虚拟 IP资源

  • AWS 辅助 IP资源

  • AWS DNS资源

  • Azure 探头端口资源

  • Azure DNS资源

  • Google Cloud 虚拟 IP 资源

  • Google Cloud DNS 资源

  • Oracle Cloud 虚拟 IP 资源

  • AWS Elastic IP监视资源

  • AWS 虚拟 IP监视资源

  • AWS 辅助 IP监视资源

  • AWS AZ监视资源

  • AWS DNS监视资源

  • Azure 探头端口监视资源

  • Azure 负载均衡器监视资源

  • Azure DNS 监视资源

  • Google Cloud 虚拟 IP 监视资源

  • Google Cloud DNS 监视资源

  • Google Cloud 负载均衡监视资源

  • Oracle Cloud 虚拟 IP 监视资源

  • Oracle Cloud 负载均衡监视资源

以下功能不能使用链路本地地址。

  • 内核模式LAN心跳资源

  • 镜像磁盘连接

  • PING网络分区解决资源

  • FIP资源

  • VIP资源

6.1.3. 关于网络设置

在NAT环境等自身服务器的IP地址和对方服务器的IP地址在不同服务器上形成不同的配置时,不能构筑/运用集群。

下图显示的是通过NAT设备连接不同网络的2台服务器。
在此,将NAT设备设置为“从External network发往 10.0.0.2的数据包,转发到Internal network”。
但是,考虑到在此环境中使用Server 1和 Server 2配置集群,在各个服务器中要指定不同的网络IP地址。
像这样,各服务器位于不同子网的环境中,则集群无法正确构建/运行。
跨NAT设备连接的2台服务器

图 6.1 无法配置集群的环境的示例

  • Server 1中的集群设置

    • 自身服务器: 10.0.0.1

    • 对方服务器: 10.0.0.2

  • Server 2中的集群设置

    • 自身服务器: 192.168.0.1

    • 对方服务器: 10.0.0.1

6.1.4. 关于共享磁盘的需求

  • 不能使用动态磁盘。请使用基本磁盘。

  • 用于共享磁盘的分区(磁盘心跳分区和磁盘资源切换分区)不能mount到NTFS文件夹下使用。

  • 不能使用软件RAID(Stripe Set,Mirror Set,带校验的Stripe Set)和Volume Set。

6.1.5. 关于镜像磁盘/共享型镜像磁盘的write性能

镜像磁盘资源/共享型镜像磁盘资源的磁盘镜像建立有同步镜像和非同步镜像2种方式。

同步镜像时,每当向镜像化对象的数据分区发出写入请求,都会向两台服务器的磁盘执行写入,并等待其结束。虽然向各服务器的写入是同时执行的,但向其它服务器的磁盘写入是通过网络进行的,所以与不进行镜像化的普通本地磁盘相比写入性能会降低。特别是网络通信速度慢,延迟时间长的远程集群结构,性能会大幅下降。

非同步镜像时,向自身服务器写出是立即执行的,而向其它服务器的写出会先保存到本地队列中,在后台写出。因为不需要等待向其他服务器的写出结束,即使网络性能较差时写出性能也不会有大幅下降。但是即使是非同步镜像时,也会在每次发出写入请求时将更新数据保存在队列中,与不建立镜像的普通本地磁盘和共享磁盘相比,写入性能会有降低。因此,向磁盘的写入处理需要较高吞吐量的系统(更新服务器较多的数据库系统等) ,推荐使用共享磁盘。

此外,非同步镜像时,虽然保证写入顺序,但运行服务器如宕机,可执行会丢失最新的更新内容。因此,如想在故障发生前一刻保证此刻信息切实被交接,需要使用同步镜像或者共享磁盘。

6.1.6. 关于非同步镜像的历史文件

在非同步模式的镜像磁盘/共享型镜像磁盘中,内存上的队列里记录不下的写入数据,会临时作为历史文件记录到被指定为历史文件夹的目录下。没有设置该历史文件的大小限制时,可以不受限制地写出到所指定的文件夹内。因此在这种设置的情况下,如果线路速度比业务应用程序的磁盘更新量低很多,则向远程服务器的写入处理赶不上磁盘更新的速度,磁盘里就会充斥历史文件。因此,远程集群结构也需要根据业务AP的磁盘更新量保证通信线路的速度。

此外,为了避免长时间通信延迟,连续发生磁盘更新导致历史文件保存文件夹溢出,需要为写出历史文件的磁盘确保充足的空余容量,或者设置历史文件的大小限制,又或者指定系统驱动器之外的其它驱动器。

6.1.7. 关于多个非同步镜像间的数据一致性

在非同步模式的镜像磁盘/共享型镜像磁盘中,将写入运行服务器的数据分区的内容也按照同样顺序写入待机服务器的数据分区中。

除了镜像磁盘的初始构建过程中和镜像化中断后的恢复(复制)过程中以外,都可以保证该写入顺序,因此可以保证待机服务器的数据分区上的文件间的数据一致性。

但多个镜像磁盘资源/共享型镜像磁盘资源间由于无法保证写入顺序,比如数据库的数据库文件和Journal(日志)文件,如果一方的文件比另一方陈旧,则数据一致性无法确保的文件被分散到多个非同步镜像磁盘上后,可执行会由于服务器宕机等引起失效切换时业务应用程序的非正常运行。

因此,这类文件必须放置在同一非同步镜像磁盘/共享型镜像磁盘上。

6.1.8. 关于Multiboot

如果从其它启动磁盘启动,镜像和共享磁盘的访问限制将被撤销,镜像磁盘的一致性和共享磁盘的数据保护将无法保证,使用这类资源时请不要使用Multiboot。

6.1.9. 关于JVM监视资源

  • 可同时进行监视的Java VM最多是25个。可同时监视的Java VM指,通过Cluster WebUI ([监视(固有)]标签->[识别名])可进行唯一识别的Java VM的数量。

  • Java VM和JVM监视资源之间的回收不支持SSL。

  • 有时可执行不能检测出线程死锁。这是已经确认的来自JavaVM的缺陷。详细内容请参考Oracle的Bug Database的"Bug ID: 6380127 "。(2011年4月现在)。

  • JVM监视资源可监视的Java VM需与JVM监视资源工作时的服务器在同一服务器内。

  • 通过Cluster WebUI (集群属性->[JVM监视]标签页->[Java安装路径])进行设定的Java安装路径在集群内的服务器内属于共通设定。关于JVM监视中使用的Java VM的版本以及升级版本,请在集群内服务器上使用同一版本。

  • 通过Cluster WebUI (集群属性->[JVM监视]标签页->[连接设定]对话框->[管理端口号])进行设定的管理端口号在集群内的服务器内属于共通设定。

  • x86_64版OS上运行IA32版的监视对象的应用程序时,不能进行监视。

  • 通过Cluster WebUI (集群属性->[JVM监视]标签页->[最大Java堆大小])进行设定的最大Java堆大小时,如果将其设定为3000等大数值,启动JVM 监视资源就会失败。由于依赖于系统环境,因此请将系统的内存搭载量设定为原来值。

  • 在监视对象Java VM的启动选项中附加「-XX:+UseG1GC」时,Java 7以前版本不能监视JVM监视资源的[属性]-[监视(固有)]标签页-[调整]属性-[内存]标签页内的设置项目。
    Java 8以上版本可以通过在JVM监视资源的[属性]-[监视(固有)] 标签页-[JVM类型]中选择[Oracle Java(usage monitoring)],可以进行监视。

6.1.10. 关于网络警告灯的要求

  • 使用"DN-1000S","DN-1500GL"时,请勿设置警告灯密码。

  • 因回放音频文件而出现警告时,需要在先在音频文件回放对应的网络警告灯上重新登录音频文件。
    有关音频文件登录,请参考各网络警告灯的使用说明书。
  • 在网络警告灯里请设置允许来自集群内的服务器的rsh命令执行。

6.2. 安装EXPRESSCLUSTER前

OS安装完成后,在对OS和磁盘进行设置时所须注意的事项。

6.2.1. 关于文件系统

安装OS的分区,作为共享磁盘的磁盘资源使用的分区以及镜像磁盘/共享型镜像磁盘资源的数据分区的文件系统请使用NTFS。

6.2.2. 通信端口号

EXPRESSCLUSTER中缺省使用以下端口号。该端口号可在Cluster WebUI 上更改。请不要从EXPRESSCLUSTER以外的程序访问这些端口号。

请不要从ExpressCluster以外的程序访问以下端口号。

为服务器设置防火墙时,请使下列端口号可以访问。

安装EXPRESSCLUSTER后可以通过clpfwctrl命令设置防火墙。详细内容请参考《参考指南》的"EXPRESSCLUSTER命令参考"的"添加防火墙规则(clpfwctrl命令)"。 另外,通过clpfwctrl命令设置的端口为下表的clpfwctrl栏中带有 ✓ 的端口和"ICMPv4"、"ICMPv6"的协议。

在Cloud环境的情况下,不仅可以在实例侧的防火墙设置中访问以下端口号,还可以在Cloud基盘侧的安全设置中访问以下端口号。

  • [服务器・服务器之间]

    From

    To

    备注

    clpfwctrl

    服务器

    自动分配 5

    服务器

    29001/TCP

    内部通信

    服务器

    自动分配

    服务器

    29002/TCP

    数据传送

    服务器

    自动分配

    服务器

    29003/UDP

    警告同步

    服务器

    自动分配

    服务器

    29004/TCP

    磁盘Agent间通信

    服务器

    自动分配

    服务器

    29005/TCP

    镜像驱动程序间通信

    服务器

    自动分配

    服务器

    29008/TCP

    集群信息管理

    服务器

    自动分配

    服务器

    29010/TCP

    Restful API 内部通信

    服务器

    29106/UDP

    服务器

    29106/UDP

    心跳

    服务器

    icmp

    服务器

    icmp

    FIP/VIP资源的重复确认

    5

    自动分配在某一时刻未被使用的端口号。

  • [服务器・客户端之间]

    From

    To

    备注

    clpfwctrl

    Restful API 客户端

    自动分配

    服务器

    29009/TCP

    http通信

  • [服务器・Cluster WebUI之间]

    From

    To

    备注

    clpfwctrl

    Cluster WebUI

    自动分配

    服务器

    29003/TCP

    http通信

  • [其他]

    From

    To

    备注

    clpfwctrl

    服务器

    自动分配

    网络警告灯

    514/TCP

    控制网络警告灯

    服务器

    自动分配

    服务器的BMC的管理LAN

    623/UDP

    控制BMC(强行停止)

    服务器

    自动分配

    Witness 服务器

    使用Cluster WebUI设定的通信端口号

    Witness 心跳资源的连接目标主机

    服务器

    自动分配

    监视目标

    icmp

    IP监视资源

    服务器

    自动分配

    监视目标

    icmp

    Ping方式网络分区解决资源的监视目标

    服务器

    自动分配

    监视目标

    使用Cluster WebUI 设定的通信端口号

    HTTP 方式网络分区解决资源的监视目标

    服务器

    自动分配

    服务器

    使用Cluster WebUI设定的管理端口号

    JVM监视资源

    服务器

    自动分配

    监视目标

    使用Cluster WebUI设定的连接端口号

    JVM监视资源

    服务器

    自动分配

    服务器

    Cluster WebUI 中设置的探头端口

    Azure 探头端口资源

    服务器

    自动分配

    AWS区域终端节点

    443/tcp

    AWS Elastic IP资源
    AWS 虚拟 IP资源
    AWS 辅助 IP资源
    AWS DNS资源
    AWS Elastic IP监视资源
    AWS 虚拟 IP监视资源
    AWS 辅助 IP监视资源
    AWS AZ监视资源
    AWS DNS监视资源
    AWS 强制停止资源

    服务器

    自动分配

    Azure终端节点

    443/tcp

    Azure DNS资源

    服务器

    自动分配

    Azure的权威DNS服务器

    53/udp

    Azure DNS监视资源

    服务器

    自动分配

    服务器

    Cluster WebUI 中设置的端口号

    Google Cloud 虚拟 IP 资源

    服务器

    自动分配

    服务器

    Cluster WebUI 中设置的端口号

    Oracle Cloud 虚拟 IP 资源

AWS环境时,防火墙的设置以外,也请变更安全组的设定。

JVM监视中使用以下2种端口号。

  • 管理端口号是为了JVM监视资源内部使用的端口号。通过Cluster WebUI的[集群属性]-[JVM监视]标签页-[连接设置] 对话框来设置。有关详细信息,请参照《参考指南》的"参数的详细信息"。

  • 连接端口号是为了与监视目标(WebLogic Server,WebOTX)的Java VM相连接的端口号。通过Cluster WebUI的该JVM监视资源名的[属性]-[监视(固有)]标签页来设置。有关详细信息,请参考《参考指南》的"监视资源的详细信息"。

Azure探头端口资源的[探头端口],Google Cloud虚拟IP资源的[端口号],Oracle Cloud虚拟IP资源的[端口号],是负载均衡器在对各个服务器进行死活监视时用的端口号。

以下的AWS相关资源执行AWS CLI。AWS CLI使用上述端口号。

  • AWS Elastic IP 资源

  • AWS 虚拟 IP资源

  • AWS 辅助 IP资源

  • AWS DNS资源

  • AWS Elastic IP监视资源

  • AWS 虚拟 IP监视资源

  • AWS 辅助 IP监视资源

  • AWS AZ监视资源

  • AWS DNS监视资源

  • AWS 强制停止资源

Azure DNS资源是执行Azure CLI。Azure CLI是使用上述端口。

6.2.3. 更改通信端口号的自动分配的范围

OS所管理的通信端口号的自动分配范围有可执行与EXPRESSCLUSTER所使用的通信端口号重复。

通过以下方法等确认,OS管理的通信端口号的自动分配范围与EXPRESSCLUSTER所使用的通信端口号重复时,为了使通信端口号不重复,请更改EXPRESSCLUSTER所使用的通信端口号或者OS管理的通信端口号的自动分配范围。

  • 通过Windows提供的netsh命令来显示或设定自动分配的范围。

  • OS所管理的通信端口号的自动分配范围的确认方法

    netsh interface ipv6 set global dhcpmediasense=disabled
    

    以下为执行示例。

    >netsh interface ipv4 show dynamicportrange tcp
    
    协议tcp的动态端口范围
    ---------------------------------
    开始端口 : 49152
    端口数 : 16384
    

    以上表示ipv4,TCP协议的通信端口号的自动分配范围是49152~68835(分配了从端口号49152开始的16384个端口)。如果EXPRESSCLUSTER使用的通信端口号在此范围内,请更改EXPRESSCLUSTER使用的端口号或者执行下述[OS管理的通信端口号的自动分配范围的设定方法]。

  • OS管理的通信端口号的自动分配范围的设定方法

    netsh interface <ipv4|ipv6> set dynamicportrange <tcp|udp> [startport=]<开始端口号> [numberofports=]<自动分配范围>

    以下为执行示例。

    >netsh interface ipv4 set dynamicportrange tcp startport=10000 numberofports=1000
    

    以上表示ipv4,TCP协议的通信端口号的自动分配范围是10000~10999(分配了从端口号10000开始的1000个端口)。

6.2.4. 关于避免端口数不足的设置

EXPRESSCLUSTER的配置中使用了多服务器,多资源时,EXPRESSCLUSTER的内部通信所使用的临时端口不足,作为集群服务器可执行不能正常运行。
必要时请调整临时端口的可用范围和释放临时端口所需的时间。

6.2.5. 时钟同步的设置

集群系统中,推荐将多个服务器的时钟定期同步操作。请使用时间服务器等使服务器的时钟同步。

6.2.6. 关于共享磁盘

  • 在没有通过EXPRESSCLUSTER限制访问的状态下,如果启动多台与共享磁盘相连的服务器,可执行导致共享磁盘上的数据被损坏。在实施访问限制前,请务必仅启动一台机器。

  • 将磁盘方式作为网络分区解决方式使用时,请在共享磁盘上创建DISK网络分区解决资源使用的17MB以上RAW分区(磁盘心跳用分区)。

  • 作为磁盘资源,用于服务器之间的数据交接的分区(切换分区)请以NTFS来格式化。

  • 共享磁盘上的各分区在所有服务器上都请设置为同样的盘符。

  • 要在共享磁盘上创建分区或者格式化,请只在某一台服务器上进行。无须在各服务器上重新创建/重新格式化。只是盘符需要在各服务器上进行设置。

  • 由于重新安装服务器要继续使用共享磁盘上的数据时,请不要进行分区的确保和格式化。如果进行分区的确保和格式化将删除共享磁盘上的数据。

6.2.7. 关于镜像磁盘用的分区

  • 请在各服务器的本地磁盘上创建1024MiB以上的RAW分区作为管理镜像磁盘资源的分区(集群分区)。

  • 在各服务器的本地磁盘上创建镜像化对象的分区(数据分区),并以NTFS格式化(为已有的分区建立镜像时,无须重新创建分区)。

  • 在两台服务器上设置的数据分区的大小应相等。请使用[clpvolsz]命令确认调整正确的分区大小。

  • 两台服务器上设置的集群分区和数据分区的盘符应该一致。

6.2.8. 关于共享型镜像磁盘用的分区

  • 作为共享型镜像磁盘资源的管理用分区(集群分区),请为每个服务器组的共享磁盘(如果服务器组的成员服务器只有1台,则为本地磁盘)创建1024MiB以上的RAW分区。

  • 请在各个服务器组的共享磁盘(如果服务器组的成员服务器只有1台,则为本地磁盘)创建镜像化对象分区(数据分区)并用NTFS方式进行格式化(如果镜像化已有的分区,则无需重新创建分区)。

  • 在两服务器组上设置的数据分区的大小应相等。请使用[clpvolsz]命令确认调整正确的分区大小。

  • 请在各个服务器上为集群分区和数据分区设置相同的盘符。

6.2.9. 关于数据分区上的文件夹和文件的访问许可

工作组环境中对数据分区上的文件夹和文件进行访问许可设置时,需要在访问该数据分区的所有节点上,对该用户设置访问许可。例如,对server1, server2 的test用户进行访问许可设置时,需要在server1和server2中对test用户进行访问许可设置。

6.2.10. OS启动时间的调整

请将从接通电源到OS启动为止的时间设为比以下的两个时间都长6

  • 使用共享磁盘时,从接通磁盘的电源到可以使用时的时间

  • 心跳超时时间

6

具体的步骤,请参照《安装&设置指南》的"确定系统配置" -"配置硬件后的设置"-"3. 调整OS启动时间(必须)"。

6.2.11. 网络的确认

  • 确认通过心跳线或镜像连接使用的网络。在集群内所有的服务器上确认。

  • 请使用[ipconfig]命令或[ping]命令确认网络的状态。

    • 公网 (与其它机器通信的网络)

    • 私网专用LAN(EXPRESSCLUSTER的服务器之间连接的网络)

    • 镜像连接LAN(与私网共用)

    • 主机名

  • 集群上使用的浮动IP资源的IP地址不用设置到OS端。

  • EXPRESSCLUSTER 的设置中(心跳和镜像连接等)指定了IPv6时,如果发生了网卡LinkDown,则该网卡绑定的IP地址会处于不可见状态,直接影响EXPRESSCLUSTER的运行。请执行下面的命令,解除对媒体连接的限制

    netsh interface ipv6 set global dhcpmediasense=disabled
    

6.2.12. 关于与ESMPRO/AutomaticRunningController结合使用

要求与ESMPRO/AutomaticRunningController(以下简称ESMPRO/AC)结合使用的时候,EXPRESSCLUSTER的构筑/设置有以下的注意事项。如果不满足这些注意事项,与ESMPRO/AC结合使用的功能将有可执行不能正常工作。

  • 作为网络分区解决资源,只有DISK方式的资源不能单独指定。指定DISK方式的时候,必须与PING方式等其它的网络分区解决方式资源一起组合指定。

  • 建立磁盘TUR监视资源时,最终动作的设定值为默认(不进行任何操作),请不要对该项进行更改。

  • 建立磁盘RW监视资源时,[文件名]的设定值指定为共享磁盘上的路径时,[监视时间]的设定值为默认(启动时),请不要对该项进行更改。

  • 断电后再启动时,在EXPRESSCLUSTER管理器上可执行会提示以下的警告信息。根据以上的设定,在实际工作中并不会发生故障,所以可以忽略。

  • ID:18
    模块名:nm
    信息:资源<DiskNP资源名>启动失败。(服务器名:xx)
  • ID:1509
    模块名:rm
    信息:监视<磁盘TUR资源名>查出异常。(4 : 开启设备失败。请确认监视卷的磁盘状态。)
  • 关于ESMPRO/AC的设定方法,注意事项等,请参考《EXPRESSCLUSTER X for Windows PP指南》的"ESMPRO/AC"章节的内容。

6.2.13. 关于ipmiutil

  • 在以下功能中,使用了已经作为BSD许可证的开源代码被公开的IPMI Management Utilities (ipmiutil)控制各服务器的BMC固件。因此使用这些功能时,请在各集群服务器上安装ipmiutil。

    • 物理机的强行停止功能

  • 使用上述功能时,为了保证管理底板管理控制器(BMC)的LAN板卡所使用的IP地址和OS所使用的IP地址之间的通信,请设置各服务器的BMC。服务器上没有安装BMC或者管理BMC所使用的网络处于关闭状态时无法使用该功能。BMC的设置方法请参考各服务器的手册。

  • EXPRESSCLUSTER没有附带ipmiutil。ipmiutil的获取和安装方法请参考《安装&设置指南》- "确定系统配置"- "配置硬件后的设置" - "9. 设置BMC和ipmiutil(使用物理机的强行停止功能和机箱ID指示灯联动时必须)"。

  • ipmiutil相关的以下事项本公司恕不对应。请根据用户自己的判断和责任使用。

    • ipmiutil自身相关的咨询

    • ipmiutil的运行保证

    • ipmiutil的问题对应,因其问题造成的故障

    • 各服务器的ipmiutil的支持情况咨询

  • 请用户提前确认您计划使用的服务器(硬件)是否支持ipmiutil。请注意,即使硬件本身是基于IPMI标准,实际上也可执行无法运行ipmiutil。

6.2.14. 关于在Server Core的安装

Server Core环境下安装EXPRESSCLUSTER时,通过命令提示符,请执行CD盘路径下的menu.exe。显示菜单界面。
之后的步骤和普通安装相同,但是在license登录时不能选择[通过license文件登录]。请务必选择[输入license项目后登录]。

6.2.15. 关于邮件通知

不支持STARTTLS和SSL的邮件通知功能。

6.2.16. 关于系统磁盘连接的HBA的访问限制

设置用[集群管理的HBA列表]来管理系统磁盘连接的HBA时,会对安装OS的分区等进行访问限制,可执行会使OS不能正常启动。
SAN启动环境等方面,设置用[集群管理的HBA列表]来管理系统磁盘连接的HBA时,需要将系统分区设置为[不被集群系统管理的分区],作为访问限制对象之外。
关于具体内容,请参考《参考指南》的"参数的详细信息"的"服务器属性"。

6.2.17. AWS环境中的时刻同步

以下的AWS相关资源在启动时/停止时/监视时执行AWS CLI。
AWS Elastic IP 资源
AWS 虚拟 IP资源
AWS 辅助 IP资源
AWS DNS资源
AWS Elastic IP监视资源
AWS 虚拟 IP监视资源
AWS 辅助 IP监视资源
AWS AZ监视资源
AWS DNS监视资源
AWS 强制停止资源
实例的日期和时间设置不正确时,可能会执行AWS CLI失败。这是AWS的式样。
这时,请正确设置实例的日期和时间,根据NTP等取得时刻同步。关于具体内容请参考"为Windows实例设置时刻 "(http://docs.aws.amazon.com/ja-jp/AWSEC2/latest/WindowsGuide/windows-set-time.html)。

6.2.18. 关于AWS环境中IAM的设置

说明关于AWS环境中IAM (Identity & Access Management)的设置。

EXPRESSCLUSTER的一部分功能,由于这些处理,会在内部运行AWS CLI。为了能正常执行AWS CLI,需要事先对IAM进行设置。

作为可访问AWS CLI的方法,有使用IAM角色的方针和使用IAM用户的方针2种。基本上由于在各实例上不需要保存AWS access key id和AWS secret access key,安全性提高,推荐使用前者的IAM角色的方针。

IAM的设置步骤如下所示。

  1. 首先请创建IAM policy。请参考后面的"IAM policy的创建"。

  2. 接下来进行实例设置。
    使用IAM角色时,请参考后面的“实例的设置-使用IAM角色”。
    使用IAM用户时,请参考后面的“实例的设置-使用IAM用户”。

IAM policy的创建

创建policy,该policy记载了针对AWS的EC2和S3等的服务的动作的访问许可。EXPRESSCLUSTER的AWS关联资源以及监视资源执行AWS CLI所允许的必要的动作如下所示。

必要的policy有可执行将来被变更。

  • AWS虚拟IP资源/AWS虚拟IP监视资源

    动作

    说明

    ec2:DescribeNetworkInterfaces
    ec2:DescribeVpcs
    ec2:DescribeRouteTables

    取得VPC,路由表,网络接口的信息时必需。

    ec2:ReplaceRoute

    更新路由表时必需。

  • AWS Elastic IP资源/AWS Elastic IP监视资源

    动作

    说明

    ec2:DescribeNetworkInterfaces
    ec2:DescribeAddresses

    取得EIP,网络接口的信息时必需。

    ec2:AssociateAddress

    将EIP分配到ENI时必需。

    ec2:DisassociateAddress

    将EIP从ENI分离时必需。

  • AWS辅助IP资源/AWS辅助IP监视资源

    动作

    说明

    ec2:DescribeNetworkInterfaces
    ec2:DescribeSubnets

    取得网络接口和子网的信息时必需。

    ec2:AssignPrivateIpAddresses

    分配辅助IP地址时必需。

    ec2:UnassignPrivateIpAddresses

    取消分配辅助IP地址时必需。

  • AWS AZ监视资源

    动作

    说明

    ec2:DescribeAvailabilityZones

    取得可用区的信息时必需。

  • AWS DNS资源 / AWS DNS监视资源

    动作

    说明

    route53:ChangeResourceRecordSets

    追加,删除资源记录集,更新设置内容时必需。

    route53:GetChange

    添加资源记录集、更新设置内容时必需。

    route53:ListResourceRecordSets

    取得资源记录集信息时必需。

  • AWS 强制停止资源

    Action

    Description

    ec2:DescribeInstances

    取得实例的信息时必需。

    ec2:StopInstances

    停止实例时必需。

    ec2:RebootInstances

    重启实例时必需。

  • 向Amazon CloudWatch发送监视资源的监视处理时间的功能

    动作

    说明

    cloudwatch:PutMetricData

    发送自定义指标时所需。

  • 向 Amazon SNS发送警报服务消息的功能

    动作

    说明

    sns:Publish

    发送消息时所需。

以下的自定义policy的例子是许可全部AWS关联资源以及监视资源所使用的动作。

{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Action": [
                "ec2:Describe*",
                "ec2:ReplaceRoute",
                "ec2:AssociateAddress",
                "ec2:DisassociateAddress",
                "ec2:AssignPrivateIpAddresses",
                "ec2:UnassignPrivateIpAddresses",
                "ec2:StopInstances",
                "ec2:RebootInstances",
                "route53:ChangeResourceRecordSets",
                "route53:GetChange",
                "route53:ListResourceRecordSets"
            ],
            "Effect": "Allow",
            "Resource": "*"
        }
    ]
}

通过IAM Management Console的[Policies] - [Create Policy]可创建自定义policy。

实例的设置-使用IAM角色

通过创建IAM角色并赋给实例从而使AWS CLI可执行的方法。

IAM和EC2实例

图 6.2 设置使用IAM角色的实例

  1. 创建IAM角色。在创建的角色上连接IAM policy。
    通过IAM Management Console的[Roles] - [Create New Role]可创建IAM角色。
  2. 创建实例时,指定「IAM Role」上创建的IAM角色。

  3. 登录实例。

  4. 安装Python。
    安装EXPRESSCLUSTER必需的Python。首先确认是否已安装Python。未安装时,从以下地址下载Python进行安装。安装后,在控制面板中添加指向python.exe的路径到环境变量PATH中。由于Python命令由SYSTEM用户执行,因此请确保将系统环境变量PATH设置为Python命令的路径。

    https://www.python.org/downloads/

  5. 安装AWS CLI。

    下载AWS CLI 后进行安装。
    安装程序自动添加到系统环境变量PATH中。没有添加时,请参考AWS的文档"AWS Command Line Interface"。
    安装Python或AWS CLI时如果已经安装EXPRESSCLUSTER,请重启OS再执行EXPRESSCLUSTER的操作。
  6. 通过Administrator用户启动命令提示,执行以下的命令。

    > aws configure
    

    针对提问输入执行AWS CLI所必需的信息。请注意不要输入AWS Access ID,AWS Secret Access Key。

    AWS Access Key ID [None]: (只按Enter键)
    AWS Secret Access Key [None]: (只按Enter键)
    Default region name [None]: <默认的区域名>
    Default output format [None]: text

    "Default output format"可以指定为"text"之外的格式。

    内容设置错误时,请将 %SystemDrive%\Users\Administrator\.aws 目录删除后再重新执行上述操作。

实例的设置-使用IAM用户

创建IAM用户,通过将Access ID,Secret Access Key保存在实例内部使AWS CLI执行可执行的方法。实例创建时不需要IAM角色的授予。

IAM和EC2实例

图 6.3 设置使用IAM用户的实例

  1. 创建IAM用户。在创建的用户上连接IAM policy。
    通过IAM Management Console的[Users] - [Create New Users] 可创建IAM用户。
  2. 登录实例。

  3. 安装Python。
    安装EXPRESSCLUSTER必需的Python。首先确认是否已安装Python。未安装时,从以下地址下载Python进行安装。安装后,在控制面板中添加指向python.exe的路径到环境变量PATH中。由于Python命令由SYSTEM用户执行,因此请确保将系统环境变量PATH设置为Python命令的路径。

    https://www.python.org/downloads/

  4. 安装AWS CLI。

    下载AWS CLI 后进行安装。
    安装程序自动添加到系统环境变量PATH中。没有添加时,请参考AWS的文档"AWS Command Line Interface"。
    安装Python或AWS CLI时如果已经安装EXPRESSCLUSTER,请重启OS再执行EXPRESSCLUSTER的操作。
  5. 通过Administrator用户启动命令提示,执行以下的命令。

    > aws configure
    

    针对提问输入执行AWS CLI所必需的信息。AWS Access ID,AWS Secret Access Key处输入从已创建的IAM用户的详细信息画面取得的内容。

    AWS Access Key ID [None]: <AWS Access Key >
    AWS Secret Access Key [None]: <AWS Secret Access Key>
    Default region name [None]: <默认的区域名>
    Default output format [None]: text

    "Default output format"可以指定为"text"之外的格式。

    内容设置错误时,请将 %SystemDrive%\Users\Administrator\.aws 目录删除后再重新执行上述操作。

6.2.19. 关于Azure DNS资源

  • 安装Azure CLI,服务主体创建的步骤请参考《EXPRESSCLUTER X Microsoft Azure HA 集群构筑指南 (Windows 版)》。

  • 为了利用Azure DNS资源,需要安装Azure CLI和Python。Python是在安装Azure CLI 2.0的同时被安装的。关于Azure CLI的具体内容,请参考以下Web站点。
    Microsoft Azure的文档:
  • 为了利用Azure DNS资源,需要Azure DNS的服务。关于Azure DNS的具体内容,请参考以下Web站点。
    Azure DNS:
  • EXPRESSCLUTER为了和Microsoft Azure联动,需要Microsoft Azure的组织账户。组织账户以外的账户在Azure CLI运行时需要对话形式的登录,因此不能使用。
  • 使用Azure CLI,需要创建服务主体。
    Azure DNS资源是登录到Microsoft Azure,执行对DNS区域的登记。登录到Microsoft Azure时,利用通过服务主体的Azure登录。
    关于服务主体和具体步骤,请参考以下的Web站点。
    通过Azure CLI登录Azure:
    在Azure CLI 2.0上创建Azure服务主体:
    创建出服务主体的角色由默认的Contributor(共同创造者)改为别的角色时,作为Actions属性,请选择拥有以下的全部操作的访问权的角色。
    如果改变为不满足该条件的角色时,启动Azure DNS资源就会发生错误而失败。
    Azure CLI 2.0时
    Microsoft.Network/dnsZones/A/write
    Microsoft.Network/dnsZones/A/delete
    Microsoft.Network/dnsZones/NS/read
  • 不支持Azure私有DNS。

6.2.20. 关于Google Cloud 虚拟IP资源

  • 在Windows Server 2019上使用Google Cloud 虚拟 IP资源时,必须将以下服务的[启动类型]设置为[自动(延迟启动)]。

    • Google Compute Engine Agent

    • Google OSConfig Agent

6.2.21. 关于Google Cloud DNS资源

  • 使用Google Cloud的Cloud DNS。关于Cloud DNS的详细信息,请参考以下Web网站。

  • 要使用Cloud DNS操作,需要安装Cloud SDK。关于Cloud SDK的详细信息,请参考以下网站。

  • 需要用具有以下权限的帐户批准Cloud SDK。

    dns.changes.create
    dns.changes.get
    dns.managedZones.get
    dns.resourceRecordSets.create
    dns.resourceRecordSets.delete
    dns.resourceRecordSets.list
    dns.resourceRecordSets.update

    关于批准Cloud SDK,请参考以下Web网站。

6.2.22. 关于OCI环境中CLI的设置

说明关于OCI环境中CLI的设置。
EXPRESSCLUSTER的一部分功能,由于这些处理,会在内部运行OCI CLI。
为了能正常执行OCI CLI,需要事先对进行设置。
关于批准OCI CLI,请参考以下Web网站。
Oracle Cloud Infrastructure Documentation - Command Line Interface (CLI)

6.2.23. 关于OCI强制停止资源的设置

使用OCI强制停止资源时,根据OCI CLI命令的安装目录和OCI配置文件(config file)的位置,
需要更改下面脚本中描述的参数值。
<EXPRESSCLUSTER 安装路径>\cloud\oci\clpociforcestop.ps1

・根据OCI CLI命令的安装目录而更改的参数
 $Env:Path += ";[OCI CLI命令的安装目录]"
 <例> $Env:Path += ";C:\Users\opc\AppData\Local\Programs\Python\Python36\Scripts\;C:\Users\opc\AppData\Local\Programs\Python\Python36\"

・根据OCI配置文件的保存位置而更改的参数
 [string]$OCI_Path = "[OCI配置文件的路径]"
 <例> [string]$OCI_Path = "C:\Users\opc\.oci\config"

6.3. 创建EXPRESSCLUSTER的配置信息时

在设计和创建EXPRESSCLUSTER的配置信息前,需要根据系统的配置确认并留意以下事项。

6.3.1. 有关EXPRESSCLUSTER安装路径下的文件夹和文件

除了EXPRESSCLUSTER本身外,请不要对EXPRESSCLUSTER安装路径下的目录或文件进行操作(编辑/创建/添加/删除等)。
EXPRESSCLUSTER以外对目录或文件进行操作时的影响不在售后支持范围内。

6.3.2. 组资源停止异常时的最终运行

查出停止异常时的最终运行如选择了"无操作",则组不会在停止失败的状态下停止。
请注意在实际的业务中使用时不要设置为"无操作"。

6.3.3. 延迟警告比例

将延迟警告比例设置为0或者100,可进行以下操作。

  • 延迟警告比例设置为0时
    对每一监视以Alert通告延迟警告。
    使用该功能可计算出服务器在高负荷状态下对监视资源的轮询时间,确定监视资源的监视超时时间。
  • 延迟警告比例设置为100时
    不通告延迟警告。

除了测试外,请不要设置0%等低数值。

6.3.4. 关于磁盘监视资源和共享型镜像磁盘TUR监视资源的监视方法TUR

  • 不支持SCSI的Test Unit Ready命令的磁盘和磁盘接口(HBA)上无法使用。
    有时硬件支持而驱动程序不支持,请同时确认驱动程序的规格。
  • 与Read方式相比对OS或磁盘的负荷小。

  • Test Unit Ready中有时不能查出实际的对媒体的I/O错误。

6.3.5. 关于心跳资源的设置

  • 对于优先级最高的私网,请设置允许所有服务器之间通信的LAN心跳或者内核模式LAN心跳。

  • 建议设置两个以上内核模式LAN心跳资源(除非是在很难添加网络时,例如Cloud环境或远程集群环境中)。

  • 建议将私网专用的LAN注册为LAN心跳资源,同时,将公网LAN也注册为LAN心跳资源。

  • 心跳超时时间需要比OS重启所需时间短。如果未满足该条件,集群内的部分服务器进行重启时,其他服务器将无法正确检测出该服务器的重启,重启后将发生运行异常。

6.3.6. 关于能用于脚本注释等的双字节系字符编码

  • 在EXPRESSCLUSTER中,Windows环境下编辑的脚本作为Shift-JIS使用,而Linux环境下编辑的脚本则作为EUC使用。如使用其他字符编码,可执行因环境不同而出现乱码的情况。

6.3.7. 关于组的可启动服务器上可设置的服务器组数

  • 1个组的可启动服务器上可设置的服务器组数最多为2个。如果设置了3个以上的服务器组时,EXPRESSCLUSTER Disk Agent 服务 (clpdiskagent.exe)有可执行不能正常运行。

6.3.8. 关于JVM监视器的设定

  • 监视目标为WebLogic时,对于JVM监视器资源的设定值,由于系统环境(内存搭载量等)的原因,设定范围的上限值可执行会受到限制。

  • [监视Work Manager的要求]-[要求数]

  • [监视Work Manager的要求]-[平均值]

  • [监视线程Pool的要求]-[待机要求 要求数]

  • [监视线程Pool的要求]-[待机要求 平均值]

  • [监视线程Pool的要求]-[执行要求 要求数]

  • [监视线程Pool的要求]-[执行要求 平均值]

  • 要使用Java Resource Agent,请安装"4. EXPRESSCLUSTER的运行环境"的"4.2.5. JVM监视器的运行环境"中记载的JRE(Java Runtime Environment),或者请安装JDK(Java Development Kit)。可与使用监视对象(WebLogic Server或WebOTX)的JRE或JDK在相同的项目中使用,也可使用在其他项目。如果一个服务器中同时安装了JRE和JDK,则使用其中任何一个居可。

  • 监视资源名中不要含空白字符。

6.3.9. 关于系统监视的设置

  • 资源监视的查出模式
    System Resource Agent中结合「阀值」和「监视持续时间」两个参数进行资源监视的查出。
    继续收集各系统资源(内存使用量,CPU 使用率,虚拟内存使用量),如果在一定时间(指定为持续时间的时间)内超过阀值时就会进行异常的查出。

6.3.10. 关于PostgreSQL监视的设定

  • 监视资源名中不要含空白字符。

6.3.11. 关于AWS Elastic IP资源的设定

  • 不支持IPv6。

  • 在AWS环境下,不能利用浮动IP资源,浮动IP监视资源,虚拟IP资源,虚拟IP监视资源,虚拟计算机名资源和虚拟计算机名监视资源。

  • AWS Elastic IP资源不支持ASCII字符以外的字符。请确认以下命令的执行结果中不包含ASCII字符以外的字符。

    aws ec2 describe-addresses --allocation-ids <EIP ALLOCATION ID>
  • AWS Elastic IP 资源将 EIP 与 ENI 的主专用 IP 地址相关联。它不能与辅助专用 IP 地址相关联。

6.3.12. 关于AWS 虚拟IP资源的设定

  • 不支持IPv6。

  • 在AWS环境下,不能利用浮动IP资源,浮动IP监视资源,虚拟IP资源,虚拟IP监视资源,虚拟主机名资源和虚拟主机名监视资源。

  • AWS虚拟IP资源不支持ASCII字符以外的字符。请确认以下命令的执行结果中不包含ASCII字符以外的字符。

    aws ec2 describe-vpcs --vpc-ids <VPC ID>
    aws ec2 describe-route-tables --filters Name=vpc-id,Values=<VPC ID>
    aws ec2 describe-network-interfaces --network-interface-ids <ENI ID>
  • 在需要经由VPC-Peering连接的访问时,不能利用AWS虚拟IP资源。这是因为作为VIP使用的IP地址是在VPC范围之外的前提,这样的IP地址在VPC-Peering连接中被视为无效。需要经由VPC-Peering连接的访问时,请使用利用了Amazon Route 53的AWS DNS资源。

  • 设置AWS虚拟IP资源时,作为Windows的操作,物理主机名和虚拟IP的记录 DNS中注册(该网络适配器的属性设置中,将地址注册到DNS种的设定已打开时)。要将有物理主机域名解析的IP地址变为物理IP地址,请按如下所示进行设置。

    • 已经有相应的虚拟IP地址,如果已勾选网络适配器的[属性]-[Internet协议版本4]-[详细设置]-[DNS]标签页-[在DNS中注册此连接的地址],请取消勾选。

    • 要反映该设置,请执行以下任意的操作

      • 重启DNS Client 服务。

      • 明确执行ipconfig /registerdns 命令。

    • 请将分配了相应虚拟IP地址的网络适配器的物理地址静态地注册到DNS服务器中。

  • 即使实例使用的路由表中不存在虚拟IP使用的IP地址的路由,AWS虚拟IP资源也能正常启动。这是规定好的。在启动AWS虚拟IP资源时,仅更新存在指定IP地址条目的路由表内容。即使没有找到任何一个路由表,也会因为没有更新目标而被判断为正常。由于该条目是否必须要存在于哪个路由表,是由系统配置决定的,因此,不作为检查AWS虚拟IP资源正常性的目标。

  • AWS虚拟IP资源在使用Windows OS的API的NIC中添加了虚拟IP地址。这时,由于没有设置skipassource flag,因此,在启动AWS虚拟IP资源后,skipassource flag将会变为无效。如要设置skipassource flag有效时,请在启动AWS虚拟IP资源后通过PowerShell 等进行设置。

6.3.13. 关于AWS 辅助IP资源的设定

  • 不支持IPv6。

  • 在AWS环境下,不能利用浮动IP资源,浮动IP监视资源,虚拟IP资源,虚拟IP监视资源,虚拟主机名资源和虚拟主机名监视资源。

  • AWS辅助IP资源不支持ASCII字符以外的字符。请确认以下命令的执行结果中不包含ASCII字符以外的字符。

    aws ec2 describe-network-interfaces --network-interface-ids <ENI ID>
    aws ec2 describe-subnets --subnet-ids <SUBNET_ID>
  • AWS 辅助 IP 资源不可以在具有不同子网的配置中使用。

  • AWS 辅助 IP 资源分配的辅助 IP 地址对每种实例类型都有限制。
    详细内容请参考以下所记。
  • 在 AWS 辅助 IP 资源中静态注册要为其分配辅助 IP 地址的网络适配器的物理 IP 地址。
    详细内容请参考以下步骤1。
  • AWS 辅助 IP 资源中,使用netsh命令向NIC添加辅助 IP 地址。这时,由于没有设置skipassource flag,因此,在启动AWS辅助IP资源后,skipassource flag将会变为无效。如要设置skipassource flag有效时,请在启动AWS辅助IP资源后通过PowerShell 等进行设置。

6.3.14. 关于AWS DNS资源的设定

  • 不支持IPv6。

  • 在AWS环境下,不能利用浮动IP资源,浮动IP监视资源,虚拟IP资源,虚拟IP监视资源,虚拟主机名资源和虚拟主机名监视资源。

  • 如果[资源记录集名称]中包含转义码,则为监视异常。请设置不含转义码的[资源记录集名称]。

  • 启动AWS DNS资源后,不会等待DNS配置的更改传播到所有Amazon Route 53 DNS服务器上。这是由于在Route 53的设计中,将资源记录集更改应用于整体需要花费时间。请参考"关于AWS DNS监视资源的设定"。

  • 由于AWS DNS资源绑定在一个账户上,因此,无法使用多个帐户,AWS访问ID,AWS秘密访问密钥。在这种情况下,请考虑创建一个使用脚本资源等执行AWS CLI的脚本,并将其中的环境变量设置为用于认证其他账户的信息。

6.3.15. 关于AWS DNS监视资源的设定

  • AWS DNS监视资源在监视时执行AWS CLI。执行AWS CLI的超时是利用在AWS DNS资源上设置的[AWS CLI超时]。

  • AWS DNS资源的启动后,根据以下的情况,AWS DNS监视资源的监视可执行会失败。这时,请将AWS DNS监视资源的 [开始监视等待时间] 设置为比Amazon Route 53中DNS设定改变反映的时间更长的时间(https://aws.amazon.com/jp/route53/faqs/)。

    • 启动AWS DNS资源时,追加和更新记录集合。

    • 反映Amazon Route 53中的DNS设置改变前,监视AWS DNS监视资源时就会由于不能进行域名解析而失败。在DNS解析器缓存有效的期间内,之后,监视AWS DNS监视资源也会失败。

    • 反映Amazon Route 53中的DNS设置改变。

    • 经过AWS DNS资源的 [TTL] 有效期,由于域名解析成功,监视AWS DNS监视资源成功。

6.3.16. 关于Azure 探头端口资源的设定

  • 不支持IPv6。

  • 在Microsoft Azure环境下,不能利用浮动IP资源,浮动IP监视资源,虚拟IP资源,虚拟IP监视资源,虚拟计算机名资源和虚拟计算机名监视资源。

6.3.17. 关于Azure 负载均衡监视资源的设定

  • Azure负载均衡监视资源检测到异常时,Azure的负载均衡的运行服务器和待机服务器的切换可执行不能正常执行。因此,推荐设置Azure负载均衡监视资源的[最终动作]选项为[停止集群服务并关闭操作系统]。

6.3.18. 关于Azure DNS资源设定

  • 不支持IPv6。

  • 在Microsoft Azure环境下,不能利用浮动IP资源,浮动IP监视资源,虚拟IP资源,虚拟IP监视资源,虚拟主机名资源和虚拟主机名监视资源。

6.3.19. 关于Google Cloud 虚拟 IP 资源的设定

  • 不支持IPv6。

6.3.20. 关于Google Cloud 负载均衡监视资源的设定

  • 如果Google Cloud负载均衡监视资源检测到异常,则可执行无法正确地从负载均衡器在运行系统和待机系统之间进行切换。因此,建议在Google Cloud负载均衡监视资源的[最终动作]中选择[停止集群服务停止和关闭操作系统]。

6.3.21. 关于Google Cloud DNS资源的设置

  • 不支持IPv6。

  • 在Google Cloud Platform 环境下,不能利用浮动 IP 资源,浮动IP监视资源,虚拟IP资源,虚拟IP监视资源。

  • 如果同时执行多个Google Cloud DNS资源的启动/停止处理,可执行会发生错误。因此,在集群中使用多个Google Cloud DNS资源时,需要进行设置,以便由于资源的依赖关系和组的启动/停止等待而不能同时执行启动/停止处理。

6.3.22. 关于Oracle Cloud 虚拟 IP 资源的设定

  • 不支持IPv6。

6.3.23. 关于Oracle Cloud 负载均衡监视资源的设定

  • 如果Oracle Cloud负载均衡监视资源检测到异常,则可执行无法正确地从负载均衡器在运行系统和待机系统之间进行切换。因此,建议在Oracle Cloud负载均衡监视资源的[最终动作]中选择[停止集群服务停止和关闭操作系统]。

6.3.24. 关于Windows Server 2012 以上的系统中服务失败时的恢复操作

在基于Windows Server 2012以上的系统下,将服务失败(异常结束)时所进行的恢复操作设置为[重新启动计算机]时,实际上服务失败时的操作从原来的(Windows Server 2008以前)的OS重启,更改为伴随STOP错误的OS重启。

作为恢复操作,按照默认值[重新启动计算机]所设置的EXPRESSCLUSTER的服务如下所示。

  • EXPRESSCLUSTER Disk Agent服务

  • EXPRESSCLUSTER Node Manager服务

  • EXPRESSCLUSTER Server服务

  • EXPRESSCLUSTER Transaction服务

6.3.25. 关于与 OS 的网络负载均衡功能兼容

OS的网络负载均衡(NLB)功能中,对使用中的NIC追加的IP地址,会被识别为NLB的虚拟IP地址。
这个虚拟IP地址作为配置给NLB集群内全部服务器的地址来处理。
给该NIC配置了浮动IP地址时,浮动IP地址也会被识别为虚拟IP地址。
访问这个浮动IP地址时,可以根据NLB的功能进行负载均衡,但由于浮动IP地址没有配置给待机服务器的NIC,对浮动IP地址的访问可执行会发生异常。

6.3.26. 反应HBA设置时的注意点

变更新建集群时[服务器属性]的[HBA]标签页中的访问限制的设定,并上传配置信息时,作为反映方法,可执行不会显示OS重启。如果更改新建集群时在[HBA]标签页中的访问限制设定时,为了反映配置信息,请重启OS。

6.3.27. 关于镜像磁盘资源和共享型镜像磁盘资源的共存

镜像磁盘资源和共享型镜像磁盘资源不能混在同一个失效切换组中。

6.4. 操作EXPRESSCLUSTER后

对作为集群开始操作后发生的事件需要注意以下几点。

6.4.1. 恢复运行中的操作限制

在监视资源的查出异常的设置中将恢复对象指定为组资源(磁盘资源,应用程序资源等),在监视资源查出异常后的恢复运行变化过程中(重启动 -> 失效切换 -> 最终运行),请不要通过Cluster WebUI或命令进行以下操作。

  • 集群的停止 / 挂起

  • 组的启动 / 停止 / 移动

由于监视资源异常导致恢复运行时,如在恢复过程中实施上述控制,则该组的其他的组资源可执行不会停止。
此外,即使监视资源处于异常状态,只要执行了最终运行即可实施上述控制。

6.4.2. 关于命令参考中没有记载的可执行文件或脚本文件

安装目录下存在命令参考中没有记载的可执行文件或脚本文件,请不要从EXPRESSCLUSTER以外的地方执行。
对于执行时产生的影响不属于支持范围。

6.4.3. 集群关机/集群关机重启

正在使用镜像磁盘,启动组的过程中请不要执行[clpstdn]命令或者从Cluster WebUI执行集群关机和集群关机重启。
正在启动组时无法令其变为停止状态。因此,镜像磁盘资源未被正常地停止时,OS可执行关机或者发生Mirror Break。

6.4.4. 特定服务器的关机,重启

使用镜像磁盘时,执行命令或从Cluster WebUI执行服务器的集群服务停止、关机、关机重启命令会发生Mirror Break。

6.4.5. 从网络分区状态的恢复

在发生了网络分区的状态下,配置集群的服务器之间无法确认彼此的状态,因此在该状态下对组进行操作(启动/停止/移动)或者重启服务器等,服务器之间对集群状态的识别会产生出入。在这种启动了多个状态识别不同的服务器的状态下进行网络恢复,则其后面的组操作会非正常运行,因此在网络分区状态时,关闭与切断网络(无法与客户端通信)的服务器,或者先停止EXPRESSCLUSTER Server服务,待网络恢复后重启,再复原到集群中。万一在启动了多个服务器的状态下恢复了网络,则可通过重启集群状态识别不同的服务器,复原到正常状态。

另外,使用网络分区解决资源时,即使发生了网络分区,也通常会紧急关闭某个(或者所有)服务器,避免启动多个彼此无法通信的服务器。紧急关闭的服务器以手动重启或者紧急关机时的动作设置为重启时,重启的服务器都会再次紧急关机(Ping方式或者多数取胜方式下将停止EXPRESSCLUSTER Server服务)。但以DISK方式使用多个磁盘心跳用分区时,由于磁盘路径故障导致无法通过磁盘进行通信的状态下而发生网络分区,则两台服务器将会以保留状态继续运行。

6.4.6. 关于Cluster WebUI

  • 如果在与连接目标无法通信的状态下进行操作,则等待控制返回可执行会花费些许时间。

  • 经由Proxy服务器时请对该服务器进行设置,以便可以中转Cluster WebUI的端口号。

  • 经由Reverse Proxy服务器时,Cluster WebUI不能正常运行。

  • 对EXPRESSCLUSTER进行升级后,请关闭所有运行中的Web浏览器。
    清空浏览器侧的缓存后再启动浏览器。
  • 使用比本产品更新的版本创建的集群配置信息,不能在本产品中使用。

  • 通过窗口边框中的[X]按钮等结束Web浏览器后,可执行会弹出确认对话框。

    若要保存当前配置,请选择[留在此页]。

  • 刷新Web浏览器(通过[工具]菜单中的[刷新]及工具条上的[刷新]按钮等)后,可执行会弹出确认对话框。

    若要保存当前配置,请选择[留在此页]。

  • 关于上述之外的Cluster WebUI的注意限制事项请参考在线版手册。

6.4.7. 关于EXPRESSCLUSTER Disk Agent服务

请勿停止EXPRESSCLUSTER Disk Agent服务。停止服务后无法手动启动。这时必须重启OS,再启动EXPRESSCLUSTER Disk Agent服务。

6.4.8. 关于镜像构建中的集群配置信息的变更

镜像构建过程中(包括初始构建)请不要更改集群配置信息。更改集群配置信息后,驱动程序的运行可执行出现不正常。

6.4.9. 关于镜像磁盘的待机服务器的集群恢复

镜像磁盘启动时待机服务器在停止集群服务(EXPRESSCLUSTER Server服务)的状态下运行时,在开始服务之后恢复到集群前请再次启动待机服务器。如果直接就这样恢复的话会出现镜像的差异信息不正确,镜像磁盘会发生不联动。

6.4.10. 关于镜像磁盘,共享型镜像磁盘间的配置变更

进行配置变更,将已通过镜像磁盘资源进行镜像化的磁盘更改为通过共享型镜像磁盘资源进行镜像化时,请先上传删除了现有镜像磁盘资源的配置信息,在变更为现有资源已被删除的状态后,再上传添加了共享型镜像磁盘资源的配置信息。将共享型镜像磁盘变更为镜像磁盘时也是如此。

如不按以上步骤,没有删除现有资源的情况下就上传已替换为新资源的配置信息,可执行导致磁盘镜像化的设置变更无法正常进行,运行可执行出现不正常。

6.4.11. 关于[chkdsk]命令和磁盘碎片整理

对磁盘资源上控制的共享磁盘上的切换分区或镜像磁盘资源上镜像化的数据分区执行[chkdsk]命令或磁盘碎片整理时,需要在已经启动了资源的服务器上执行。如果没有启动资源,由于访问权限的限制,将无法执行。
另外,在修复模式(/f选项)下执行[chkdsk]命令时,如果对象分区上有打开的文件或文件夹,将会执行失败,请停止失效切换组,在单机启动对象磁盘资源/镜像磁盘资源的状态下执行该命令。如果有对对象分区进行监视的磁盘RW监视资源,需要提前暂停监视资源。

6.4.12. 关于索引服务

在索引服务的目录中创建共享磁盘/镜像磁盘上的目录,对共享磁盘/镜像磁盘上的文件夹创建索引时,需要从EXPRESSCLUSTER控制,将索引服务设为手动启动,在启动共享磁盘/镜像磁盘后启动。如果将索引服务设为自动启动,则索引服务会OPEN对象卷,在之后的启动处理中将造成mount处理失败,最后造成从应用程序或资源浏览器访问磁盘因"参数错误" (错误代码87)而失败。

6.4.13. 关于Windows Server 2012以上环境中的用户帐户控制的影响

Windows Server 2012以上中默认值的用户帐户控制 (UAC 是User Account Control的略称) 设置为有效。如果UAC有效时,对下述的功能产生影响。

  • 监视资源
    对下面所述的监视资源产生影响。
    • Oracle 监视资源
      Oracle 监视资源中的认证方式为[OS 认证],且将监视用户设置为Administrators组以外的用户时,Oracle监视处理会失败。
      认证方式设置为[OS认证]时,请将设置为"监视用户"的用户应从属于Administrator组。

6.4.14. 关于应用程序资源/脚本资源的画面显示

从EXPRESSCLUSTER的应用程序资源,脚本资源启动的进程需要用对话0执行,因此如果启动了有GUI的进程,将弹出"发现对话型服务对话框"窗口,在该窗口中,如果不选择"显示消息",则不会显示GUI。

6.4.15. 关于网卡(NIC)二重化的环境

NIC二重化的环境中,启动OS 时初始化NIC有时需要花费点时间。如果初始化结束前就启动集群,启动内核模式,LAN心跳资源(lankhb)有可执行失败。此状态下,即便NIC的初始化已结束,内核模式和LAN心跳资源也不能返回正常状态。要从此状态进行复归,需要挂起集群后对集群进行复原。

此外,为避免上述现象的发生,推荐对网络初始化结束等待时间进行设置或者使用[ARMDELAY]命令推迟集群的启动时间。

  • 网络初始化等待时间
    是配置集群的所有服务器中的共通设置。即便没有到达设置的时间,如果网络的初始化已经结束,集群就会开始启动。

6.4.16. 关于EXPRESSCLUSTER的服务的登录帐号

EXPRESSCLUSTER的服务的登录帐号设置在 [当地系统帐号] 中。如果更改了此登录帐号的设置,就有可执行不能作为集群正常运行。

6.4.17. 关于EXPRESSCLUSTER的常驻进程的监视

使用监视进程的软件等对EXPRESSCLUSTER的常驻进程进行监视不会引发问题,但是在进程异常结束等情况下,请不要进行进程再启动等的复归运行。

6.4.18. 关于消息接收监视资源

  • 向消息接收监视资源发生异常通知时,有使用[clprexec] 命令,和服务器管理平台联动功能的方法。

  • 使用[clprexec] 命令时可使用与 EXPRESSCLUSTER CD 捆包一起的文件。请根据通知源服务器的 OS 和结构来使用。此外,还需要通知源服务器和通知目标服务器处于可进行通信的状态。

6.4.19. 关于JVM监视资源

  • 重启监视对象的Java VM时,请将JVM监视资源挂起,或者停止集群后再进行。

  • 变更设计内容时,需要进行集群的挂起和集群的复原。

  • 不支持监视资源的延迟警报。

6.4.20. 关于系统监视资源,进程资源监视资源

  • 变更设置内容时,需要进行集群挂起。

  • 不支持监视资源的延迟警报。

  • 若在运行中更改OS的日期或时间,则每隔10分钟执行的解析处理仅在更改日期或时间后的最初时序出现一次错位。出现以下两种问题时,请根据需要进行集群挂起和集群复归。

  • 即使异常检测时间间隔经过之后,也不执行异常检测。

  • 异常检测时间间隔经过之前,执行异常检测。

  • 使用系统监视资源的磁盘资源监视功能可同时监视最多26个磁盘。

6.4.21. 关于镜像统计信息采集功能与OS标准功能联动的事件日志输出

  • 从内部版本11.16之前升级的环境时,在应用程序事件日志中输出如下错误的情况。

  • 事件ID:1008
    源:Perflib
    消息:服务"clpdiskperf" (DLL "<EXPRESSCLUSTER安装路径>\bin\clpdiskperf.dll") 的Open 进程失败。不能使用此服务的性能数据。数据段的最初4个字节(DWORD)含有错误代码。

    使用镜像统计信息采集功能和OS标准功能之间的联动功能时,通过命令提示符执行以下命令,可以不输出本消息。

    >lodctr.exe <EXPRESSCLUSTER 安装路径>\perf\clpdiskperf.ini

    不使用联动功能时,即使输出该信息也不影响EXPRESSCLUSTER或者性能监视器操作,经常发生该消息输出时,通过执行以下2个命令,可以不输出本消息。

    > unlodctr.exe clpdiskperf
    > reg delete HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\clpdiskperf
  • 镜像统计信息采集功能与OS标准功能联动有效时,在应用程序事件日志中输出如下错误的情况。

  • 事件ID:4806
    源:EXPRESSCLUSTER X
    消息:因性能监视器的进程数过多,不能采集镜像统计信息。

    不使用联动功能时,即使输出该信息也不影响EXPRESSCLUSTER或者性能监视器操作,经常发生该消息输出时,通过执行以下2个命令,可以不输出本消息。

    > unlodctr.exe clpdiskperf
    > reg delete HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\clpdiskperf

此外,关于镜像统计信息采集功能和OS标准功能之间的联动功能,请参考以下。

6.4.22. 关于弹出"发现对话型服务对话框" 窗口

将应用程序资源/脚本资源设置为"允许与桌面对话",必须启动"Interactive Services Detection"服务才能弹出"发现对话型服务对话框"窗口。
默认值中"Interactive Services Detection"服务启动为无效,请按照以下步骤启动该功能。

6.4.23. 关于AWS 环境中的AMI的恢复

AWS 虚拟IP资源和AWS Elastic IP资源和AWS 辅助IP资源的 [ENI ID] 设置了主网卡的 ENI ID 时,从AMI 等恢复时,AWS 虚拟 IP 资源和AWS Elastic IP资源和AWS 辅助IP资源的设定需要变更。
另外,设定了备用网卡的 ENI ID 时,从AMI等恢复时,由于根据分离/连接处理的不同, 同一个 ENI ID 可执行被继续使用,AWS 虚拟 IP 资源和AWS Elastic IP资源和AWS 辅助IP资源的设定不需要变更。

6.5. EXPRESSCLUSTER的配置变更时

开始集群运行后如果对配置进行变更时,需要对发生的事项留意。

6.5.1. 关于组的共通属性的互斥规则

变更互斥规则的互斥属性时,通过对集群挂起,复原就可反映其变更内容。
互斥属性设置为"完全互斥"的互斥规则中,新追加互斥对象的组时,根据挂起前的组的启动状态,完全互斥的组有可执行处于同一服务器上复数个启动的状态。
下一次组启动时会正常执行互斥控制。

6.5.2. 关于资源属性的依存关系

在改变资源依存关系的情况,通过集群的挂起与复原可以将变更反映到集群中。
在资源的依存关系与反应方法为需要资源停止的设定变更的情况,复原后的资源启动状态存在没有考虑到依存关系的情况。
从下一次组启动开始恢复正确的依存关系。

6.5.3. 关于消息接收监视资源的集群统计信息的设定

变更监视资源的集群统计信息设置时,即使执行了挂起·复原,也无法在消息接收监视资源中反映集群统计信息的设置。如果要在消息接收监视资源中反映集群统计信息的设置,请重启OS。

6.5.4. 关于端口号的更改

启用服务器的防火墙,更改端口号时需要更改防火墙的设置。使用clpfwctrl命令可以进行防火墙的设置。详细内容请参考《参考指南》的"EXPRESSCLUSTER命令参考"的"添加防火墙规则(clpfwctrl命令)"。

6.6. EXPRESSCLUSTER版本升级时

作为集群开始操作后,进行EXPRESSCLUSTER 的版本升级时需要注意的事项。

6.6.1. 功能变更一览

各版本中变更的功能如下所示。

内部版本 13.00

  • 关于强制停止功能以及强制停止脚本
    根据环境类型刷新为个别的强制停止资源。
    版本升级前设置的强制停止功能和强制停止脚本将失效,请重新设置为强制停止资源。

6.6.2. 功能删除一览

关于各版本中被删除的功能,显示如下。

重要

从旧版本升级时,需要手动更新处理列中列出的项目的配置信息。
升级的步骤请参考《安装&设置指南》的"安装EXPRESSCLUSTER"的"安装EXPRESSCLUSTER Server"的 "从旧版EXPRESSCLUSTER Server升级",处理列的执行,请按步骤中的时点进行。

内部版本 13.00

功能

处理

WebManager/Builder

COM 网络分区解决资源

  1. 请打开[集群属性]的[NP解决标签页],删除类型显示为[不明]的NP解决资源。

NAS资源
NAS监视资源
  1. 组资源的依赖关系中个别设置NAS资源时,先删除依赖关系的设置。
    关于依赖关系中设置NAS 资源的组资源,请打开[资源的属性]的[依赖关系]标签页,在选择了NAS资源的状态下点击[删除]按钮从依赖的资源中删除。
  2. 请删除NAS资源。
    删除NAS资源时,NAS监视资源也被删除。
打印机Spooler资源
打印机Spooler监视资源
  1. 组资源的依赖关系中个别设置打印机Spool资源时,先删除依赖关系的设置。
    关于依赖关系中设置打印机Spooler资源的组资源,请打开[资源的属性]的[依赖关系]标签页,在选择了打印机Spooler资源的状态下点击[删除]按钮,从依赖的资源中删除。
  2. 请删除打印机Spooler资源。
    删除打印机Spooler资源时,打印机Spooler监视资源也被删除。
虚拟机组
虚拟机资源
虚拟机监视资源

包含虚拟机组的"主机集群用的配置信息"不能迁移。

BMC联动功能

  1. 请删除关联的消息接收监视资源。

兼容命令

    • 脚本资源

    • 自定义监视资源

    • 最终动作前脚本

    • 启动/停止前后脚本

    • 复归脚本

    • 复归操作前脚本

    • 强制停止脚本

    • 其他从EXPRESSCLUSTER设置的脚本

    在这些脚本中使用兼容命令时,请以没有使用兼容命令的形式修改脚本内容。

    使用armload控制服务时,请通过sc命令替换服务的启动停止处理。
    关于服务的监视处理请通过服务监视资源替换。
  1. 如果在armdelay中设置了启动EXPRESSCLUSTER服务的延迟时间,请将其替换为集群属性中超时选项卡 [服务启动延迟时间] 的设置。

CPU频率控制命令
(clpcpufreq命令)

-

资源使用量预测命令
(clpprer命令)

-

机箱ID指示灯控制命令
(clpledctrl命令)

-

集群间的联动处理请求命令
(clptrnreq命令)

-

更改BMC信息命令
(clpbmccnf命令)

-

内核模式LAN心跳资源的广播功能

心跳I/F的发送方法的广播被废止。
如果使用通过以前版本创建的集群配置信息,则通过单播发送心跳。

EXPRESSCLUSTER任务管理器

-

在EXPRESSCLUSTER客户

-

负载均衡器联动功能
(JVM监视资源)

-

使用SCVMM的虚拟机强制停止功能

-

镜像连接监视资源
(集成到镜像磁盘监视资源)

请删除镜像连接监视资源。

6.6.3. 参数删除一览

在通过Cluster WebUI可以设定的参数中,从各版本中删除的参数如下表所示。

内部版本 13.00

集群

参数

默认值

集群属性

私网签页

广播/单播

单播

扩展标签页

  • 虚拟机强制停止设定 虚拟机管理工具

vCenter

  • 虚拟机强制停止设定 命令

C:\Program Files (x86)\VMware\VMware vSphere CLI\Perl\apps\vm\vmcontrol.pl

  • 运行强制停止脚本

Off

服务器属性

信息标签页

  • 虚拟机

Off

  • 种类

vSphere

BMC标签页

  • 强制停止命令

-

  • 机箱ID指示灯 闪烁 / 关灯

-

6.6.4. 默认值更改一览

在通过Cluster WebUI可以设定的参数中,各版本中被更改的默认值如下表所示。

  • 版本升级后,想要继续设定[更改前的默认值]时,在版本升级后请重新设置该值。

  • 在设置了[更改前的默认值]以外的值时,版本升级后会保留之前的设定值。

内部版本 12.00

集群

参数

更改前的默认值

更改后的默认值

备注

集群属性

JVM监视标签页

  • 最大Java堆内存大小

7 [MB]

16 [MB]

扩展标签页

  • 失效切换次数计数单位

集群

服务器

组资源共通

参数

更改前的默认值

更改后的默认值

备注

资源的共通属性

复归操作标签页

  • 失效切换次数

与服务器数目相同

1 [回]

伴随[集群属性] - [扩展标签页] - [失效切换次数计数单位]的默认值变化而变化。

应用程序资源

参数

更改前的默认值

更改后的默认值

备注

应用程序资源的属性

依赖关系标签页

  • 遵循原有的依赖关系

On
- 浮动IP资源
- 虚拟IP资源
- 虚拟主机名资源
- 磁盘资源
- 共享型镜像磁盘资源
- 镜像磁盘资源
- 打印机spool资源
- 注册表同步资源
- CIFS资源
- AWS Elastic IP资源
- AWS虚拟IP资源
- Azure探头端口资源
On
- 浮动IP资源
- 虚拟IP资源
- 虚拟主机名资源
- 磁盘资源
- 共享型镜像磁盘资源
- 镜像磁盘资源
- 打印机spool资源
- 注册表同步资源
- CIFS资源
- AWS Elastic IP资源
- AWS虚拟IP资源
- AWS DNS资源
- Azure探头端口资源
- Azure DNS资源

注册表同步资源

参数

更改前的默认值

更改后的默认值

备注

注册表同步资源的属性

依赖关系标签页

  • 遵循原有的依赖关系

On
- CIFS资源
- 磁盘资源
- 共享型镜像磁盘资源
- 浮动IP资源
- 打印机spool资源
- 镜像磁盘资源
- 虚拟IP资源
- 虚拟主机名资源
- AWS Elastic IP资源
- AWS虚拟IP资源
- Azure探头端口资源
On
- CIFS资源
- 磁盘资源
- 共享型镜像磁盘资源
- 浮动IP资源
- 打印机spool资源
- 镜像磁盘资源
- 虚拟IP资源
- 虚拟主机名资源
- AWS Elastic IP资源
- AWS虚拟IP资源
- AWS DNS资源
- Azure探头端口资源
- Azure DNS资源

脚本资源

参数

更改前的默认值

更改后的默认值

备注

脚本资源的属性

依赖关系标签页

  • 遵循原有的依赖关系

On
- CIFS资源
- 磁盘资源
- 共享型镜像磁盘资源
- 浮动IP资源
- 打印机spool资源
- 镜像磁盘资源
- 注册表同步资源
- 虚拟IP资源
- 虚拟主机名资源
- AWS Elastic IP资源
- AWS虚拟IP资源
- Azure探头端口资源
On
- CIFS资源
- 磁盘资源
- 共享型镜像磁盘资源
- 浮动IP资源
- 打印机spool资源
- 镜像磁盘资源
- 注册表同步资源
- 虚拟IP资源
- 虚拟主机名资源
- AWS Elastic IP资源
- AWS虚拟IP资源
- AWS DNS资源
- Azure探头端口资源
- Azure DNS资源

服务资源

参数

更改前的默认值

更改后的默认值

备注

服务资源的属性

依赖关系标签页

  • 遵循原有的依赖关系

On
- CIFS资源
- 磁盘资源
- 共享型镜像磁盘资源
- 浮动IP资源
- 打印机spool资源
- 镜像磁盘资源
- 注册表同步资源
- 虚拟IP资源
- 虚拟主机名资源
- AWS Elastic IP资源
- AWS虚拟IP资源
- Azure探头端口资源
On
- CIFS资源
- 磁盘资源
- 共享型镜像磁盘资源
- 浮动IP资源
- 打印机spool资源
- 镜像磁盘资源
- 注册表同步资源
- 虚拟IP资源
- 虚拟主机名资源
- AWS Elastic IP资源
- AWS虚拟IP资源
- AWS DNS资源
- Azure探头端口资源
- Azure DNS 资源

监视资源共通

参数

更改前的默认值

更改后的默认值

备注

监视资源共通的属性

复归操作标签页

  • 最大失效切换次数

与服务器数目相同

1 [回]

伴随[集群属性] - [扩展标签页] - [失效切换次数计数单位]的默认值变化而变化。

应用程序监视资源

参数

更改前的默认值

更改后的默认值

备注

应用程序监视资源的属性

监视 (共通) 标签页

  • 开始监视的等待时间

0 [秒]

3 [秒]

  • 超时发生时不重试

Off

On

  • 超时发生时不做回复动作

Off

On

浮动IP监视资源

参数

更改前的默认值

更改后的默认值

备注

浮动IP监视资源的属性

监视 (共通) 标签页

  • 超时

60 [秒]

180 [秒]

  • 超时发生时不重试

Off

On

  • 超时发生时不做回复动作

Off

On

NIC Link Up/Down监视资源

参数

更改前的默认值

更改后的默认值

备注

NIC Link Up/Down 监视资源的属性

监视 (共通) 标签页

  • 超时

60 [秒]

180 [秒]

  • 超时发生时不重试

Off

On

  • 超时发生时不做回复动作

Off

On

注册表同期监视资源

参数

更改前的默认值

更改后的默认值

备注

注册表同期监视资源的属性

监视 (共通) 标签页

  • 超时发生时不重试

Off

On

  • 超时发生时不做回复动作

Off

On

服务监视资源

参数

更改前的默认值

更改后的默认值

备注

服务监视资源的属性

监视 (共通) 标签页

  • 开始监视的等待时间

0 [秒]

3 [秒]

  • 超时发生时不重试

Off

On

  • 超时发生时不做回复动作

Off

On

打印机spool监视资源

参数

更改前的默认值

更改后的默认值

备注

打印机spool监视资源的属性

监视 (共通) 标签页

  • 超时发生时不重试

Off

On

  • 超时发生时不做回复动作

Off

On

虚拟主机名监视资源

参数

更改前的默认值

更改后的默认值

备注

虚拟主机名监视资源的属性

监视 (共通) 标签页

  • 超时

60 [秒]

180 [秒]

  • 超时发生时不重试

Off

On

  • 超时发生时不做回复动作

Off

On

虚拟IP监视资源

参数

更改前的默认值

更改后的默认值

备注

虚拟IP监视资源的属性

监视 (共通) 标签页

  • 超时

60 [秒]

180 [秒]

  • 超时发生时不重试

Off

On

  • 超时发生时不做回复动作

Off

On

用户监视资源

参数

更改前的默认值

更改后的默认值

备注

用户监视资源的属性

监视 (共通) 标签页

  • 开始监视的等待时间

0 [秒]

3 [秒]

进程名监视资源

参数

更改前的默认值

更改后的默认值

备注

进程名监视资源的属性

监视 (共通) 标签页

  • 开始监视的等待时间

0 [秒]

3 [秒]

  • 超时发生时不重试

Off

On

  • 超时发生时不做回复动作

Off

On

SQL Server监视资源

参数

更改前的默认值

更改后的默认值

备注

SQL Server监视资源的属性

监视 (固有) 标签页

  • ODBC驱动名

SQL Native Client

ODBC Driver 13 for SQL Server

Weblogic监视资源

参数

更改前的默认值

更改后的默认值

备注

Weblogic监视资源的属性

监视 (固有) 标签页

  • 安装路径

C:\bea\weblogic92

C:\Oracle\Middleware\Oracle_Home\wlserver

JVM监视资源

参数

更改前的默认值

更改后的默认值

备注

JVM监视资源的属性

监视 (共通) 标签页

  • 超时

120 [秒]

180 [秒]

动态域名解析监视资源

参数

更改前的默认值

更改后的默认值

备注

动态域名解析监视资源的属性

监视 (共通) 标签页

  • 超时

120 [秒]

180 [秒]

  • 超时发生时不重试

Off

On

  • 超时发生时不做回复动作

Off

On

AWS Elastic IP监视资源

参数

更改前的默认值

更改后的默认值

备注

AWS Elastic IP监视资源的属性

监视 (共通) 标签页

  • 超时

100 [秒]

180 [秒]

  • 超时发生时不重试

Off

On

  • 超时发生时不做回复动作

Off

On

AWS虚拟IP监视资源

参数

更改前的默认值

更改后的默认值

备注

AWS虚拟IP监视资源的属性

监视 (共通) 标签页

  • 超时

100 [秒]

180 [秒]

  • 超时发生时不重试

Off

On

  • 超时发生时不做回复动作

Off

On

AWS AZ监视资源

参数

更改前的默认值

更改后的默认值

备注

AWS AZ监视资源的属性

监视 (共通) 标签页

  • 超时

100 [秒]

180 [秒]

  • 超时发生时不重试

Off

On

  • 超时发生时不做回复动作

Off

On

Azure探头端口监视资源

参数

更改前的默认值

更改后的默认值

备注

Azure探头端口监视资源的属性

监视 (共通) 标签页

  • 超时

100 [秒]

180 [秒]

  • 超时发生时不重试

Off

On

  • 超时发生时不做回复动作

Off

On

Azure负载均衡监视资源

参数

更改前的默认值

更改后的默认值

备注

Azure负载均衡监视资源的属性

监视 (共通) 标签页

  • 超时

100 [秒]

180 [秒]

  • 超时发生时不重试

Off

On

  • 超时发生时不做回复动作

Off

On

内部版本 12.10

脚本资源

参数

更改前的默认值

更改后的默认值

备注

脚本资源的属性

详细标签页

脚本资源的调整属性

参数标签页

  • 执行复归处理

On

Off

内部版本12.00 之前的版本不能进行设定变更。12.10 版本后可以进行设定变更。

内部版本 12.20

服务资源

参数

更改前的默认值

更改后的默认值

备注

服务资源的属性

复归动作标签页

  • 启动重试次数

0 [次]

1 [次]

AWS Elastic IP 监视资源

参数

更改前的默认值

更改后的默认值

备注

AWS Elastic IP 监视资源的属性

监视(固有)标签页

  • AWS CLI命令未得到应答时的动作

不运行复归动作(显示警告)

不运行复归动作(不显示警告)

AWS 虚拟 IP 监视资源

参数

更改前的默认值

更改后的默认值

备注

AWS 虚拟 IP 监视资源的属性

监视(固有)标签页

  • AWS CLI命令未得到应答时的动作

不运行复归动作(显示警告)

不运行复归动作(不显示警告)

AWS AZ 监视资源

参数

更改前的默认值

更改后的默认值

备注

AWS AZ 监视资源的属性

监视(固有)标签页

  • AWS CLI命令未得到应答时的动作

不运行复归动作(显示警告)

不运行复归动作(不显示警告)

AWS DNS 监视资源

参数

更改前的默认值

更改后的默认值

备注

AWS DNS 监视资源的属性

监视(固有)标签页

  • AWS CLI命令未得到应答时的动作

不运行复归动作(显示警告)

不运行复归动作(不显示警告)

内部版本 12.30

集群

参数

更改前的默认值

更改后的默认值

备注

集群属性

扩展标签页

  • 最大再启动次数

0 [次]

3 [次]

  • 重置最大再启动次数的时间

0 [分]

60 [分]

内部版本 13.00

应用程序资源

参数

更改前的默认值

更改后的默认值

备注

应用程序资源的属性

依赖关系标签页

  • 遵循原有的依赖关系

On
- 浮动IP资源
- 虚拟IP资源
- 虚拟主机名资源
- 磁盘资源
- 共享型镜像磁盘资源
- 镜像磁盘资源
- 打印机spool资源
- 注册表同步资源
- CIFS资源
- AWS Elastic IP资源
- AWS虚拟IP资源
- AWS DNS资源
- Azure探头端口资源
- Azure DNS资源
On
- 浮动IP资源
- 虚拟IP资源
- 虚拟主机名资源
- 磁盘资源
- 共享型镜像磁盘资源
- 镜像磁盘资源
- 打印机spool资源
- 注册表同步资源
- CIFS资源
- AWS Elastic IP资源
- AWS虚拟IP资源
- AWS辅助IP资源
- AWS DNS资源
- Azure探头端口资源
- Azure DNS资源

注册表同步资源

参数

更改前的默认值

更改后的默认值

备注

注册表同步资源的属性

依赖关系标签页

  • 遵循原有的依赖关系

On
- CIFS资源
- 磁盘资源
- 共享型镜像磁盘资源
- 浮动IP资源
- 打印机spool资源
- 镜像磁盘资源
- 虚拟IP资源
- 虚拟主机名资源
- AWS Elastic IP资源
- AWS虚拟IP资源
- AWS DNS资源
- Azure探头端口资源
- Azure DNS资源
On
- CIFS资源
- 磁盘资源
- 共享型镜像磁盘资源
- 浮动IP资源
- 打印机spool资源
- 镜像磁盘资源
- 虚拟IP资源
- 虚拟主机名资源
- AWS Elastic IP资源
- AWS虚拟IP资源
- AWS辅助IP资源
- AWS DNS资源
- Azure探头端口资源
- Azure DNS资源

脚本资源

参数

更改前的默认值

更改后的默认值

备注

脚本资源的属性

依赖关系标签页

  • 遵循原有的依赖关系

On
- CIFS资源
- 磁盘资源
- 共享型镜像磁盘资源
- 浮动IP资源
- 打印机spool资源
- 镜像磁盘资源
- 注册表同步资源
- 虚拟IP资源
- 虚拟主机名资源
- AWS Elastic IP资源
- AWS虚拟IP资源
- AWS DNS资源
- Azure探头端口资源
- Azure DNS资源
On
- CIFS资源
- 磁盘资源
- 共享型镜像磁盘资源
- 浮动IP资源
- 打印机spool资源
- 镜像磁盘资源
- 注册表同步资源
- 虚拟IP资源
- 虚拟主机名资源
- AWS Elastic IP资源
- AWS虚拟IP资源
- AWS辅助IP资源
- AWS DNS资源
- Azure探头端口资源
- Azure DNS资源

服务资源

参数

更改前的默认值

更改后的默认值

备注

服务资源的属性

依赖关系标签页

  • 遵循原有的依赖关系

On
- CIFS资源
- 磁盘资源
- 共享型镜像磁盘资源
- 浮动IP资源
- 打印机spool资源
- 镜像磁盘资源
- 注册表同步资源
- 虚拟IP资源
- 虚拟主机名资源
- AWS Elastic IP资源
- AWS虚拟IP资源
- AWS DNS资源
- Azure探头端口资源
- Azure DNS 资源
On
- CIFS资源
- 磁盘资源
- 共享型镜像磁盘资源
- 浮动IP资源
- 打印机spool资源
- 镜像磁盘资源
- 注册表同步资源
- 虚拟IP资源
- 虚拟主机名资源
- AWS Elastic IP资源
- AWS虚拟IP资源
- AWS辅助IP资源
- AWS DNS资源
- Azure探头端口资源
- Azure DNS 资源

虚拟计算机名资源

参数

更改前的默认值

更改后的默认值

备注

虚拟计算机名资源的属性

依赖关系标签页

  • 遵循原有的依赖关系

On
- 浮动IP资源
- 虚拟IP资源
- AWS Elastic IP资源
- AWS虚拟IP资源
- Azure探头端口资源
On
- 浮动IP资源
- 虚拟IP资源
- AWS Elastic IP资源
- AWS虚拟IP资源
- AWS辅助IP资源
- Azure探头端口资源

CIFS资源

参数

更改前的默认值

更改后的默认值

备注

CIFS资源的属性

详细标签页

  • 当恢复共享设置出错时视为组资源启动异常

On

Off

动态DNS资源

参数

更改前的默认值

更改后的默认值

备注

动态DNS资源的属性

依赖关系标签页

  • 遵循原有的依赖关系

On
- 浮动IP资源
- 虚拟IP资源
- AWS Elastic IP资源
- AWS虚拟IP资源
- Azure探头端口资源
On
- 浮动IP资源
- 虚拟IP资源
- AWS Elastic IP资源
- AWS虚拟IP资源
- AWS辅助IP资源
- Azure探头端口资源

6.6.5. 参数移动一览

在通过Cluster WebUI可以设定的参数中,各版本设定位置存在变更的参数如下表所示。

内部版本 13.00

更改前的设置位置

更改后的设置位置

[集群属性]-[扩展标签页]-[使用强制停止功能]

[集群属性]-[Fencing标签页]-[强制停止]-[类型]

[集群属性]-[扩展标签页]-[强制停止操作]

[BMC强制停止的属性]-[强制停止标签页]-[强制停止操作]

[集群属性]-[扩展标签页]-[强制停止超时]

[BMC强制停止的属性]-[强制停止标签页]-[强制停止超时]

[集群属性]-[扩展标签页]-[虚拟机强制停止设定]-[操作]

[vCenter强制停止的属性]-[强制停止标签页]-[强制停止操作]

[集群属性]-[扩展标签页]-[虚拟机强制停止设定]-[超时]

[vCenter强制停止的属性]-[强制停止标签页]-[强制停止超时]

[集群属性]-[扩展标签页]-[虚拟机强制停止设定]-[主机名]

[vCenter强制停止的属性]-[vCenter标签页]-[主机名]

[集群属性]-[扩展标签页]-[虚拟机强制停止设定]-[用户名]

[vCenter强制停止的属性]-[vCenter标签页]-[用户名]

[集群属性]-[扩展标签页]-[虚拟机强制停止设定]-[密码]

[vCenter强制停止的属性]-[vCenter标签页]-[密码]

[集群属性]-[扩展标签页]-[虚拟机强制停止设定]-[Perl路径]

[vCenter强制停止的属性]-[vCenter标签页]-[Perl路径]

[服务器属性]-[BMC标签页]-[IP地址]

[BMC强制停止的属性]-[服务器列表标签页]-[BMC输入]-[IP地址]

[服务器属性]-[BMC标签页]-[用户名]

[BMC强制停止的属性]-[服务器列表标签页]-[BMC输入]-[用户名]

[服务器属性]-[BMC标签页]-[密码]

[BMC强制停止的属性]-[服务器列表标签页]-[BMC输入]-[密码]

6.7. 与旧版的兼容性

6.7.1. 与EXPRESSCLUSTER X 1.0/2.0/2.1/3.0/3.1/3.2/3.3/4.0/4.1/4.2/4.3的兼容性

X 1.0/X 2.0/X 2.1/3.0/3.1/3.2/3.3/4.0/4.1/4.2/4.3所创建的集群配置信息在X 5.0 以上中也可以使用。在X 2.0以上中只是组资源,监视资源检测出异常时的失效切换目标服务器的选择方式将变成默认值"稳定运行的服务器",因此在3节点以上配置的情况下,失效切换目标服务器的选择结果可执行会与X 1.0不同。
失效切换目标服务器存在多个时,如果设置了切换到"稳定运行的服务器"时,则如果失效切换目标服务器也发生了异常,可以优先切换到尚未发生异常的服务器。与此不同,在X 1.0中,将会切换到可移动服务器中优先级最高的服务器上,可执行造成切换到了最初发生了异常的服务器上,最终造成无法切换到第3台服务器上。
因此一般情况下推荐设置为"稳定运行的服务器"。如果需要和X 1.0相同的运行,可以在各资源的属性设置标签页中将失效切换目标服务器的设置更改为"优先级最高的服务器"。

6.7.2. 关于脚本文件

需要移动在EXPRESSCLUSTER Ver8.0以下版本所使用的脚本文件时,请将环境变量名从最初的 "ARMS_" 置换为 "CLP_"。

例) IF "%ARMS_EVENT%" == "START" GOTO NORMAL

IF "%CLP_EVENT%" == "START" GOTO NORMAL

7. 词汇表

心跳线
集群服务器之间的通信路径。
(相关) 私网,公网
虚拟IP地址

构筑远程集群时使用的资源(IP地址)。

管理客户端

已启动Cluster WebUI的机器。

启动属性
集群启动时,决定是自动还是手动启动失效切换组的失效切换组的属性。
可在管理客户端进行设置。
共享磁盘

可从多台服务器访问的磁盘。

共享磁盘型集群

使用共享磁盘的集群系统。

切换分区
连接到多台计算机的,可切换使用的磁盘分区。
(相关)磁盘心跳用分区
集群系统

通过LAN等连接多台计算机,并作为1个系统进行操作的系统形态。

集群关机

关闭整个集群系统(配置集群的所有服务器)。

集群分区
镜像磁盘中设定的分区。用于管理镜像磁盘。
相关(磁盘心跳用分区)
运行服务器
对某一业务集合来说,正在运行业务的服务器。
(相关) 待机服务器
服务器组

连接在同一网络或共享磁盘设备上的服务器的集合

从服务器 (服务器)
一般使用时,失效切换组进行失效切换的目标服务器。
(相关) 主服务器
待机服务器
非运行服务器。
(相关) 运行服务器
磁盘心跳用分区

共享磁盘型集群中用于心跳通信的分区。

数据分区
能像共享磁盘的切换分区一样使用的本地磁盘镜像磁盘中设定的数据用的分区。
(相关)集群分区
网络分区症状
指所有的心跳中断。
(相关) 心跳线,心跳
节点

在集群系统中,指配置集群的服务器。在网络用语中,指可以传输,接收和处理信号的,包括计算机和路由器在内的设备。

心跳
指为了监视服务器而在服务器之间定期进行相互间的通信。
(相关) 心跳线,网络分区
公网
服务器 / 客户端之间的通信路径。
(相关) 心跳线,私网
失效切换

指由于查出故障,待机服务器继承运行服务器上的业务应用程序。

故障恢复

将某台服务器上已启动的业务应用程序通过失效切换交接给其他服务器后,再把业务返回到已启动业务应用程序的服务器。

失效切换组

执行业务所需的集群资源,属性的集合。

失效切换移动组

指用户故意将业务应用程序从运行服务器移动到待机服务器。

失效切换策略

可进行失效切换的服务器列表及其列表中具有失效切换优先顺序的属性。

私网
指仅连接配置集群的服务器的LAN。
(相关) 心跳线,公网
主服务器 (服务器)
失效切换组中的作为基准的主服务器。
(相关) 从服务器 (服务器)
浮动IP地址
发生了失效切换时,可忽视客户端的应用程序所连接服务器发生切换而使用的IP地址。
在与集群服务器所属的LAN相同的网络地址中,分配其他未使用的主机地址。
主服务器(Master Server)

Cluster WebUI的[服务器共通属性]-[主服务器]中显示在最前面的服务器。

镜像磁盘连接

数据镜像磁盘型集群中用于进行数据镜像的LAN。可通过和内部主网的通用进行设定。

镜像磁盘系统
不使用共享磁盘的集群系统。
在服务器之间镜像服务器的本地磁盘。