1. 前言¶
1.1. 读者对象和用途¶
《EXPRESSCLUSTER® X 开始指南》以初次使用EXPRESSCLUSTER的用户为对象,就EXPRESSCLUSTER的产品概要,导入集群系统的装入图和其他手册的使用方法等指南进行了说明。此外,就最新的运行环境信息和限制事项等进行说明。
1.2. 本手册的构成¶
3. 关于EXPRESSCLUSTER: 就集群系统的概要进行说明。
4. EXPRESSCLUSTER的运行环境: 就导入前需要确认的最新信息进行说明。
1.3. EXPRESSCLUSTER手册体系¶
EXPRESSCLUSTER的手册分为以下4 类。各指南的标题和用途如下所示。
《EXPRESSCLUSTER X 开始指南》 (Getting Started Guide)
本手册的读者对象为所有用户,对产品概要,运行环境,升级信息以及现有的问题等进行了说明。
《EXPRESSCLUSTER X 安装&设置指南》 (Installation and Configuration Guide)
本手册的读者对象为导入使用EXPRESSCLUSTER构筑集群系统的系统工程师以及导入集群系统后进行维护和操作的系统管理员,对使用EXPRESSCLUSTER导入集群系统后到开始操作前的必备事项进行说明。手册按照实际导入集群系统时的顺序,对使用EXPRESSCLUSTER的集群系统的设计方法,EXPRESSCLUSTER的安装设置步骤,设置后的确认以及开始操作前的测试方法进行了说明。
《EXPRESSCLUSTER X 参考指南》 (Reference Guide)
本手册的读者对象为管理员以及导入使用EXPRESSCLUSTER的集群系统的系统工程师。对EXPRESSCLUSTER的操作步骤,各模块的功能以及疑难解答信息等进行了说明,是对《安装&设置指南》的补充。
《EXPRESSCLUSTER X 维护指南》(Maintenance Guide)
本手册的读者对象为管理员以及导入使用EXPRESSCLUSTER的集群系统后进行维护和操作的系统管理员,对EXPRESSCLUSTER的维护的相关信息进行了说明。
1.4. 本手册的标记规则¶
在本手册中,需要注意的事项,重要的事项以及相关信息等用如下方法标记。
注解
表示虽然比较重要,但是并不会引起数据损失或系统以及机器损伤的信息。
重要
表示为避免数据损失和系统,机器损坏所必需的信息。
参见
表示参考信息的位置。
另外,在本手册中使用以下标记法。
标记 |
使用方法 |
例 |
---|---|---|
[ ] 方括号
|
在命令名的前后,
显示在画面中的字句 (对话框,菜单等) 的前后。
|
点击[启动]
[详细信息]对话框
|
命令行中的[ ] 方括号 |
表示括号内的值可以不予指定(可省)。 |
|
等宽字体 |
路径名,命令行,系统输出(消息,提示等),目录,文件名,函数,参数。 |
|
粗体
|
用户在命令提示符后实际输入的值。
|
输入以下内容。
clpcl -s -a
|
斜体 |
用户将之替换为有效值后输入的项目。
|
|
在本手册的图中,为了表示EXPRESSCLUSTER,使用该图标。
2. 何谓集群系统¶
本章就集群系统的概要进行说明。
本章说明的项目如下所示。
2.1. 集群系统的概要¶
现在的计算机社会中,持续的提供不停止的服务已经成为通往成功的关键。例如仅由于1台机器故障或超负荷而宕机就导致对客户的服务全面停止。这样的话,不但会带来莫大的损失,还会失去客户的信任。
随着集群系统的导入,发生意外事故时会将系统停止时间(宕机时间)降低到最小限度,使负载均衡,提高其可用性。
所谓集群,有"集团","团"的意思,顾名思义是"将多个计算机汇集成一群(或者多群),谋求提升可靠性及处理性能的系统"。集群系统有多个种类,可分为下列3种。其中,EXPRESSCLUSTER属于High Availability集群。
- HA (High Availability) 集群是平时作为运行服务器作业,在运行服务器发生故障时将业务交接到待机服务器的集群。是以高可用性为目的的集群。包括共享磁盘型,镜像磁盘型。
- 负载均衡集群是将客户端的请求遵从恰当的负荷均衡原则分配给各节点的集群。是以高扩展性为目的的集群,一般无法进行数据交接。包括load balance集群,并列数据库集群。
- HPC (High Performance Computing)集群是指计算量非常大的集群。是为使用超级计算机执行单一业务的集群。使用所有节点的CPU来执行单一业务的网格计算技术近年来已成为热点。
2.2. HA (High Availability)集群¶
HA集群可分为共享磁盘型和镜像磁盘型。以下开始逐一进行说明。
2.2.2. 镜像磁盘型¶
上述共享磁盘型适用于大规模系统,但共享磁盘大体价格较高因此构筑系统的成本也会增大。所以,不使用共享磁盘,而通过将各服务器磁盘在服务器间建立镜像,可以以更低的价格实现相同功能,这类集群系统称为镜像磁盘型集群系统。
但是,由于需要在服务器间为数据建立镜像,因此不适用于需要大量数据的大规模系统。
应用程序发出Write请求时,数据镜像引擎会将数据写入本地磁盘的同时,通过心跳线将Write请求分发给待机服务器。所谓心跳线是连接在服务器之间的电缆,在集群系统中用于服务器的死活监视。数据镜像型中除死活监视外还用于数据的传送。待机服务器的数据镜像引擎通过将接收的数据写入待机服务器的本地磁盘中,使运行服务器和待机服务器间的数据实现同步。
对于应用程序发出的Read请求,仅从运行服务器的磁盘中读取。
快照备份就是使用数据镜像的例子。因数据镜像型的集群系统在2个地方持有共享数据,只需将待机服务器从集群分离,即可作为快照备份来保存数据。
HA集群的机制和问题点
下面就集群的实现和问题点进行说明。
2.3. 系统构成¶
共享磁盘型集群将磁盘阵列装置在集群服务器间实现共享。服务器发生故障时待机服务器使用共享磁盘上的数据实现数据的交接。
镜像磁盘型集群是经过网络将集群服务器上的数据磁盘镜像化的构成。服务器故障时使用待机服务器上的镜像数据交接业务。数据的镜像化以I/O为单位进行,因此从上层应用程序看是与共享磁盘相同的。
下图是共享磁盘型集群的构成图例。
根据运行形态可以将失效切换型集群分为下列几类。
单向待机集群
将其中一个服务器作为运行服务器作业,另一方的服务器作为待机服务器不进行作业的运行形态。可以以最简单的运行形态构建失效切换后没有性能下降的高可用性系统。
同一应用程序双向待机集群
在多个服务器上运行相同的业务应用程序并互相待机的运行形态。各业务应用程序独立运行。失效切换时在一台服务器上将运行多个同一业务应用程序,所以必须是可以实现这种运行的应用程序。可以将某个业务数据分割成多个时,按照想要访问的数据变更客户端连接的服务器,可以构筑以数据分割为单位的负载均衡系统。
不同应用程序双向待机集群
是使多种业务应用程序在不同的服务器上运行并互相待机的运行形态。失效切换时在一台服务器上将运行多个业务应用程序,因此必须使这些应用程序可以共存。可以构筑以业务为单位的负荷均衡系统。
Application A和Application B是不同应用程序。
N + N 结构
应用以上的结构,可以扩展到使用更多的节点。下图是在3台服务器上运行3种不同业务,一旦发生问题时向1台待机服务器交接该业务的结构。在单向待机中正常时待机服务器不进行任何业务,因此闲置的资源比率为1/2。如果采用此结构,闲置的资源比率为1/4,可以降低成本。另外,另外如果有1台服务器发生异常,也不会降低性能。
2.4. 查出故障的原理¶
集群软件一查出给持续业务带来问题的故障就会执行业务交接(失效切换)。在进入失效切换处理的具体内容之前,先简单地介绍一下集群软件是怎样查出故障的。
EXPRESSCLUSTER为监视服务器,定期地与伙伴服务器进行生存确认。将此生存确认称为心跳。
心跳和服务器故障的查出
集群系统中应该查出的最基本的故障是配置集群的服务器的宕机。服务器的故障中包含电源异常以及内存错误等硬件故障或者OS的崩溃等。为了查出此类故障,使用心跳来监视服务器的死活。
心跳可以仅通过确认ping的应答这种死活监视方式,根据集群软件不同,也可以传送本地服务器的状态信息等内容。集群软件收发心跳,在心跳无应答时视作该服务器故障并开始失效切换处理。但考虑到由于服务器的高负荷等原因会导致心跳的收发延迟,所以到判定为服务器故障需要一定程度的缓冲时间。因此实际发生故障的时间和集群软件查出故障的时间会存在时间差。
资源故障的查出
业务停止的主要原因不仅仅是由于配置集群的服务器的宕机。例如,由于业务应用程序使用的磁盘装置以及NIC的故障,或者业务应用程序本身的故障等也会导致业务停止。为了提升可用性,也必须查出这样的资源故障,实施失效切换。
作为查出资源异常的手段,所要监视的资源为物理设备时可以采用实际尝试访问的方法。应用程序的监视中,除了应用程序进程本身的死活监视以外,在对业务没有影响的范围内,也可以考虑尝试服务端口。
2.4.2. 网络分区症状 (Split-brain-syndrome)¶
切断所有连接在服务器间的心跳线时,仅根据心跳所进行的死活监视将不能与服务器宕机进行区分。这种状态下会被当作是服务器宕机,实行失效切换处理,在多个服务器上同时mount文件系统,将损坏共享磁盘上的数据。
将这样的问题称为"网络分区症状"或者Split-brain-syndrome。为了解决这个问题,在失效切换集群中所有的心跳线都被切断时,可以考虑运用能确切实现共享磁盘装置互斥控制的各种对策。
2.5. 集群资源的交接¶
集群管理的资源中有磁盘,IP地址,应用程序等内容。下面说明用于交接这些集群资源的失效切换集群系统的功能。
2.5.1. 数据的交接¶
在共享磁盘型集群中,共享磁盘装置上的分区保存服务器之间的交接数据。也就是说,所谓的交接数据,就是在正常的服务器上对应用程序使用的文件所在分区的文件系统重新mount。由于共享磁盘装置与交接目标服务器是物理连接,因此,集群软件应该做就只有文件系统的mount。
看似简单,但是在设计/构筑集群系统时有几点必须要注意。
一个是文件系统以及数据库的恢复时间问题。要交接的文件在故障发生的前一刻被其他的服务器所使用,或者也许正在被更新。因此,有些文件系统,有时需要交接时进行一致性的检查,如果是数据库就需要进行回滚等处理。这种情况与电源故障造成宕机重启单个服务器时是一样的。此类恢复处理需要较长时间时,若就此追加在失效切换时间(业务的交接时间)上,将成为系统可用性低下的主要原因。
还有一个就是写入保证的问题。应用程序向共享磁盘里写入数据时,通常是通过文件系统写入。应用程序即使写入完成,文件系统仍会保留在磁盘缓存上,所以未写入共享磁盘,运行服务器就宕机的情况下,磁盘缓存上的数据将不能交接到待机服务器。因此,发生故障时,需要切实交接到待机服务器的重要数据,必须要通过同步写入等方法,切实地写入到磁盘中。这与单个服务器宕机时数据不因断电而丢失一样。也就是说,在设计集群系统时要考虑到:交接给待机服务器的只有共享磁盘中记录的数据,象磁盘缓存这样的内存上的数据不予交接。
2.5.2. IP地址的交接¶
集群软件进行的下一个任务是IP地址的交接。失效切换时,通过IP地址的交接,所以不用在意业务在哪个服务器上运行。集群软件交接IP地址的目的就在于此。
2.5.3. 应用程序的交接¶
集群软件业务交接的最后任务是交接应用程序。与容错计算机(FTC)不同,在一般的失效切换集群中不交接包含应用程序运行中内存内容的进程状态等。也就是说,通过将故障服务器上运行的应用程序,在正常的服务器中重新执行,来完成应用程序的交接。
例如对DB实例进行失效切换时,并非以发生故障前一刻的状态重启,而是和先宕机再启动一样,进行事务的回滚,并且需要从客户端再次连接。该数据库恢复所需要的时间可以通过DBMS的Check Point Interval的设置在某种程度上进行控制,但是一般都需要几分钟。
多数应用程序仅通过再次执行就可以再续业务,但是也有的应用程序需要在故障发生后进行业务恢复操作。为此,集群软件通过启动脚本替代应用程序以便能够描述业务恢复步骤。脚本中以描述脚本执行的主要原因以及执行服务器等信息为主,根据需要,也描述清除正在更新的文件等恢复步骤。
2.5.4. 失效切换总结¶
从上述内容可以理解以下集群软件的运行。
查出故障(心跳/资源监视)
Fencing (解决网络分区状态(解决NP) 以及 切断发生故障的服务器)
数据的交接
IP地址的交接
应用程序的交接
集群软件为了实现失效切换,就是这样将所有处理一一在短时间内予以实施,来实现高可用性(High Availability)的。
2.6. Single Point of Failure的排除¶
在构筑高可用性系统时把握所要求的或者说目标的可用性水平是很重要的。也就是说对于可执行阻碍系统运行的各种故障,应采用冗余结构,以使运行得以持续并在短时间内能够恢复,讨论或设计系统时就需要从上述策略的性价比方面进行考虑。
所谓Single Point of Failure(SPOF),前面讲过是指和系统停止相关联的部位。集群系统可以实现服务器的多重化,排除系统的SPOF。但是共享磁盘等服务器间共享部分会成为SPOF。设计多重化或者排除该共享部分的系统成为构筑高可用性系统的要点。
集群系统要提升可用性,但是失效切换中也需要几分钟的系统切换时间。因此也可以说失效切换时间是可用性低下的一个主要原因。为此在高可用性系统中,提高单个服务器可用性的ECC存储以及冗余电源等的技术是重要的。但是在此并不涉及单个服务器的可用性提升技术,而是深入研究一下集群系统中容易造成SPOF的下述3项内容,看看能有怎样的对策。
共享磁盘
通往共享磁盘的访问路径
LAN
2.6.3. LAN¶
不仅限于集群系统,在网络上执行某些服务的系统中,LAN的故障也是阻碍系统运行的重要因素。集群系统中,进行适当的设置,可在NIC故障时进行节点间失效切换,提高可用性。但是集群系统外的网络机器发生故障时,仍然会阻碍系统工作。
图中所示的情况,即使服务器上的NIC发生故障,也可以通过失效切换,继续从PC访问服务器上的服务。
该图所示的情况,如果路由器发生故障,则无法继续从PC访问服务器上的服务(路由器为SPOF)。
在这种情况下,通过LAN的冗余化,可以提高系统的可用性。在集群系统中,提高LAN的可用性时,可以同样利用单个服务器下的技术。比如,可以考虑通过不接通预备的网络机器的电源,在发生故障的情况下手动进行切换的原始方法,以及冗余配置高性能的网络机器,多重化网络路径来自动切换路径的方法。另外,可以考虑利用如英特尔公司的ANS之类,支持NIC的冗余配置的驱动程序。
LoadBalance装置 (Load Balance Appliance) 和防火墙服务器(Firewall Appliance)也是容易导致SPOF的网络机器。这些通常使用标准或可选软件,来构建失效切换结构。同时,这些机器一般在系统整体中处于非常重要的位置,所以必须要考虑搭建冗余结构。
2.7. 支持可用性的操作¶
2.7.1. 操作前测试¶
我们常说产生系统故障的主要原因大多为设置的错误以及操作的维护。从这一点考虑,实现高可用性系统时,操作前的测试和恢复故障手册的完备对于系统的稳定运行是很重要的。作为测试观点,结合实际操作,执行下列工作成为提升可用性的要点。
找出故障发生位置,商讨对策,进行模拟故障测试,并实际验证。
进行假设的集群"一系列状态变化"的测试,对降级运行时的性能进行验证。
以这些测试为基础,完善系统操作/恢复故障手册。
设计简单的集群系统,可以简化上述的验证和手册,是提升系统可用性的要点。
2.7.2. 故障的监视¶
虽然我们已经做了上述的努力,可执行还是会发生故障。系统长期持续运行后,必然会发生故障,其原因可执行是硬件老化,软件的内存泄漏,或者操作时超过系统当初设计的承受能力等。因此,在提高硬件,软件可用性的同时,需要进一步监视故障,在发生故障时采取恰当的处理,这一点非常重要。例如,万一服务器发生故障,可以通过搭建集群系统,只需要几分钟的切换时间就可以使系统继续运行,但是如果置之不管,系统失去冗余性,发生下一个故障时集群系统就没有任何意义了。
因此,发生故障时,系统管理员必须要采取措施防范下一故障的发生,排除新发生的SPOF。在支持系统管理业务上,远程维护,故障通知等功能非常重要。
以上介绍了使用集群系统实现高可用性时所需的周边技术以及其他的一些要点。简单总结一下,就是要注意以下几点:
排除或掌握Single Point of Failure
进行不容易出故障的简洁设计,基于操作前的测试,完善系统操作/恢复故障手册
及早查出发生的故障并进行恰当的处理
3. 关于EXPRESSCLUSTER¶
本章介绍EXPRESSCLUSTER各个组件的说明,从集群系统的设计到运行步骤之间的流程。
本章将介绍以下内容。
3.1. 何谓EXPRESSCLUSTER¶
对集群有了一定的理解后,让我们介绍一下EXPRESSCLUSTER。所谓EXPRESSCLUSTER 是用于实现HA集群系统的软件。
3.2. EXPRESSCLUSTER的产品结构¶
EXPRESSCLUSTER可以大致分为2个模块。
- EXPRESSCLUSTER Server是EXPRESSCLUSTER的主体。安装在配置集群系统的各服务器上。在EXPRESSCLUSTER Server 中包含了所有EXPRESSCLUSTER的高可用性功能。另外,也包含Cluster WebUI的服务器端的功能。
- Cluster WebUI是创建EXPRESSCLUSTER配置信息和进行操作管理的管理工具。以Web浏览器作为用户界面。实体嵌入在EXPRESSCLUSTER Server中,但操作是在管理终端的Web浏览器上进行,这点与EXPRESSCLUSTER Server不同。
3.3. EXPRESSCLUSTER的软件配置¶
EXPRESSCLUSTER的软件配置如下图所示。在配置集群的服务器上安装"EXPRESSCLUSTER Server(EXPRESSCLUSTER主体)"。Cluster WebUI的本体功能包含在EXPRESSCLUSTER Server内,因此无需另外安装。Cluster WebUI除了使用管理PC上的Web浏览器,也可以使用配置集群的各服务器上的Web浏览器。
EXPRESSCLUSTER Server (Main module)
Cluster WebUI
3.3.1. EXPRESSCLUSTER 的故障监视原理¶
在EXPRESSCLUSTER 中通过执行服务器监视,业务监视,内部监视3个监视任务,可以迅速确切地查出故障。以下介绍这些监视的详细内容。
3.3.2. 何谓服务器监视¶
- 主网是集群服务器间通信专用的LAN。进行心跳的同时在服务器间交换信息。
- 从网用于与客户端通信用路径。也用于服务器间的信息交换以及心跳线的备份。
- Witness配置失效切换型集群的各服务器与运行Witness 服务器服务的外部服务器(Witness 服务器)间进行通信,通过与保持Witness 服务器的其他服务器间的通信信息确认生存。
3.3.3. 何谓业务监视¶
所谓业务监视是对业务应用程序本身,以及使业务陷入无法执行状态的故障主要原因进行监视的功能。
- 应用程序的生存状态监视能够使用启动资源(称为应用程序资源,服务资源)启动应用程序,通过监视用资源 (称为应用程序监视资源,服务监视资源) 定期监视进程的生存。在由于业务应用程序异常退出造成业务中断时有效。
注解
如果EXPRESSCLUSTER直接启动的应用程序为启动,结束监视对象的常驻进程的应用程序,则无法查出常驻进程的异常。
注解
无法查出应用程序内部状态的异常 (应用程序的停止,结果异常) 。
- 资源的监视通过EXPRESSCLUSTER的监视资源能够监视集群资源(磁盘分区,IP地址等)和公网的状态。在由于必须资源异常造成业务中断时有效。
3.3.4. 何谓内部监视¶
EXPRESSCLUSTER进程的生存状态监视
3.3.5. 可监视的故障和无法监视的故障¶
EXPRESSCLUSTER中有可监视的故障和无法监视的故障。在构建和运用集群系统时,需要先了解哪些故障能够监视,而哪些不能监视。
3.3.6. 通过服务器监视可以查出的故障和无法查出的故障¶
监视条件: 故障服务器的心跳停止
可以监视的故障示例
硬件故障(OS无法继续运行)
STOP错误
无法监视的故障示例
OS局部功能故障(仅鼠标,键盘等出现故障等)
3.3.7. 通过业务监视可以查出的故障和无法查出的故障¶
监视条件: 故障应用程序的消失,持续的资源异常,与某网络设备通信的路径中断
可监视故障示例
应用程序的异常退出
共享磁盘访问故障(HBA的故障等)
公网 NIC的故障
无法监视的故障示例
- 应用程序的停止/结果异常应用程序的停止/结果异常在EXPRESSCLUSTER里无法直接监视 1 ,但是监视应用程序查出异常时,会创建自动结束程序,在应用程序资源下启动该程序,在应用程序监视资源内予以监视,则可执行发生失效切换。
- 1
监视选项中有关操作,数据库应用程序(Oracle,DB2等),协议(FTP,HTTP等) ,应用程序服务器(WebSphere,WebLogic等),可以进行停止/结果异常的监视。
3.4. Fencing 功能¶
EXPRESSCLUSTER 具有“网络分区解决”和“强制停止”作为Fencing机制。
3.4.1. 网络分区解决¶
PING方式
HTTP 方式
共享磁盘方式
PING + 共享磁盘方方式
多数决定方式
不解决网络分区
参见
关于网络分区解决方法设置的详细内容,请参考《参考指南》的"网络分区解决资源的详细信息"。
3.4.2. 强制停止¶
当检测到服务器故障时,正常的服务器可以向发生故障的服务器发出停止请求。通过将有故障的服务器迁移到停止状态,排除了业务应用同时在多台服务器上启动的可能性。强制停止的处理在失效切换开始前执行。
参见
关于设置强制停止的详细内容, 请参考《参考指南》的"强制停止资源的详细信息"。
3.5. 失效切换的原理¶
一旦查出其他服务器的心跳中断,EXPRESSCLUSTER将在开始失效切换前判断是服务器的故障还是网络分区状态。然后,在正常的服务器上启动各种资源,启动业务应用程序来执行失效切换。
这时,同时移动的资源的集合称为失效切换组。失效切换组从使用者的角度看,可认为是虚拟计算机。
注解
在集群系统中,通过在正常的节点上重启应用程序来执行失效切换。因此,应用程序在内存上存放的执行状态无法失效切换。
从发生故障到失效切换结束要花费数分钟。以下是时间表。
心跳超时
执行业务的服务器发生故障后,直至待机服务器查出该故障为止的时间。
考虑到业务负荷等导致的延迟,调整集群属性的设置值。(默认值为30秒。)
Fencing
为了执行网络分区解决和强制停止的时间。
网络分区解决,是为了确认对方服务器的心跳的中断(心跳超时)是由于网络分区状态引起还是实际上对方服务器发生故障引起的所需时间。通常是瞬间完成确认。 强制停止是,对判断发生了故障的对方服务器发出停止请求。所需时间根据集群的运行环境(物理环境、虚拟环境、Cloud等)不同而有所不同。
各种资源的启动
启动业务所需资源所用的时间。
进行文件系统恢复,磁盘内数据交接,IP地址交接等。
按照一般的设置只需几秒即可启动,但启动时间也会根据登录到失效切换组上的资源的种类和数量发生变化。(具体内容请参考《安装&设置指南》。)
应用程序的恢复处理/重启
启动业务所用的应用程序所需时间。也包括数据库的回滚/前滚等数据恢复处理的时间。
回滚/前滚时间等通过Check Point Interval的调整,可在某种程度上预测。具体内容请参考各软件产品的文档。
3.5.2. 用EXPRESSCLUSTER构建的镜像磁盘型集群的硬件配置¶
通过为各服务器的磁盘上的分区建立镜像,可替代共享磁盘装置。与共享磁盘型相比适合规模小,预算少的系统。
注解
使用镜像磁盘,您需要购买Replicator可选软件或Replicator DR可选软件。
使用镜像磁盘时的集群环境示例(在安装OS的磁盘中确保集群分区和数据分区时)
在以下配置中,将安装了OS的磁盘的空闲分区作为集群分区和数据分区使用。
FIP1
10.0.0.11 (从Cluster WebUI客户端访问)
FIP2
10.0.0.12 (从业务客户端访问)
NIC1-1
192.168.0.1
NIC1-2
10.0.0.1
NIC2-1
192.168.0.2
NIC2-2
10.0.0.2
集群分区盘符
E
文件系统
RAW
数据分区盘符
F
文件系统
NTFS
使用镜像磁盘时的集群环境示例(准备了用于集群分区和数据分区的磁盘时)
在以下配置中,已准备并连接了用于集群分区和数据分区的磁盘。
FIP1
10.0.0.11 (从Cluster WebUI客户端访问)
FIP2
10.0.0.12 (从业务客户端访问)
NIC1-1
192.168.0.1
NIC1-2
10.0.0.1
NIC2-1
192.168.0.2
NIC2-2
10.0.0.2
集群分区盘符
E
文件系统
RAW
数据分区盘符
F
文件系统
NTFS
3.5.3. 用EXPRESSCLUSTER构建的共享磁盘型集群的硬件配置¶
该配置通过组合共享磁盘型和镜像磁盘型,镜像化共享磁盘上的分区,从而实现在共享磁盘设备出现故障时也能够不中断业务。该配置也可以利用在远程站点之间,通过与远程站点的镜像化对应灾害的发生。
注解
使用共享型镜像磁盘,您需要购买Replicator DR可选软件。
与镜像磁盘一样,需要复制数据用的网络,一般可以由私网(EXPRESSCLUSTER内部通信使用的NIC)兼用。
用EXPRESSCLUSTER构建的共享磁盘型集群的硬件配置如下图所示。
使用共享型镜像磁盘时的集群环境的示例 (在2台服务器中使用共享磁盘,并镜像第3台服务器的常规磁盘时)
FIP1
10.0.0.11 (从Cluster WebUI客户端访问)
FIP2
10.0.0.12 (从业务客户端访问)
NIC1-1
192.168.0.1
NIC1-2
10.0.0.1
NIC2-1
192.168.0.2
NIC2-2
10.0.0.2
NIC3-1
192.168.0.3
NIC3-2
10.0.0.3
共享磁盘
心跳用分区盘符
E
文件系统
RAW
集群分区盘符
F
文件系统
RAW
数据分区盘符
G
文件系统
NTFS
以上是在同一网络内镜像化共享磁盘时的集群环境示例。如果使用共享型镜像磁盘,则在连接在同一共享磁盘设备的服务器组之间进行镜像化,但在上述示例中,共享磁盘将镜像化到server3的本地磁盘上,因此待机系服务器组svg2的成员服务器只有server3一台。
FIP1 |
10.0.0.11 (从Cluster WebUI客户端访问) |
FIP2 |
10.0.0.12 (从业务客户端访问) |
NIC1-1 |
192.168.0.1 |
NIC1-2 |
10.0.0.1 |
NIC2-1 |
192.168.0.2 |
NIC2-2 |
10.0.0.2 |
NIC3-1 |
192.168.0.3 |
NIC3-2 |
10.0.0.3 |
共享磁盘
心跳用分区盘符
E
文件系统
RAW
集群分区盘符
F
文件系统
RAW
数据分区盘符
G
文件系统
NTFS
上图是与远程站点之间进行镜像化时的集群环境示例。在该例中,因为服务器组之间的Public-LAN网段不同,因此没有使用浮动IP地址,而是使用了虚拟IP地址。使用虚拟IP地址时,需要将中途的路由全部设置为传播主路径。并且推荐将镜像模式设置为非同步,开启数据压缩功能。
3.5.4. 何谓集群对象¶
在EXPRESSCLUSTER中按照以下结构管理各种资源。
- 集群对象集合了一群服务器的集群系统。
- 服务器对象表示实体服务器的对象,属于集群对象。
- 服务器组对象捆绑了服务器的对象,属于集群对象。使用共享磁盘资源时需要使用该对象。
- 心跳资源对象表示实体服务器的NW部分的对象,属于服务器对象。
- 网络分区解决资源对象表示网络分区解决构造的对象,属于服务器对象。
- 组对象表示虚拟的服务器的对象,属于集群对象。
- 组资源对象表示虚拟服务器的资源(NW,磁盘)的对象,属于组对象。
- 监视资源对象表示监视构造的对象,属于集群对象。
3.6. 何谓资源¶
在EXPRESSCLUSTER中,监视方和被监视方均被称作资源,并将监视方和被监视方的资源分类管理。这样,除能更明确的区分监视/被监视对象,在构建集群和查出故障时还可更容易应对。资源分为心跳资源,网络分区解决资源,组资源和监视资源4类。以下说明其概要。
参见
关于各资源的具体内容,请参考《参考指南》。
3.6.1. 心跳资源¶
是在服务器间用来确认彼此存活的资源。
以下是当前支持的心跳资源。
- LAN心跳资源表示使用Ethernet的通信。
- Witness 心跳资源表示从Witness 服务器服务运行的外部服务器中取得的与各服务器间的通信状态。
3.6.2. 网络分区解决资源¶
以下是解决网络分区状态的资源。
- DISK网络分区解决资源DISK方式的网络分区解决资源。仅共享磁盘结构时可用。
- PING网络分区解决资源PING方式的网络分区解决资源。
- HTTP 网络分区解决资源HTTP 方式的网络分区解决资源。
- 多数决定网络分区解决资源多数决定方式的网络分区解决资源。
3.6.3. 组资源¶
进行失效切换时的单位,即配置失效切换组的资源。
以下是当前支持的组资源。
- 应用程序资源 (appli)启动/停止应用程序(包括用户创建的应用程序)。
- 浮动IP资源 (fip)提供虚拟的IP地址。从客户端访问时与普通IP地址相同。
- 镜像磁盘资源 (md)提供本地磁盘上的特定分区的镜像建立和访问控制功能。仅镜像磁盘结构时可用。
- 注册表同步资源 (regsync)在多个服务器上对特定的注册表进行同步,以实现在配置集群的服务器间令应用程序和服务按照同样的设置来运行。
- 脚本资源 (script)启动/停止用户创建脚本等脚本(BAT)。
- 磁盘资源 (sd)提供对共享磁盘上的特定分区的访问控制功能。仅当连接了共享磁盘装置时可用。
- 服务资源 (service)启动/停止数据库和Web等服务。
- 虚拟计算机名资源 (vcom)提供虚拟的计算机名。从客户端访问时与普通计算机名相同。
- 动态DNS资源 (ddns)在动态DNS服务器中登录虚拟主机名和运行服务器的IP地址。
- 虚拟IP资源 (vip)提供虚拟的IP地址。从客户端访问时与普通IP地址相同。在网络地址不同的网段间配置远程集群时使用。
- CIFS资源 (cifs)提供共享磁盘/镜像磁盘上的文件夹共享功能。
- 共享磁盘资源 (hd)是组合了磁盘资源和镜像磁盘资源的一种资源,提供对共享磁盘或本地磁盘上特定分区进行镜像或访问控制的功能。
- AWS Elastic IP资源 (awseip)在AWS上利用EXPRESSCLUSTER时,提供可授予EIP的机能。
- AWS虚拟IP资源 (awsvip)在AWS上利用EXPRESSCLUSTER时,提供可授予VIP的机能。
- AWS辅助IP资源 (awssip)在AWS上利用EXPRESSCLUSTER时,提供可授予辅助IP的机能。
- AWS DNS资源 (awsdns)在AWS上利用EXPRESSCLUSTER时,在Amazon Route 53上登录虚拟主机名和启动服务器的IP地址。
- Azure 探头端口资源 (azurepp)Microsoft Azure 上利用EXPRESSCLUSTER时,提供可在运行业务的节点开放特定的端口的机能。
- Azure DNS资源 (azuredns)在Microsoft Azure上利用EXPRESSCLUSTER时,在Azure DNS上登录虚拟主机名和启动服务器的IP地址。
- Google Cloud 虚拟 IP 资源 (gcvip)在Google Cloud Platform上使用ExpressCluster时,提供了一种在业务运行的节点上打开特定端口的机制。
- Google Cloud DNS 资源 (gcdns)Google Cloud Platform上利用EXPRESSCLUSTER时,在Cloud DNS上登录虚拟主机名和启动服务器的IP地址。
- Oracle Cloud 虚拟 IP 资源 (ocvip)在Oracle Cloud Infrastructure上使用ExpressCluster时,提供了一种在业务运行的节点上打开特定端口的机制。
注解
3.6.4. 监视资源¶
集群系统内进行监视的主体资源。
以下是当前支持的监视资源。
- 应用程序监视资源 (appliw)提供应用程序资源启动的进程的死活监视功能。
- 磁盘RW监视资源 (diskw)提供对文件系统的监视。此外,当文件系统I/O停止 (Stall) 时,提供通过有意的STOP错误或者HW重置实施失效切换的功能。也可用于对共享磁盘的文件系统的监视。
- 浮动IP监视资源 (fipw)提供对浮动IP资源启动的IP地址的监视。
- IP监视资源 (ipw)提供对网络通堵的监视。
- 镜像磁盘监视资源 (mdw)提供对镜像磁盘的监视。
- NIC Link Up/Down监视资源 (miiw)提供对LAN线缆的链接状态的监视。
- 多目标监视资源 (mtw)提供将多个监视资源集中在一起的状态。
- 注册表同步监视资源 (regsyncw)提供对注册表同步资源进行的同步处理的监视。
- 磁盘TUR监视资源 (sdw)对通过SCSI的[TestUnitReady]命令向共享磁盘访问路径发出的动作进行监视。也可用于FibreChannel的共享磁盘。
- 服务监视资源 (servicew)提供服务的死活监视功能。
- 虚拟计算机名监视资源 (vcomw)提供对虚拟计算机名资源启动的虚拟计算机的监视。
- 动态DNS监视资源 (ddnsw)定期在动态DNS服务器中登录虚拟主机名和运行服务器的IP地址。
- 虚拟IP监视资源 (vipw)提供对虚拟IP资源启动的IP地址的监视。
- CIFS监视资源 (cifsw)提供对CIFS资源公布的共享文件夹的监视。
- 共享型镜像磁盘监视资源 (hdw)提供对共享型镜像磁盘的监视。
- 共享型镜像磁盘TUR监视资源 (hdtw)通过SCSI的[TestUnitReady]命令,提供对用作共享型镜像磁盘的共享磁盘设备访问路径运行的监视。也可以用于FibreChannel的共享磁盘。
- 自定义监视资源 (genw)有进行监视处理的命令或脚本时,提供通过其动作结果进行监视系统的功能。
- 进程名监视资源 (psw)通过指定进程名,提供任意的进程死活监视功能。
- DB2监视资源 (db2w)提供对IBM DB2数据库的监视。
- ODBC监视资源 (odbcw)提供对ODBC可访问的数据库的监视。
- Oracle监视资源 (oraclew)提供对Oracle数据库的监视。
- PostgreSQL监视资源 (psqlw)提供对PostgreSQL数据库的监视。
- SQL Server监视资源 (sqlserverw)提供对SQL Server数据库的监视。
- FTP监视资源 (ftpw)提供对FTP服务器的监视。
- HTTP监视资源 (httpw)提供对HTTP服务器的监视。
- IMAP4监视资源 (imap4w)提供对IMAP服务器的监视。
- POP3监视资源 (pop3w)提供对POP服务器的监视。
- SMTP监视资源 (smtpw)提供对SMTP服务器的监视。
- Tuxedo监视资源 (tuxw)提供对Tuxedo应用程序服务器的监视。
- WebSphere监视资源 (wasw)提供对WebSphere应用程序服务器的监视。
- WebLogic监视资源 (wlsw)提供对WebLogic应用程序服务器的监视。
- WebOTX监视资源 (otxw)提供对WebOTX应用程序服务器的监视。
- 消息接收监视资源(mrw)用于实现"设置接收异常发生通知时执行的异常时动作"及"异常发生通知的Cluster WebUI显示"的监视资源。
- JVM 监视资源 (jraw)提供Java VM的监视机构。
- 系统监视资源 (sraw)提供系统整体资源的监视机构。
- 进程资源监视资源(psrw)提供用于监视特定于进程的资源的机制。
- 用户空间监视资源 (userw)提供用户空间的停止监视功能。此外,当用户空间停止时,提供通过有意的STOP错误或者HW重置实施失效切换的功能。
- AWS Elastic IP监视资源 (awseipw)提供在AWS Elastic IP资源授予的Elastic IP(以下称为EIP)的监视机能。
- AWS虚拟IP监视资源 (awsvipw)提供在AWS虚拟IP资源授予的虚拟IP(以下称为VIP)的监视机能。
- AWS辅助IP监视资源 (awssipw)提供在AWS辅助IP资源授予的辅助IP的监视机能。
- AWS AZ监视资源 (awsazw)提供Availability Zone(以下称为AZ)的监视机能。
- AWS DNS监视资源 (awsdnsw)提供在AWS DNS资源授予的虚拟主机名和IP地址的监视机能。
- Azure 探头端口监视资源 (azureppw)可针对Azure 探头端口资源所启动的节点,提供为了进行死活监视的端口的监视机能。
- Azure负载均衡器监视资源 (azurelbw)可针对Azure 探头端口资源所启动的节点,提供与Probe端口相同的端口号是否开放的监视机能。
- Azure DNS监视资源 (azurednsw)提供在Azure DNS资源授予的虚拟主机名和IP地址的监视机能。
- Google Cloud 虚拟 IP 监视资源 (gcvipw)对启动了Google Cloud虚拟IP资源的节点,提供用于进行死活监视的端口的监控机制。
- Google Cloud 负载均衡监视资源 (gclbw)对没有启动Google Cloud虚拟IP资源的节点,提供确认是否开放了与用于存活侦测的端口相同的端口号的监控机制。
- Google Cloud DNS监视资源 (gcdnsw)提供在Google Cloud DNS资源授予的虚拟主机名和IP地址的监视机构。
- Oracle Cloud 虚拟 IP 监视资源 (ocvipw)对启动了Oracle Cloud虚拟IP资源的节点,提供用于进行死活监视的端口的监控机制。
- Oracle Cloud 负载均衡监视资源 (oclbw)对没有启动Oracle Cloud虚拟IP资源的节点,提供确认是否开放了与用于存活侦测的端口相同的端口号的监控机制。
注解
4. EXPRESSCLUSTER的运行环境¶
在本章中对EXPRESSCLUSTER的运行环境进行说明。
本章中说明的项目如下。
4.2. EXPRESSCLUSTER Server的运行环境¶
4.2.1. 对应OS¶
EXPRESSCLUSTER Server对应的OS如下。
x86_64版
OS |
备注 |
---|---|
Windows Server 2016 Standard |
|
Windows Server 2016 Datacenter |
|
Windows Server 2019 Standard |
|
Windows Server 2019 Datacenter |
|
Windows Server 2022 Standard |
|
Windows Server 2022 Datacenter |
4.2.2. 所需内存容量和磁盘容量¶
所需内存容量
(用户模式)
|
256MB( 2 ) |
---|---|
所需内存容量
(Kernel模式)
|
32MB + 4MB( 3 )×(镜像磁盘资源数+共享型镜像磁盘资源) |
所需磁盘容量
(安装后)
|
100MB |
所需磁盘容量
(操作时)
|
5.0GB + 9.0GB ( 4 ) |
非同步方式地更改或者队列大小变化时,并且差分Bitmap大小变化时,都需要添加配置时指定大小的内存。此外,由于使用内存与镜像磁盘的I/O相对应,随着磁盘负荷的增加,使用的内存大小也会增加。
关于DISK网络分区解决资源所使用的分区所需的大小,请参考"关于共享磁盘"。
关于集群分区所需的大小请参考"关于镜像磁盘用的分区","关于共享型镜像磁盘用的分区"。
4.2.3. 监视可选软件已经确认完毕的应用程序信息¶
监视可选软件已经将下列应用程序作为监视对象进行了运行确认。
x86_64版
监视资源
|
监视对象
应用程序
|
EXPRESSCLUSTER
Version
|
备注
|
---|---|---|---|
Oracle监视 |
Oracle Databse 19c (19.3) |
13.00~ |
|
DB2监视 |
DB2 V11.5 |
13.00~ |
|
PostgreSQL监视 |
PostgreSQL 14.1 |
13.00~ |
|
PowerGres on Windows V13 |
13.00~ |
||
SQL Server监视 |
SQL Server 2019 |
13.00~ |
|
Tuxedo监视 |
Tuxedo 12c Release 2 (12.1.3) |
12.00~ |
|
WebLogic监视 |
WebLogic Server 11g R1 |
12.00~ |
|
WebLogic Server 11g R2 |
12.00~ |
||
WebLogic Server 12c R2 (12.2.1) |
12.00~ |
||
WebLogic Server 14c (14.1.1) |
12.20~ |
||
WebSphere监视 |
WebSphere Application Server 8.5 |
12.00~ |
|
WebSphere Application Server 8.5.5 |
12.00~ |
||
WebSphere Application Server 9.0 |
12.00~ |
||
WebOTX监视 |
WebOTX Application Server V9.1 |
12.00~ |
|
WebOTX Application Server V9.2 |
12.00~ |
||
WebOTX Application Server V9.3 |
12.00~ |
||
WebOTX Application Server V9.4 |
12.00~ |
||
WebOTX Application Server V9.5 |
12.00~ |
||
WebOTX Application Server V10.1 |
12.00~ |
||
WebOTX Application Server V10.3 |
12.30~ |
||
JVM监视 |
WebLogic Server 11g R1 |
12.00~ |
|
WebLogic Server 11g R2 |
12.00~ |
||
WebLogic Server 12c R2 (12.2.1) |
12.00~ |
||
WebLogic Server 14c (14.1.1) |
12.20~ |
||
WebOTX Application Server V9.1 |
12.00~ |
||
WebOTX Application Server V9.2 |
12.00~ |
||
WebOTX Application Server V9.3 |
12.00~ |
||
WebOTX Application Server V9.4 |
12.00~ |
||
WebOTX Application Server V9.5 |
12.00~ |
||
WebOTX Application Server V10.1 |
12.00~ |
||
WebOTX Application Server V10.3 |
12.30~ |
||
WebOTX Enterprise Service Bus V8.4 |
12.00~ |
||
WebOTX Enterprise Service Bus V8.5 |
12.00~ |
||
WebOTX Enterprise Service Bus V10.3 |
12.30~ |
||
Apache Tomcat 8.0 |
12.00~ |
||
Apache Tomcat 8.5 |
12.00~ |
||
Apache Tomcat 9.0 |
12.00~ |
||
WebSAM SVF for PDF 9.1 |
12.00~ |
||
WebSAM SVF for PDF 9.2 |
12.00~ |
||
WebSAM Report Director Enterprise 9.1 |
12.00~ |
||
WebSAM Report Director Enterprise 9.2 |
12.00~ |
||
WebSAM Universal Connect/X 9.1 |
12.00~ |
||
WebSAM Universal Connect/X 9.2 |
12.00~ |
||
系统监视 |
无指定版本 |
12.00~ |
|
进程资源监视 |
无指定版本 |
12.10~ |
注解
x86_64环境中利用监视选项时,监视对象的应用程序也请利用x86_64版的应用程序。
4.2.5. JVM监视器的运行环境¶
使用JVM监视器时,需要可Java 的执行环境。
4.2.6. 系统监视,进程资源监视以及系统资源信息收集功能的运行环境¶
注解
在Windows Server 2012之后的OS中,已安装了.NET Framework 4.5以上的版本(安装的.NET Framework版本取决于OS。)
4.2.7. AWS Elastic IP资源,AWS虚拟IP资源,AWS Elastic IP监视资源,AWS 虚拟IP监视资源,AWS AZ监视资源的运行环境¶
想使用AWS Elastic IP资源,AWS虚拟IP资源,AWS Elastic IP监视资源,AWS虚拟IP监视资源,AWS AZ监视资源时,需要以下的软件。
软件 |
版本 |
备注 |
---|---|---|
AWS CLI |
1.6.0~
2.0.0~
|
|
Python
|
2.7.5~
3.6.7~
3.8.2~
|
AWS CLI 附带的 Python 不可以 |
4.2.9. AWS DNS资源,AWS DNS监视资源的运行环境¶
想使用AWS DNS资源,AWS DNS监视资源时,需要以下的软件。
软件 |
版本 |
备注 |
---|---|---|
AWS CLI |
1.11.0~ |
|
Python
|
2.7.5~
3.6.7~
3.8.2~
|
AWS CLI 附带的 Python 不可以 |
4.2.11. Azure探头端口资源,Azure探头端口监视资源,Azure负载均衡监视资源的运行环境¶
执行了Azure探头端口资源,Azure探头端口监视资源,Azure负载均衡监视资源的动作确认的Microsoft Azure上的部署模型如下所示。
负载均衡的设定方法请参考《EXPRESSCLUSTER X Mircosoft Azure的HA Cluster构筑指南 (Windows版)》。
部署模型
|
EXPRESSCLUSTER
版本
|
备注
|
---|---|---|
资源管理器 |
12.00~ |
需要追加负载均衡器 |
4.2.12. Azure DNS 资源,Azure DNS 监视资源的运行环境¶
使用Azure DNS资源,Azure DNS监视资源时,需要以下的软件。
软件 |
版本 |
备注 |
---|---|---|
Azure CLI |
2.0~ |
执行了Azure DNS资源,Azure DNS监视资源的运行确认的 Microsoft Azure上的部署模型如下所示。
Azure DNS 的设定方法请参考《EXPRESSCLUSTER X Mircosoft Azure的HA Cluster构筑指南 (Windows版)》。
部署模型
|
EXPRESSCLUSTER
版本
|
备注
|
---|---|---|
资源管理器 |
12.00~ |
需要追加Azure DNS |
4.2.13. Google Cloud 虚拟 IP 资源,Google Cloud 虚拟 IP 监视资源,Google Cloud 负载均衡监视资源的运行环境¶
已确认Google Cloud 虚拟 IP 资源,Google Cloud 虚拟 IP 监视资源,Google Cloud 负载均衡监视资源的运行环境的 Google Cloud Platform 上的 OS 的版本信息如下所示。
部署模型
|
EXPRESSCLUSTER
版本
|
备注
|
---|---|---|
Windows Server 2016 |
12.20~ |
|
Windows Server 2019 |
12.20~ |
4.2.14. Google Cloud DNS 资源,Google Cloud DNS 监视资源的运行环境¶
想使用Google Cloud DNS资源,Google Cloud DNS监视资源时,需要以下的软件。
软件
版本
备注
Google Cloud SDK
295.0.0~
4.2.15. Oracle Cloud 虚拟 IP 资源,Oracle Cloud 虚拟 IP 监视资源,Oracle Cloud 负载均衡监视资源的运行环境¶
已确认Oracle Cloud 虚拟 IP 资源,Oracle Cloud 虚拟 IP 监视资源,Oracle Cloud 负载均衡监视资源的运行环境的 Oracle Cloud Infrastructure 上的 OS 的版本信息如下所示。
部署模型
|
EXPRESSCLUSTER
版本
|
备注
|
---|---|---|
Windows Server 2016 |
12.20~ |
4.3. Cluster WebUI的运行环境¶
对为了运行Cluster WebUI而所需环境进行说明。
4.3.1. 运行确认完毕的OS,浏览器¶
现在的支持情况如下。
浏览器 |
语言 |
---|---|
Internet Explorer 11 |
日语/英语/中文 |
Internet Explorer 10 |
日语/英语/中文 |
Firefox |
日语/英语/中文 |
Google Chrome |
日语/英语/中文 |
Microsoft Edge (Chromium) |
日语/英语/中文 |
注解
通过IP地址连接时,需要事先将该IP地址登录到 [本地Intranet] 的 [站点] 中。
注解
用 Internet Explorer11连接Cluster WebUI时,Internet Explorer可执行会停止。为了避免发生,请更新Internet Explorer(KB4052978或更高版本)。此外,为了在Windows 8.1/Windows Server 2012R2中应用KB4052978以上的版本,请提前应用KB2919355。相关信息请参考Microsoft部署的信息。
注解
不支持平板电脑和智能手机等移动设备。
4.3.2. 所需内存容量/磁盘容量¶
所需内存容量 500MB以上
所需磁盘容量 200MB以上
5. 最新版本信息¶
在本章中对EXPRESSCLUSTER的最新信息进行说明。为您介绍新发布版本中强化和改善的内容。
5.1. EXPRESSCLUSTER和手册的对应一览表¶
本手册以以下版本的EXPRESSCLUSTER为前提进行说明。请注意EXPRESSCLUSTER的版本和手册版数的对应关系。
EXPRESSCLUSTER
内部版本
|
手册
|
版数
|
备注
|
---|---|---|---|
13.01 |
开始指南 |
第2版 |
|
安装&设置指南 |
第1版 |
||
参考指南 |
第2版 |
||
维护指南 |
第2版 |
5.2. 功能强化¶
对于各个版本,分别进行了以下的功能强化。
No. |
内部版本 |
功能强化项目 |
---|---|---|
1 |
13.00 |
支持Windows Server 2022。 |
2 |
13.00 |
随着主版本升级,部分功能被移除。 详细信息请参考功能删除列表。 |
3 |
13.00 |
添加了当服务器宕机时为整个集群集体抑制自动失效切换的功能。 |
4 |
13.00 |
当由于检测到组资源的启动·停止异常时以及监视资源异常时的最终动作而重新启动服务器的次数被重置时,将会通过警报日志通知。 |
5 |
13.00 |
在动态失效切换以外的自动失效切换中,可以从失效切换目标中排除在指定的监视资源中检测出异常的服务器。 |
6 |
13.00 |
添加了用于添加防火墙规则的clpfwctrl 命令。 |
7 |
13.00 |
添加了 AWS 辅助 IP 资源和 AWS 辅助 IP 监视资源。 |
8 |
13.00 |
使用 BMC 的强制停止功能已更新为 BMC 强制停止资源。 |
9 |
13.00 |
虚拟机强制停止功能已更新为 vCenter 强制停止资源。 |
10 |
13.00 |
AWS环境的强制停止功能已添加到强制停止资源中。 |
11 |
13.00 |
OCI环境的强制停止功能已添加到强制停止资源中。 |
12 |
13.00 |
强制停止脚本已被更新为自定义强制停止资源。 |
13 |
13.00 |
添加了一项功能,将伴随 OS 关闭的所有操作(例如检测到监视异常时的恢复操作等)更改为 OS 重新启动。 |
14 |
13.00 |
改进了有关组之间开始和停止等待处理的警报消息。 |
15 |
13.00 |
资源启动属性的设置值可以在clpstat的设置信息的显示选项中显示。 |
16 |
13.00 |
即使在本地服务器为集群停止状态,也可以使用clpcl/clpstdn命令指定-h选项。 |
17 |
13.00 |
使用非真实 IP 地址连接到 Cluster WebUI 并切换到设置模式时,会输出警告消息。 |
18 |
13.00 |
即使在Cluster WebUI的设置模式下无法获取要排除的分区信息,也可以反映和导出配置信息。 |
19 |
13.00 |
可以在Cluster WebUI的设置模式中在已注册组资源的状态下删除组。 |
20 |
13.00 |
更改了 Cluster WebUI 中发生通信超时时的错误消息的内容。 |
21 |
13.00 |
更改了 Cluster WebUI 的镜像磁盘页面上执行完整复制等失败时的错误消息的内容。 |
22 |
13.00 |
添加了可以复制Cluster WebUI 的设置模式下注册的组、组资源、监视资源的功能。 |
23 |
13.00 |
添加了在Cluster WebUI 的设置模式下,将注册的组资源移动到其他组的功能。 |
24 |
13.00 |
可以在Cluster WebUI的设置模式下从[组的属性]的组资源列表中更改设置。 |
25 |
13.00 |
可以在Cluster WebUI的设置模式下从[监视通用属性]的监视资源列表中更改设置。 |
26 |
13.00 |
Cluster WebUI的设置模式中显示组资源停止时的依赖关系。 |
27 |
13.00 |
添加了在Cluster WebUI 的设置模式中显示组资源启动时以及停止时的依赖关系图的功能。 |
28 |
13.00 |
添加了在Cluster WebUI 的状态画面中按照组资源/监视资源的类型和资源名缩小范围检索的功能。 |
29 |
13.00 |
将 CIFS 资源的[恢复共享设置时的失败视为启动异常]的默认值从打开更改为关闭。 |
30 |
13.00 |
WebManager 服务使用HTTPS 作为通信方式时,可以使用中间证书作为证书文件。 |
31 |
13.00 |
添加了clpcfconv.sh命令,将集群配置信息文件从旧版本转换为当前版本。 |
32 |
13.00 |
添加了OS启动时延迟启动集群服务的功能。 |
33 |
13.00 |
Cluster WebUI的集群配置信息检查的错误结果中,可以显示处理方法等详细内容。 |
34 |
13.00 |
可以在指定 clpcfset 命令的create选项时指定OS类型。 |
35 |
13.00 |
添加了在 clpcfset 命令中添加 del 选项,从集群配置信息中删除资源和参数的功能。 |
36 |
13.00 |
添加了增强clpcfset命令界面的clpcfadm.py命令。 |
37 |
13.00 |
更改了 AWS DNS 资源的启动完成时间,是在确认记录集已经传播到AWS Route53后再启动。 |
38 |
13.00 |
AWS DNS监视资源的监视开始等待时间的默认值更改为300秒。 |
39 |
13.00 |
clpstat命令可以二重启动。 |
40 |
13.00 |
添加了Node Manager服务。 |
41 |
13.00 |
添加了心跳统计信息功能。 |
42 |
13.00 |
HTTP NP解决资源中,即使在不使用Witness心跳资源时,也可以使用Proxy服务器。 |
43 |
13.00 |
HTTP监视资源支持Digest认证。 |
44 |
13.00 |
可以在FTP监视资源中监视使用FTPS的FTP服务器。 |
45 |
13.00 |
可以多次注册登录系统监视资源。 |
46 |
13.00 |
可以多次注册登录进程资源监视资源。 |
47 |
13.00 |
添加了在进程资源监视资源中只把特定进程作为监视对象的功能。 |
48 |
13.00 |
可以使用单个服务监视资源监视任意服务。 |
49 |
13.00 |
调整了 clpmdctrl 命令和 clpmdstat 命令的选项系统,以匹配 clphdctrl 命令和 clphdstat 命令。 |
5.3. 修改信息¶
各版本做了以下修改。
No.
|
修改版本
/ 发生版本
|
修改项目
|
重要性
|
发生条件
发生频率
|
---|---|---|---|---|
1 |
13.00
/ 9.00~12.32
|
组资源单体启动成功时,同组内的其他组资源会执行复旧操作。 |
小 |
在存在启动异常状态的组资源的状态下,同组内的其他组资源单体启动时会发生。 |
2 |
13.00
/ 12.10~12.32
|
Cluster WebUI 的设置模式下修改组资源的"注释"时,修改内容会没有被更新。 |
小 |
在修改组资源的"注释"并按下[适用]按钮后,如将"注释"返回到修改前的状态并点击[OK]按钮时会有修改内容没有被更新的情况。 |
3 |
13.00
/ 12.10~12.32
|
Cluster WebUI 的设置模式下修改监视资源的"注释"时,修改内容会没有被更新。 |
小 |
在修改监视资源的"注释"并按下[适用]按钮后,如将"注释"返回到修改前的状态并点击[OK]按钮时会有修改内容没有被更新的情况。 |
4 |
13.00
/ 12.10~12.32
|
在停止完毕的服务器上连接 Cluster WebUI 时,宕机后重启状态的服务器的[服务器复归]按钮被禁用了。 |
小 |
当存在停止完毕的服务器上连接 Cluster WebUI 宕机后重启状态下的服务器时会发生。 |
5 |
13.00
/ 12.10~12.32
|
在 Cluster WebUI 的设置模式下,WebLogic监视的监视(固有)画面上的"安装路径"项目不是必须输入项目。 |
小 |
经常发生。 |
6 |
13.00
/ 12.00~12.32
|
在 Cluster WebUI 的状态画面上执行集群操作时,如果发生通信超时,则会再次发出相同的请求。 |
中 |
如果Cluster WebUI和集群服务器之间发生通信超时,则一定会发生该情况。 |
7 |
13.00
/ 12.10~12.32
|
Cluster WebUI 的设置模式下设置依赖关系时,Cluster WebUI 可能会暂时失去响应。 |
小 |
2个组资源互相依赖时发生。 |
8 |
13.00
/ 12.20~12.32
|
Clpstat命令的应答可能会延迟。 |
小 |
和其他服务器的通信切断时会发生。 |
9 |
13.00
/ 11.10~12.32
|
在监视资源延迟警告的警报日志中,response time 可能会输出 0。 |
小 |
监视资源延迟警告的警报日志被输出时会发生。 |
10 |
13.00
/ 12.20~12.32
|
可能会发生clpwebmc的AP错误。 |
小 |
Cluster WebUI的设置模式下反映已删除服务器的集群配置信息时偶尔会发生。 |
11 |
13.00
/ 12.00~12.32
|
监视资源可能会错误地检测到监视超时。 |
中 |
在执行监视资源的监视处理时,小几率发生。 |
12 |
13.00
/ 12.20~12.32
|
HTTP方式的NP解决资源中,当目标响应为状态编码301时会异常。 |
小 |
响应为状态编码301时才会发生。 |
13 |
13.00
/ 12.00~12.32
|
将进程资源监视资源的[内存使用量的监视]的[持续时间(分)]的表示法修改为[最大更新次数(次)]。 |
小 |
通过Cluster WebUI或者clpstat命令显示属性时会发生。 |
14 |
13.00
/ 12.00~12.32
|
在HTTP监视资源中,如果对发出HEAD请求的响应的状态编码在400或500范围内,并且如果为监视URI指定了默认值以外的URI,则发出警告而不是异常。 |
小 |
对发出HEAD请求的响应的状态编码在400或500范围内,并且为监视URI指定了默认值以外的URI时会发生。 |
15 |
13.00
/ 12.10~12.32
|
当要监视的脚本的进程在自定义监视资源中消失时,警报消息中不会输出目标监视资源名称。 |
小 |
要监视的脚本的进程在自定义监视资源中消失时会发生。 |
16 |
13.00
/ 11.01~12.32
|
响应镜像相关命令可能需要很长时间。 |
小 |
当镜像磁盘连接断开或配置集群的服务器一部分关闭时会发生。 |
17 |
13.00
/ 12.20~12.32
|
EXPRESSCLUSTER Information Base服务可能会异常终止。 |
小 |
当执行以下任一操作时,极小概率会发生发生。
- 集群启动
- 集群停止
- 集群挂起
- 集群恢复
|
18 |
13.01
/ 9.00~12.32,13.00
|
由于 CVE-2021-20700-20707 的漏洞,可能会发生以下情况。
・可执行任意代码
・可上传任何文件
・可读取任何文件
|
大 |
当 EXPRESSCLUSTER 中的特定进程接收到由恶意第三方制作的违反 EXPRESSCLUSTER 内部协议的数据包时发生。 |
19 |
13.01
/ 13.00
|
clprexec 命令的 --script 选项无效。 |
小 |
指定 --script 选项,执行 clprexec 命令时发生。 |
20 |
13.01
/ 13.00
|
使用 clpcfset 命令添加强制停止资源时,集群启动失败。 |
小 |
使用clpcfset命令,启动添加了强制停止资源的集群配置信息的集群时发生。 |
6. 注意限制事项¶
在本章中对注意事项,现有问题及其避免方法进行说明。
本章中说明的项目如下。
6.1. 研究系统配置时¶
对HW的准备,系统配置以及共享磁盘配置时需要留意的事项进行说明。
6.1.1. 关于镜像磁盘/共享型镜像磁盘的需求¶
不能使用动态磁盘。请使用基本磁盘。
用于镜像磁盘/共享型镜像磁盘的分区(数据分区和集群分区)不能mount到NTFS文件夹下使用。
使用镜像磁盘资源/共享型镜像磁盘资源需要镜像用的分区(数据分区和集群分区)。
镜像用的分区的磁盘上的配置没有特别限制,数据分区的大小按字节单位必须完全一致。此外,集群分区需要1024MiB以上的容量。
数据分区作为扩展分区上的逻辑分区建立时,请确认两个服务器上都建立逻辑分区。即使主分区与逻辑分区指定了相同的容量大小,实际大小也有可执行会不同。
为负载均衡建议将集群分区和数据分区分别设在不同的磁盘上(虽然创建在同一块磁盘上也能够运行,但非同步镜像和镜像中断状态下的写入性能会有些许下降)。
在磁盘上要确保用镜像资源建立镜像的数据分区,则两台服务器的磁盘类型必须相同。
例)
组合
服务器1
服务器2
OK
SCSI
SCSI
OK
IDE
IDE
NG
IDE
SCSI
用"Disk Management"等确保的分区大小,按照磁盘柱面周围的块(单元)数来分配。因此,如果服务器间用作镜像磁盘的磁盘的几何数据不同,可执行无法使数据分区的大小完全一致。为了避免此类问题发生,对于确保数据分区的磁盘,建议两台服务器上的HW配置,包括RAID结构等在内,应该一致。
两台服务器的磁盘类型和几何数据不匹配时,在设定镜像磁盘资源/共享型镜像磁盘资源前,请通过[clpvolsz]命令确认两台服务器数据分区的正确大小,如果大小不一致,请再次使用[clpvolsz]命令缩小较大的分区。
为RAID结构的磁盘建立镜像时,对磁盘阵列控制器的缓存以Write-Thru方式使用则写入性能大大下降,建议您使用Write Back方式。但使用Write Back方式时,要使用搭载了电池的磁盘阵列控制器或者同时使用UPS。
有OS的页文件的分区不能建立镜像。
6.1.2. 有关IPv6环境¶
在IPv6环境下,不能使用以下功能。
AWS Elastic IP 资源
AWS 虚拟 IP资源
AWS 辅助 IP资源
AWS DNS资源
Azure 探头端口资源
Azure DNS资源
Google Cloud 虚拟 IP 资源
Google Cloud DNS 资源
Oracle Cloud 虚拟 IP 资源
AWS Elastic IP监视资源
AWS 虚拟 IP监视资源
AWS 辅助 IP监视资源
AWS AZ监视资源
AWS DNS监视资源
Azure 探头端口监视资源
Azure 负载均衡器监视资源
Azure DNS 监视资源
Google Cloud 虚拟 IP 监视资源
Google Cloud DNS 监视资源
Google Cloud 负载均衡监视资源
Oracle Cloud 虚拟 IP 监视资源
Oracle Cloud 负载均衡监视资源
以下功能不能使用链路本地地址。
内核模式LAN心跳资源
镜像磁盘连接
PING网络分区解决资源
FIP资源
VIP资源
6.1.3. 关于网络设置¶
在NAT环境等自身服务器的IP地址和对方服务器的IP地址在不同服务器上形成不同的配置时,不能构筑/运用集群。
Server 1中的集群设置
自身服务器: 10.0.0.1
对方服务器: 10.0.0.2
Server 2中的集群设置
自身服务器: 192.168.0.1
对方服务器: 10.0.0.1
6.1.5. 关于镜像磁盘/共享型镜像磁盘的write性能¶
镜像磁盘资源/共享型镜像磁盘资源的磁盘镜像建立有同步镜像和非同步镜像2种方式。
同步镜像时,每当向镜像化对象的数据分区发出写入请求,都会向两台服务器的磁盘执行写入,并等待其结束。虽然向各服务器的写入是同时执行的,但向其它服务器的磁盘写入是通过网络进行的,所以与不进行镜像化的普通本地磁盘相比写入性能会降低。特别是网络通信速度慢,延迟时间长的远程集群结构,性能会大幅下降。
非同步镜像时,向自身服务器写出是立即执行的,而向其它服务器的写出会先保存到本地队列中,在后台写出。因为不需要等待向其他服务器的写出结束,即使网络性能较差时写出性能也不会有大幅下降。但是即使是非同步镜像时,也会在每次发出写入请求时将更新数据保存在队列中,与不建立镜像的普通本地磁盘和共享磁盘相比,写入性能会有降低。因此,向磁盘的写入处理需要较高吞吐量的系统(更新服务器较多的数据库系统等) ,推荐使用共享磁盘。
此外,非同步镜像时,虽然保证写入顺序,但运行服务器如宕机,可执行会丢失最新的更新内容。因此,如想在故障发生前一刻保证此刻信息切实被交接,需要使用同步镜像或者共享磁盘。
6.1.6. 关于非同步镜像的历史文件¶
在非同步模式的镜像磁盘/共享型镜像磁盘中,内存上的队列里记录不下的写入数据,会临时作为历史文件记录到被指定为历史文件夹的目录下。没有设置该历史文件的大小限制时,可以不受限制地写出到所指定的文件夹内。因此在这种设置的情况下,如果线路速度比业务应用程序的磁盘更新量低很多,则向远程服务器的写入处理赶不上磁盘更新的速度,磁盘里就会充斥历史文件。因此,远程集群结构也需要根据业务AP的磁盘更新量保证通信线路的速度。
此外,为了避免长时间通信延迟,连续发生磁盘更新导致历史文件保存文件夹溢出,需要为写出历史文件的磁盘确保充足的空余容量,或者设置历史文件的大小限制,又或者指定系统驱动器之外的其它驱动器。
6.1.7. 关于多个非同步镜像间的数据一致性¶
在非同步模式的镜像磁盘/共享型镜像磁盘中,将写入运行服务器的数据分区的内容也按照同样顺序写入待机服务器的数据分区中。
除了镜像磁盘的初始构建过程中和镜像化中断后的恢复(复制)过程中以外,都可以保证该写入顺序,因此可以保证待机服务器的数据分区上的文件间的数据一致性。
但多个镜像磁盘资源/共享型镜像磁盘资源间由于无法保证写入顺序,比如数据库的数据库文件和Journal(日志)文件,如果一方的文件比另一方陈旧,则数据一致性无法确保的文件被分散到多个非同步镜像磁盘上后,可执行会由于服务器宕机等引起失效切换时业务应用程序的非正常运行。
因此,这类文件必须放置在同一非同步镜像磁盘/共享型镜像磁盘上。
6.1.8. 关于Multiboot¶
如果从其它启动磁盘启动,镜像和共享磁盘的访问限制将被撤销,镜像磁盘的一致性和共享磁盘的数据保护将无法保证,使用这类资源时请不要使用Multiboot。
6.1.9. 关于JVM监视资源¶
可同时进行监视的Java VM最多是25个。可同时监视的Java VM指,通过Cluster WebUI ([监视(固有)]标签->[识别名])可进行唯一识别的Java VM的数量。
Java VM和JVM监视资源之间的回收不支持SSL。
有时可执行不能检测出线程死锁。这是已经确认的来自JavaVM的缺陷。详细内容请参考Oracle的Bug Database的"Bug ID: 6380127 "。(2011年4月现在)。
JVM监视资源可监视的Java VM需与JVM监视资源工作时的服务器在同一服务器内。
通过Cluster WebUI (集群属性->[JVM监视]标签页->[Java安装路径])进行设定的Java安装路径在集群内的服务器内属于共通设定。关于JVM监视中使用的Java VM的版本以及升级版本,请在集群内服务器上使用同一版本。
通过Cluster WebUI (集群属性->[JVM监视]标签页->[连接设定]对话框->[管理端口号])进行设定的管理端口号在集群内的服务器内属于共通设定。
x86_64版OS上运行IA32版的监视对象的应用程序时,不能进行监视。
通过Cluster WebUI (集群属性->[JVM监视]标签页->[最大Java堆大小])进行设定的最大Java堆大小时,如果将其设定为3000等大数值,启动JVM 监视资源就会失败。由于依赖于系统环境,因此请将系统的内存搭载量设定为原来值。
- 在监视对象Java VM的启动选项中附加「-XX:+UseG1GC」时,Java 7以前版本不能监视JVM监视资源的[属性]-[监视(固有)]标签页-[调整]属性-[内存]标签页内的设置项目。Java 8以上版本可以通过在JVM监视资源的[属性]-[监视(固有)] 标签页-[JVM类型]中选择[Oracle Java(usage monitoring)],可以进行监视。
6.1.10. 关于网络警告灯的要求¶
使用"DN-1000S","DN-1500GL"时,请勿设置警告灯密码。
- 因回放音频文件而出现警告时,需要在先在音频文件回放对应的网络警告灯上重新登录音频文件。有关音频文件登录,请参考各网络警告灯的使用说明书。
在网络警告灯里请设置允许来自集群内的服务器的rsh命令执行。
6.2. 安装EXPRESSCLUSTER前¶
OS安装完成后,在对OS和磁盘进行设置时所须注意的事项。
6.2.1. 关于文件系统¶
安装OS的分区,作为共享磁盘的磁盘资源使用的分区以及镜像磁盘/共享型镜像磁盘资源的数据分区的文件系统请使用NTFS。
6.2.2. 通信端口号¶
EXPRESSCLUSTER中缺省使用以下端口号。该端口号可在Cluster WebUI 上更改。请不要从EXPRESSCLUSTER以外的程序访问这些端口号。
请不要从ExpressCluster以外的程序访问以下端口号。
为服务器设置防火墙时,请使下列端口号可以访问。
安装EXPRESSCLUSTER后可以通过clpfwctrl命令设置防火墙。详细内容请参考《参考指南》的"EXPRESSCLUSTER命令参考"的"添加防火墙规则(clpfwctrl命令)"。 另外,通过clpfwctrl命令设置的端口为下表的clpfwctrl栏中带有 ✓ 的端口和"ICMPv4"、"ICMPv6"的协议。
在Cloud环境的情况下,不仅可以在实例侧的防火墙设置中访问以下端口号,还可以在Cloud基盘侧的安全设置中访问以下端口号。
[服务器・服务器之间]
From
To
备注
clpfwctrl
服务器
自动分配 5
服务器
29001/TCP
内部通信
✓
服务器
自动分配
服务器
29002/TCP
数据传送
✓
服务器
自动分配
服务器
29003/UDP
警告同步
✓
服务器
自动分配
服务器
29004/TCP
磁盘Agent间通信
✓
服务器
自动分配
服务器
29005/TCP
镜像驱动程序间通信
✓
服务器
自动分配
服务器
29008/TCP
集群信息管理
✓
服务器
自动分配
服务器
29010/TCP
Restful API 内部通信
✓
服务器
29106/UDP
服务器
29106/UDP
心跳
✓
服务器
icmp
服务器
icmp
FIP/VIP资源的重复确认
- 5
自动分配在某一时刻未被使用的端口号。
[服务器・客户端之间]
From
To
备注
clpfwctrl
Restful API 客户端
自动分配
服务器
29009/TCP
http通信
✓
[服务器・Cluster WebUI之间]
From
To
备注
clpfwctrl
Cluster WebUI
自动分配
服务器
29003/TCP
http通信
✓
[其他]
From
To
备注
clpfwctrl
服务器
自动分配
网络警告灯
514/TCP
控制网络警告灯
服务器
自动分配
服务器的BMC的管理LAN
623/UDP
控制BMC(强行停止)
服务器
自动分配
Witness 服务器
使用Cluster WebUI设定的通信端口号
Witness 心跳资源的连接目标主机
服务器
自动分配
监视目标
icmp
IP监视资源
服务器
自动分配
监视目标
icmp
Ping方式网络分区解决资源的监视目标
服务器
自动分配
监视目标
使用Cluster WebUI 设定的通信端口号
HTTP 方式网络分区解决资源的监视目标
服务器
自动分配
服务器
使用Cluster WebUI设定的管理端口号
JVM监视资源
✓
服务器
自动分配
监视目标
使用Cluster WebUI设定的连接端口号
JVM监视资源
服务器
自动分配
服务器
Cluster WebUI 中设置的探头端口
Azure 探头端口资源
✓
服务器
自动分配
AWS区域终端节点
443/tcp
AWS Elastic IP资源AWS 虚拟 IP资源AWS 辅助 IP资源AWS DNS资源AWS Elastic IP监视资源AWS 虚拟 IP监视资源AWS 辅助 IP监视资源AWS AZ监视资源AWS DNS监视资源AWS 强制停止资源服务器
自动分配
Azure终端节点
443/tcp
Azure DNS资源
服务器
自动分配
Azure的权威DNS服务器
53/udp
Azure DNS监视资源
服务器
自动分配
服务器
Cluster WebUI 中设置的端口号
Google Cloud 虚拟 IP 资源
✓
服务器
自动分配
服务器
Cluster WebUI 中设置的端口号
Oracle Cloud 虚拟 IP 资源
✓
AWS环境时,防火墙的设置以外,也请变更安全组的设定。
JVM监视中使用以下2种端口号。
管理端口号是为了JVM监视资源内部使用的端口号。通过Cluster WebUI的[集群属性]-[JVM监视]标签页-[连接设置] 对话框来设置。有关详细信息,请参照《参考指南》的"参数的详细信息"。
连接端口号是为了与监视目标(WebLogic Server,WebOTX)的Java VM相连接的端口号。通过Cluster WebUI的该JVM监视资源名的[属性]-[监视(固有)]标签页来设置。有关详细信息,请参考《参考指南》的"监视资源的详细信息"。
Azure探头端口资源的[探头端口],Google Cloud虚拟IP资源的[端口号],Oracle Cloud虚拟IP资源的[端口号],是负载均衡器在对各个服务器进行死活监视时用的端口号。
以下的AWS相关资源执行AWS CLI。AWS CLI使用上述端口号。
AWS Elastic IP 资源
AWS 虚拟 IP资源
AWS 辅助 IP资源
AWS DNS资源
AWS Elastic IP监视资源
AWS 虚拟 IP监视资源
AWS 辅助 IP监视资源
AWS AZ监视资源
AWS DNS监视资源
AWS 强制停止资源
Azure DNS资源是执行Azure CLI。Azure CLI是使用上述端口。
6.2.3. 更改通信端口号的自动分配的范围¶
OS所管理的通信端口号的自动分配范围有可执行与EXPRESSCLUSTER所使用的通信端口号重复。
通过以下方法等确认,OS管理的通信端口号的自动分配范围与EXPRESSCLUSTER所使用的通信端口号重复时,为了使通信端口号不重复,请更改EXPRESSCLUSTER所使用的通信端口号或者OS管理的通信端口号的自动分配范围。
通过Windows提供的netsh命令来显示或设定自动分配的范围。
OS所管理的通信端口号的自动分配范围的确认方法
netsh interface ipv6 set global dhcpmediasense=disabled
以下为执行示例。
>netsh interface ipv4 show dynamicportrange tcp 协议tcp的动态端口范围 --------------------------------- 开始端口 : 49152 端口数 : 16384
以上表示ipv4,TCP协议的通信端口号的自动分配范围是49152~68835(分配了从端口号49152开始的16384个端口)。如果EXPRESSCLUSTER使用的通信端口号在此范围内,请更改EXPRESSCLUSTER使用的端口号或者执行下述[OS管理的通信端口号的自动分配范围的设定方法]。
OS管理的通信端口号的自动分配范围的设定方法
netsh interface <ipv4|ipv6> set dynamicportrange <tcp|udp> [startport=]<开始端口号> [numberofports=]<自动分配范围>
以下为执行示例。
>netsh interface ipv4 set dynamicportrange tcp startport=10000 numberofports=1000
以上表示ipv4,TCP协议的通信端口号的自动分配范围是10000~10999(分配了从端口号10000开始的1000个端口)。
6.2.4. 关于避免端口数不足的设置¶
6.2.5. 时钟同步的设置¶
集群系统中,推荐将多个服务器的时钟定期同步操作。请使用时间服务器等使服务器的时钟同步。
6.2.7. 关于镜像磁盘用的分区¶
请在各服务器的本地磁盘上创建1024MiB以上的RAW分区作为管理镜像磁盘资源的分区(集群分区)。
在各服务器的本地磁盘上创建镜像化对象的分区(数据分区),并以NTFS格式化(为已有的分区建立镜像时,无须重新创建分区)。
在两台服务器上设置的数据分区的大小应相等。请使用[clpvolsz]命令确认调整正确的分区大小。
两台服务器上设置的集群分区和数据分区的盘符应该一致。
6.2.8. 关于共享型镜像磁盘用的分区¶
作为共享型镜像磁盘资源的管理用分区(集群分区),请为每个服务器组的共享磁盘(如果服务器组的成员服务器只有1台,则为本地磁盘)创建1024MiB以上的RAW分区。
请在各个服务器组的共享磁盘(如果服务器组的成员服务器只有1台,则为本地磁盘)创建镜像化对象分区(数据分区)并用NTFS方式进行格式化(如果镜像化已有的分区,则无需重新创建分区)。
在两服务器组上设置的数据分区的大小应相等。请使用[clpvolsz]命令确认调整正确的分区大小。
请在各个服务器上为集群分区和数据分区设置相同的盘符。
6.2.9. 关于数据分区上的文件夹和文件的访问许可¶
工作组环境中对数据分区上的文件夹和文件进行访问许可设置时,需要在访问该数据分区的所有节点上,对该用户设置访问许可。例如,对server1, server2 的test用户进行访问许可设置时,需要在server1和server2中对test用户进行访问许可设置。
6.2.10. OS启动时间的调整¶
请将从接通电源到OS启动为止的时间设为比以下的两个时间都长6。
使用共享磁盘时,从接通磁盘的电源到可以使用时的时间
心跳超时时间
- 6
具体的步骤,请参照《安装&设置指南》的"确定系统配置" -"配置硬件后的设置"-"3. 调整OS启动时间(必须)"。
6.2.11. 网络的确认¶
确认通过心跳线或镜像连接使用的网络。在集群内所有的服务器上确认。
请使用[ipconfig]命令或[ping]命令确认网络的状态。
公网 (与其它机器通信的网络)
私网专用LAN(EXPRESSCLUSTER的服务器之间连接的网络)
镜像连接LAN(与私网共用)
主机名
集群上使用的浮动IP资源的IP地址不用设置到OS端。
EXPRESSCLUSTER 的设置中(心跳和镜像连接等)指定了IPv6时,如果发生了网卡LinkDown,则该网卡绑定的IP地址会处于不可见状态,直接影响EXPRESSCLUSTER的运行。请执行下面的命令,解除对媒体连接的限制
netsh interface ipv6 set global dhcpmediasense=disabled
6.2.12. 关于与ESMPRO/AutomaticRunningController结合使用¶
要求与ESMPRO/AutomaticRunningController(以下简称ESMPRO/AC)结合使用的时候,EXPRESSCLUSTER的构筑/设置有以下的注意事项。如果不满足这些注意事项,与ESMPRO/AC结合使用的功能将有可执行不能正常工作。
作为网络分区解决资源,只有DISK方式的资源不能单独指定。指定DISK方式的时候,必须与PING方式等其它的网络分区解决方式资源一起组合指定。
建立磁盘TUR监视资源时,最终动作的设定值为默认(不进行任何操作),请不要对该项进行更改。
建立磁盘RW监视资源时,[文件名]的设定值指定为共享磁盘上的路径时,[监视时间]的设定值为默认(启动时),请不要对该项进行更改。
断电后再启动时,在EXPRESSCLUSTER管理器上可执行会提示以下的警告信息。根据以上的设定,在实际工作中并不会发生故障,所以可以忽略。
- ID:18模块名:nm信息:资源<DiskNP资源名>启动失败。(服务器名:xx)
- ID:1509模块名:rm信息:监视<磁盘TUR资源名>查出异常。(4 : 开启设备失败。请确认监视卷的磁盘状态。)
关于ESMPRO/AC的设定方法,注意事项等,请参考《EXPRESSCLUSTER X for Windows PP指南》的"ESMPRO/AC"章节的内容。
6.2.13. 关于ipmiutil¶
在以下功能中,使用了已经作为BSD许可证的开源代码被公开的IPMI Management Utilities (ipmiutil)控制各服务器的BMC固件。因此使用这些功能时,请在各集群服务器上安装ipmiutil。
物理机的强行停止功能
使用上述功能时,为了保证管理底板管理控制器(BMC)的LAN板卡所使用的IP地址和OS所使用的IP地址之间的通信,请设置各服务器的BMC。服务器上没有安装BMC或者管理BMC所使用的网络处于关闭状态时无法使用该功能。BMC的设置方法请参考各服务器的手册。
EXPRESSCLUSTER没有附带ipmiutil。ipmiutil的获取和安装方法请参考《安装&设置指南》- "确定系统配置"- "配置硬件后的设置" - "9. 设置BMC和ipmiutil(使用物理机的强行停止功能和机箱ID指示灯联动时必须)"。
ipmiutil相关的以下事项本公司恕不对应。请根据用户自己的判断和责任使用。
ipmiutil自身相关的咨询
ipmiutil的运行保证
ipmiutil的问题对应,因其问题造成的故障
各服务器的ipmiutil的支持情况咨询
请用户提前确认您计划使用的服务器(硬件)是否支持ipmiutil。请注意,即使硬件本身是基于IPMI标准,实际上也可执行无法运行ipmiutil。
6.2.14. 关于在Server Core的安装¶
6.2.15. 关于邮件通知¶
不支持STARTTLS和SSL的邮件通知功能。
6.2.16. 关于系统磁盘连接的HBA的访问限制¶
6.2.17. AWS环境中的时刻同步¶
6.2.18. 关于AWS环境中IAM的设置¶
说明关于AWS环境中IAM (Identity & Access Management)的设置。
EXPRESSCLUSTER的一部分功能,由于这些处理,会在内部运行AWS CLI。为了能正常执行AWS CLI,需要事先对IAM进行设置。
作为可访问AWS CLI的方法,有使用IAM角色的方针和使用IAM用户的方针2种。基本上由于在各实例上不需要保存AWS access key id和AWS secret access key,安全性提高,推荐使用前者的IAM角色的方针。
IAM的设置步骤如下所示。
首先请创建IAM policy。请参考后面的"IAM policy的创建"。
- 接下来进行实例设置。使用IAM角色时,请参考后面的“实例的设置-使用IAM角色”。使用IAM用户时,请参考后面的“实例的设置-使用IAM用户”。
IAM policy的创建
创建policy,该policy记载了针对AWS的EC2和S3等的服务的动作的访问许可。EXPRESSCLUSTER的AWS关联资源以及监视资源执行AWS CLI所允许的必要的动作如下所示。
必要的policy有可执行将来被变更。
AWS虚拟IP资源/AWS虚拟IP监视资源
动作
说明
ec2:DescribeNetworkInterfacesec2:DescribeVpcsec2:DescribeRouteTables取得VPC,路由表,网络接口的信息时必需。
ec2:ReplaceRoute
更新路由表时必需。
AWS Elastic IP资源/AWS Elastic IP监视资源
动作
说明
ec2:DescribeNetworkInterfacesec2:DescribeAddresses取得EIP,网络接口的信息时必需。
ec2:AssociateAddress
将EIP分配到ENI时必需。
ec2:DisassociateAddress
将EIP从ENI分离时必需。
AWS辅助IP资源/AWS辅助IP监视资源
动作
说明
ec2:DescribeNetworkInterfacesec2:DescribeSubnets取得网络接口和子网的信息时必需。
ec2:AssignPrivateIpAddresses
分配辅助IP地址时必需。
ec2:UnassignPrivateIpAddresses
取消分配辅助IP地址时必需。
AWS AZ监视资源
动作
说明
ec2:DescribeAvailabilityZones
取得可用区的信息时必需。
AWS DNS资源 / AWS DNS监视资源
动作
说明
route53:ChangeResourceRecordSets
追加,删除资源记录集,更新设置内容时必需。
route53:GetChange
添加资源记录集、更新设置内容时必需。
route53:ListResourceRecordSets
取得资源记录集信息时必需。
AWS 强制停止资源
Action
Description
ec2:DescribeInstances
取得实例的信息时必需。
ec2:StopInstances
停止实例时必需。
ec2:RebootInstances
重启实例时必需。
向Amazon CloudWatch发送监视资源的监视处理时间的功能
动作
说明
cloudwatch:PutMetricData
发送自定义指标时所需。
向 Amazon SNS发送警报服务消息的功能
动作
说明
sns:Publish
发送消息时所需。
以下的自定义policy的例子是许可全部AWS关联资源以及监视资源所使用的动作。
{ "Version": "2012-10-17", "Statement": [ { "Action": [ "ec2:Describe*", "ec2:ReplaceRoute", "ec2:AssociateAddress", "ec2:DisassociateAddress", "ec2:AssignPrivateIpAddresses", "ec2:UnassignPrivateIpAddresses", "ec2:StopInstances", "ec2:RebootInstances", "route53:ChangeResourceRecordSets", "route53:GetChange", "route53:ListResourceRecordSets" ], "Effect": "Allow", "Resource": "*" } ] }通过IAM Management Console的[Policies] - [Create Policy]可创建自定义policy。
实例的设置-使用IAM角色
通过创建IAM角色并赋给实例从而使AWS CLI可执行的方法。
创建IAM角色。在创建的角色上连接IAM policy。通过IAM Management Console的[Roles] - [Create New Role]可创建IAM角色。创建实例时,指定「IAM Role」上创建的IAM角色。
登录实例。
安装Python。安装EXPRESSCLUSTER必需的Python。首先确认是否已安装Python。未安装时,从以下地址下载Python进行安装。安装后,在控制面板中添加指向python.exe的路径到环境变量PATH中。由于Python命令由SYSTEM用户执行,因此请确保将系统环境变量PATH设置为Python命令的路径。安装AWS CLI。
下载AWS CLI 后进行安装。安装程序自动添加到系统环境变量PATH中。没有添加时,请参考AWS的文档"AWS Command Line Interface"。安装Python或AWS CLI时如果已经安装EXPRESSCLUSTER,请重启OS再执行EXPRESSCLUSTER的操作。通过Administrator用户启动命令提示,执行以下的命令。
> aws configure针对提问输入执行AWS CLI所必需的信息。请注意不要输入AWS Access ID,AWS Secret Access Key。
AWS Access Key ID [None]: (只按Enter键) AWS Secret Access Key [None]: (只按Enter键) Default region name [None]: <默认的区域名> Default output format [None]: text"Default output format"可以指定为"text"之外的格式。
内容设置错误时,请将
%SystemDrive%\Users\Administrator\.aws
目录删除后再重新执行上述操作。
实例的设置-使用IAM用户
创建IAM用户,通过将Access ID,Secret Access Key保存在实例内部使AWS CLI执行可执行的方法。实例创建时不需要IAM角色的授予。
创建IAM用户。在创建的用户上连接IAM policy。通过IAM Management Console的[Users] - [Create New Users] 可创建IAM用户。登录实例。
安装Python。安装EXPRESSCLUSTER必需的Python。首先确认是否已安装Python。未安装时,从以下地址下载Python进行安装。安装后,在控制面板中添加指向python.exe的路径到环境变量PATH中。由于Python命令由SYSTEM用户执行,因此请确保将系统环境变量PATH设置为Python命令的路径。安装AWS CLI。
下载AWS CLI 后进行安装。安装程序自动添加到系统环境变量PATH中。没有添加时,请参考AWS的文档"AWS Command Line Interface"。安装Python或AWS CLI时如果已经安装EXPRESSCLUSTER,请重启OS再执行EXPRESSCLUSTER的操作。通过Administrator用户启动命令提示,执行以下的命令。
> aws configure针对提问输入执行AWS CLI所必需的信息。AWS Access ID,AWS Secret Access Key处输入从已创建的IAM用户的详细信息画面取得的内容。
AWS Access Key ID [None]: <AWS Access Key > AWS Secret Access Key [None]: <AWS Secret Access Key> Default region name [None]: <默认的区域名> Default output format [None]: text"Default output format"可以指定为"text"之外的格式。
内容设置错误时,请将
%SystemDrive%\Users\Administrator\.aws
目录删除后再重新执行上述操作。
6.2.19. 关于Azure DNS资源¶
安装Azure CLI,服务主体创建的步骤请参考《EXPRESSCLUTER X Microsoft Azure HA 集群构筑指南 (Windows 版)》。
- 为了利用Azure DNS资源,需要安装Azure CLI和Python。Python是在安装Azure CLI 2.0的同时被安装的。关于Azure CLI的具体内容,请参考以下Web站点。Microsoft Azure的文档:
- 为了利用Azure DNS资源,需要Azure DNS的服务。关于Azure DNS的具体内容,请参考以下Web站点。Azure DNS:
- EXPRESSCLUTER为了和Microsoft Azure联动,需要Microsoft Azure的组织账户。组织账户以外的账户在Azure CLI运行时需要对话形式的登录,因此不能使用。
- 使用Azure CLI,需要创建服务主体。Azure DNS资源是登录到Microsoft Azure,执行对DNS区域的登记。登录到Microsoft Azure时,利用通过服务主体的Azure登录。关于服务主体和具体步骤,请参考以下的Web站点。通过Azure CLI登录Azure:在Azure CLI 2.0上创建Azure服务主体:创建出服务主体的角色由默认的Contributor(共同创造者)改为别的角色时,作为Actions属性,请选择拥有以下的全部操作的访问权的角色。如果改变为不满足该条件的角色时,启动Azure DNS资源就会发生错误而失败。Azure CLI 2.0时Microsoft.Network/dnsZones/A/writeMicrosoft.Network/dnsZones/A/deleteMicrosoft.Network/dnsZones/NS/read
不支持Azure私有DNS。
6.2.20. 关于Google Cloud 虚拟IP资源¶
在Windows Server 2019上使用Google Cloud 虚拟 IP资源时,必须将以下服务的[启动类型]设置为[自动(延迟启动)]。
Google Compute Engine Agent
Google OSConfig Agent
6.2.21. 关于Google Cloud DNS资源¶
使用Google Cloud的Cloud DNS。关于Cloud DNS的详细信息,请参考以下Web网站。
Cloud DNS要使用Cloud DNS操作,需要安装Cloud SDK。关于Cloud SDK的详细信息,请参考以下网站。
Cloud SDK需要用具有以下权限的帐户批准Cloud SDK。
dns.changes.createdns.changes.getdns.managedZones.getdns.resourceRecordSets.createdns.resourceRecordSets.deletedns.resourceRecordSets.listdns.resourceRecordSets.update关于批准Cloud SDK,请参考以下Web网站。
Cloud SDK工具批准
6.2.22. 关于OCI环境中CLI的设置¶
6.2.23. 关于OCI强制停止资源的设置¶
<EXPRESSCLUSTER 安装路径>\cloud\oci\clpociforcestop.ps1 ・根据OCI CLI命令的安装目录而更改的参数 $Env:Path += ";[OCI CLI命令的安装目录]" <例> $Env:Path += ";C:\Users\opc\AppData\Local\Programs\Python\Python36\Scripts\;C:\Users\opc\AppData\Local\Programs\Python\Python36\" ・根据OCI配置文件的保存位置而更改的参数 [string]$OCI_Path = "[OCI配置文件的路径]" <例> [string]$OCI_Path = "C:\Users\opc\.oci\config"
6.3. 创建EXPRESSCLUSTER的配置信息时¶
在设计和创建EXPRESSCLUSTER的配置信息前,需要根据系统的配置确认并留意以下事项。
6.3.1. 有关EXPRESSCLUSTER安装路径下的文件夹和文件¶
6.3.2. 组资源停止异常时的最终运行¶
6.3.3. 延迟警告比例¶
将延迟警告比例设置为0或者100,可进行以下操作。
- 延迟警告比例设置为0时对每一监视以Alert通告延迟警告。使用该功能可计算出服务器在高负荷状态下对监视资源的轮询时间,确定监视资源的监视超时时间。
- 延迟警告比例设置为100时不通告延迟警告。
除了测试外,请不要设置0%等低数值。
6.3.4. 关于磁盘监视资源和共享型镜像磁盘TUR监视资源的监视方法TUR¶
- 不支持SCSI的Test Unit Ready命令的磁盘和磁盘接口(HBA)上无法使用。有时硬件支持而驱动程序不支持,请同时确认驱动程序的规格。
与Read方式相比对OS或磁盘的负荷小。
Test Unit Ready中有时不能查出实际的对媒体的I/O错误。
6.3.5. 关于心跳资源的设置¶
对于优先级最高的私网,请设置允许所有服务器之间通信的LAN心跳或者内核模式LAN心跳。
建议设置两个以上内核模式LAN心跳资源(除非是在很难添加网络时,例如Cloud环境或远程集群环境中)。
建议将私网专用的LAN注册为LAN心跳资源,同时,将公网LAN也注册为LAN心跳资源。
心跳超时时间需要比OS重启所需时间短。如果未满足该条件,集群内的部分服务器进行重启时,其他服务器将无法正确检测出该服务器的重启,重启后将发生运行异常。
6.3.6. 关于能用于脚本注释等的双字节系字符编码¶
在EXPRESSCLUSTER中,Windows环境下编辑的脚本作为Shift-JIS使用,而Linux环境下编辑的脚本则作为EUC使用。如使用其他字符编码,可执行因环境不同而出现乱码的情况。
6.3.7. 关于组的可启动服务器上可设置的服务器组数¶
1个组的可启动服务器上可设置的服务器组数最多为2个。如果设置了3个以上的服务器组时,EXPRESSCLUSTER Disk Agent 服务 (clpdiskagent.exe)有可执行不能正常运行。
6.3.8. 关于JVM监视器的设定¶
监视目标为WebLogic时,对于JVM监视器资源的设定值,由于系统环境(内存搭载量等)的原因,设定范围的上限值可执行会受到限制。
[监视Work Manager的要求]-[要求数]
[监视Work Manager的要求]-[平均值]
[监视线程Pool的要求]-[待机要求 要求数]
[监视线程Pool的要求]-[待机要求 平均值]
[监视线程Pool的要求]-[执行要求 要求数]
[监视线程Pool的要求]-[执行要求 平均值]
要使用Java Resource Agent,请安装"4. EXPRESSCLUSTER的运行环境"的"4.2.5. JVM监视器的运行环境"中记载的JRE(Java Runtime Environment),或者请安装JDK(Java Development Kit)。可与使用监视对象(WebLogic Server或WebOTX)的JRE或JDK在相同的项目中使用,也可使用在其他项目。如果一个服务器中同时安装了JRE和JDK,则使用其中任何一个居可。
监视资源名中不要含空白字符。
6.3.9. 关于系统监视的设置¶
- 资源监视的查出模式System Resource Agent中结合「阀值」和「监视持续时间」两个参数进行资源监视的查出。继续收集各系统资源(内存使用量,CPU 使用率,虚拟内存使用量),如果在一定时间(指定为持续时间的时间)内超过阀值时就会进行异常的查出。
6.3.10. 关于PostgreSQL监视的设定¶
监视资源名中不要含空白字符。
6.3.11. 关于AWS Elastic IP资源的设定¶
不支持IPv6。
在AWS环境下,不能利用浮动IP资源,浮动IP监视资源,虚拟IP资源,虚拟IP监视资源,虚拟计算机名资源和虚拟计算机名监视资源。
AWS Elastic IP资源不支持ASCII字符以外的字符。请确认以下命令的执行结果中不包含ASCII字符以外的字符。
aws ec2 describe-addresses --allocation-ids <EIP ALLOCATION ID>
AWS Elastic IP 资源将 EIP 与 ENI 的主专用 IP 地址相关联。它不能与辅助专用 IP 地址相关联。
6.3.12. 关于AWS 虚拟IP资源的设定¶
不支持IPv6。
在AWS环境下,不能利用浮动IP资源,浮动IP监视资源,虚拟IP资源,虚拟IP监视资源,虚拟主机名资源和虚拟主机名监视资源。
AWS虚拟IP资源不支持ASCII字符以外的字符。请确认以下命令的执行结果中不包含ASCII字符以外的字符。
aws ec2 describe-vpcs --vpc-ids <VPC ID> aws ec2 describe-route-tables --filters Name=vpc-id,Values=<VPC ID> aws ec2 describe-network-interfaces --network-interface-ids <ENI ID>
在需要经由VPC-Peering连接的访问时,不能利用AWS虚拟IP资源。这是因为作为VIP使用的IP地址是在VPC范围之外的前提,这样的IP地址在VPC-Peering连接中被视为无效。需要经由VPC-Peering连接的访问时,请使用利用了Amazon Route 53的AWS DNS资源。
设置AWS虚拟IP资源时,作为Windows的操作,物理主机名和虚拟IP的记录 DNS中注册(该网络适配器的属性设置中,将地址注册到DNS种的设定已打开时)。要将有物理主机域名解析的IP地址变为物理IP地址,请按如下所示进行设置。
已经有相应的虚拟IP地址,如果已勾选网络适配器的[属性]-[Internet协议版本4]-[详细设置]-[DNS]标签页-[在DNS中注册此连接的地址],请取消勾选。
要反映该设置,请执行以下任意的操作
重启DNS Client 服务。
明确执行ipconfig /registerdns 命令。
请将分配了相应虚拟IP地址的网络适配器的物理地址静态地注册到DNS服务器中。
即使实例使用的路由表中不存在虚拟IP使用的IP地址的路由,AWS虚拟IP资源也能正常启动。这是规定好的。在启动AWS虚拟IP资源时,仅更新存在指定IP地址条目的路由表内容。即使没有找到任何一个路由表,也会因为没有更新目标而被判断为正常。由于该条目是否必须要存在于哪个路由表,是由系统配置决定的,因此,不作为检查AWS虚拟IP资源正常性的目标。
AWS虚拟IP资源在使用Windows OS的API的NIC中添加了虚拟IP地址。这时,由于没有设置skipassource flag,因此,在启动AWS虚拟IP资源后,skipassource flag将会变为无效。如要设置skipassource flag有效时,请在启动AWS虚拟IP资源后通过PowerShell 等进行设置。
6.3.13. 关于AWS 辅助IP资源的设定¶
不支持IPv6。
在AWS环境下,不能利用浮动IP资源,浮动IP监视资源,虚拟IP资源,虚拟IP监视资源,虚拟主机名资源和虚拟主机名监视资源。
AWS辅助IP资源不支持ASCII字符以外的字符。请确认以下命令的执行结果中不包含ASCII字符以外的字符。
aws ec2 describe-network-interfaces --network-interface-ids <ENI ID> aws ec2 describe-subnets --subnet-ids <SUBNET_ID>
AWS 辅助 IP 资源不可以在具有不同子网的配置中使用。
- AWS 辅助 IP 资源分配的辅助 IP 地址对每种实例类型都有限制。详细内容请参考以下所记。
- 在 AWS 辅助 IP 资源中静态注册要为其分配辅助 IP 地址的网络适配器的物理 IP 地址。详细内容请参考以下步骤1。
AWS 辅助 IP 资源中,使用netsh命令向NIC添加辅助 IP 地址。这时,由于没有设置skipassource flag,因此,在启动AWS辅助IP资源后,skipassource flag将会变为无效。如要设置skipassource flag有效时,请在启动AWS辅助IP资源后通过PowerShell 等进行设置。
6.3.14. 关于AWS DNS资源的设定¶
不支持IPv6。
在AWS环境下,不能利用浮动IP资源,浮动IP监视资源,虚拟IP资源,虚拟IP监视资源,虚拟主机名资源和虚拟主机名监视资源。
如果[资源记录集名称]中包含转义码,则为监视异常。请设置不含转义码的[资源记录集名称]。
启动AWS DNS资源后,不会等待DNS配置的更改传播到所有Amazon Route 53 DNS服务器上。这是由于在Route 53的设计中,将资源记录集更改应用于整体需要花费时间。请参考"关于AWS DNS监视资源的设定"。
由于AWS DNS资源绑定在一个账户上,因此,无法使用多个帐户,AWS访问ID,AWS秘密访问密钥。在这种情况下,请考虑创建一个使用脚本资源等执行AWS CLI的脚本,并将其中的环境变量设置为用于认证其他账户的信息。
6.3.15. 关于AWS DNS监视资源的设定¶
AWS DNS监视资源在监视时执行AWS CLI。执行AWS CLI的超时是利用在AWS DNS资源上设置的[AWS CLI超时]。
AWS DNS资源的启动后,根据以下的情况,AWS DNS监视资源的监视可执行会失败。这时,请将AWS DNS监视资源的 [开始监视等待时间] 设置为比Amazon Route 53中DNS设定改变反映的时间更长的时间(https://aws.amazon.com/jp/route53/faqs/)。
启动AWS DNS资源时,追加和更新记录集合。
反映Amazon Route 53中的DNS设置改变前,监视AWS DNS监视资源时就会由于不能进行域名解析而失败。在DNS解析器缓存有效的期间内,之后,监视AWS DNS监视资源也会失败。
反映Amazon Route 53中的DNS设置改变。
经过AWS DNS资源的 [TTL] 有效期,由于域名解析成功,监视AWS DNS监视资源成功。
6.3.16. 关于Azure 探头端口资源的设定¶
不支持IPv6。
在Microsoft Azure环境下,不能利用浮动IP资源,浮动IP监视资源,虚拟IP资源,虚拟IP监视资源,虚拟计算机名资源和虚拟计算机名监视资源。
6.3.17. 关于Azure 负载均衡监视资源的设定¶
Azure负载均衡监视资源检测到异常时,Azure的负载均衡的运行服务器和待机服务器的切换可执行不能正常执行。因此,推荐设置Azure负载均衡监视资源的[最终动作]选项为[停止集群服务并关闭操作系统]。
6.3.18. 关于Azure DNS资源设定¶
不支持IPv6。
在Microsoft Azure环境下,不能利用浮动IP资源,浮动IP监视资源,虚拟IP资源,虚拟IP监视资源,虚拟主机名资源和虚拟主机名监视资源。
6.3.19. 关于Google Cloud 虚拟 IP 资源的设定¶
不支持IPv6。
6.3.20. 关于Google Cloud 负载均衡监视资源的设定¶
如果Google Cloud负载均衡监视资源检测到异常,则可执行无法正确地从负载均衡器在运行系统和待机系统之间进行切换。因此,建议在Google Cloud负载均衡监视资源的[最终动作]中选择[停止集群服务停止和关闭操作系统]。
6.3.21. 关于Google Cloud DNS资源的设置¶
不支持IPv6。
在Google Cloud Platform 环境下,不能利用浮动 IP 资源,浮动IP监视资源,虚拟IP资源,虚拟IP监视资源。
如果同时执行多个Google Cloud DNS资源的启动/停止处理,可执行会发生错误。因此,在集群中使用多个Google Cloud DNS资源时,需要进行设置,以便由于资源的依赖关系和组的启动/停止等待而不能同时执行启动/停止处理。
6.3.22. 关于Oracle Cloud 虚拟 IP 资源的设定¶
不支持IPv6。
6.3.23. 关于Oracle Cloud 负载均衡监视资源的设定¶
如果Oracle Cloud负载均衡监视资源检测到异常,则可执行无法正确地从负载均衡器在运行系统和待机系统之间进行切换。因此,建议在Oracle Cloud负载均衡监视资源的[最终动作]中选择[停止集群服务停止和关闭操作系统]。
6.3.24. 关于Windows Server 2012 以上的系统中服务失败时的恢复操作¶
在基于Windows Server 2012以上的系统下,将服务失败(异常结束)时所进行的恢复操作设置为[重新启动计算机]时,实际上服务失败时的操作从原来的(Windows Server 2008以前)的OS重启,更改为伴随STOP错误的OS重启。
作为恢复操作,按照默认值[重新启动计算机]所设置的EXPRESSCLUSTER的服务如下所示。
EXPRESSCLUSTER Disk Agent服务
EXPRESSCLUSTER Node Manager服务
EXPRESSCLUSTER Server服务
EXPRESSCLUSTER Transaction服务
6.3.25. 关于与 OS 的网络负载均衡功能兼容¶
6.3.26. 反应HBA设置时的注意点¶
变更新建集群时[服务器属性]的[HBA]标签页中的访问限制的设定,并上传配置信息时,作为反映方法,可执行不会显示OS重启。如果更改新建集群时在[HBA]标签页中的访问限制设定时,为了反映配置信息,请重启OS。
6.3.27. 关于镜像磁盘资源和共享型镜像磁盘资源的共存¶
镜像磁盘资源和共享型镜像磁盘资源不能混在同一个失效切换组中。
6.4. 操作EXPRESSCLUSTER后¶
对作为集群开始操作后发生的事件需要注意以下几点。
6.4.1. 恢复运行中的操作限制¶
在监视资源的查出异常的设置中将恢复对象指定为组资源(磁盘资源,应用程序资源等),在监视资源查出异常后的恢复运行变化过程中(重启动 -> 失效切换 -> 最终运行),请不要通过Cluster WebUI或命令进行以下操作。
集群的停止 / 挂起
组的启动 / 停止 / 移动
6.4.2. 关于命令参考中没有记载的可执行文件或脚本文件¶
6.4.3. 集群关机/集群关机重启¶
6.4.4. 特定服务器的关机,重启¶
使用镜像磁盘时,执行命令或从Cluster WebUI执行服务器的集群服务停止、关机、关机重启命令会发生Mirror Break。
6.4.5. 从网络分区状态的恢复¶
在发生了网络分区的状态下,配置集群的服务器之间无法确认彼此的状态,因此在该状态下对组进行操作(启动/停止/移动)或者重启服务器等,服务器之间对集群状态的识别会产生出入。在这种启动了多个状态识别不同的服务器的状态下进行网络恢复,则其后面的组操作会非正常运行,因此在网络分区状态时,关闭与切断网络(无法与客户端通信)的服务器,或者先停止EXPRESSCLUSTER Server服务,待网络恢复后重启,再复原到集群中。万一在启动了多个服务器的状态下恢复了网络,则可通过重启集群状态识别不同的服务器,复原到正常状态。
另外,使用网络分区解决资源时,即使发生了网络分区,也通常会紧急关闭某个(或者所有)服务器,避免启动多个彼此无法通信的服务器。紧急关闭的服务器以手动重启或者紧急关机时的动作设置为重启时,重启的服务器都会再次紧急关机(Ping方式或者多数取胜方式下将停止EXPRESSCLUSTER Server服务)。但以DISK方式使用多个磁盘心跳用分区时,由于磁盘路径故障导致无法通过磁盘进行通信的状态下而发生网络分区,则两台服务器将会以保留状态继续运行。
6.4.6. 关于Cluster WebUI¶
如果在与连接目标无法通信的状态下进行操作,则等待控制返回可执行会花费些许时间。
经由Proxy服务器时请对该服务器进行设置,以便可以中转Cluster WebUI的端口号。
经由Reverse Proxy服务器时,Cluster WebUI不能正常运行。
- 对EXPRESSCLUSTER进行升级后,请关闭所有运行中的Web浏览器。清空浏览器侧的缓存后再启动浏览器。
使用比本产品更新的版本创建的集群配置信息,不能在本产品中使用。
- 通过窗口边框中的[X]按钮等结束Web浏览器后,可执行会弹出确认对话框。
若要保存当前配置,请选择[留在此页]。
- 刷新Web浏览器(通过[工具]菜单中的[刷新]及工具条上的[刷新]按钮等)后,可执行会弹出确认对话框。
若要保存当前配置,请选择[留在此页]。
关于上述之外的Cluster WebUI的注意限制事项请参考在线版手册。
6.4.7. 关于EXPRESSCLUSTER Disk Agent服务¶
请勿停止EXPRESSCLUSTER Disk Agent服务。停止服务后无法手动启动。这时必须重启OS,再启动EXPRESSCLUSTER Disk Agent服务。
6.4.8. 关于镜像构建中的集群配置信息的变更¶
镜像构建过程中(包括初始构建)请不要更改集群配置信息。更改集群配置信息后,驱动程序的运行可执行出现不正常。
6.4.9. 关于镜像磁盘的待机服务器的集群恢复¶
镜像磁盘启动时待机服务器在停止集群服务(EXPRESSCLUSTER Server服务)的状态下运行时,在开始服务之后恢复到集群前请再次启动待机服务器。如果直接就这样恢复的话会出现镜像的差异信息不正确,镜像磁盘会发生不联动。
6.4.10. 关于镜像磁盘,共享型镜像磁盘间的配置变更¶
进行配置变更,将已通过镜像磁盘资源进行镜像化的磁盘更改为通过共享型镜像磁盘资源进行镜像化时,请先上传删除了现有镜像磁盘资源的配置信息,在变更为现有资源已被删除的状态后,再上传添加了共享型镜像磁盘资源的配置信息。将共享型镜像磁盘变更为镜像磁盘时也是如此。
如不按以上步骤,没有删除现有资源的情况下就上传已替换为新资源的配置信息,可执行导致磁盘镜像化的设置变更无法正常进行,运行可执行出现不正常。
6.4.11. 关于[chkdsk]命令和磁盘碎片整理¶
6.4.12. 关于索引服务¶
在索引服务的目录中创建共享磁盘/镜像磁盘上的目录,对共享磁盘/镜像磁盘上的文件夹创建索引时,需要从EXPRESSCLUSTER控制,将索引服务设为手动启动,在启动共享磁盘/镜像磁盘后启动。如果将索引服务设为自动启动,则索引服务会OPEN对象卷,在之后的启动处理中将造成mount处理失败,最后造成从应用程序或资源浏览器访问磁盘因"参数错误" (错误代码87)而失败。
6.4.13. 关于Windows Server 2012以上环境中的用户帐户控制的影响¶
Windows Server 2012以上中默认值的用户帐户控制 (UAC 是User Account Control的略称) 设置为有效。如果UAC有效时,对下述的功能产生影响。
- 监视资源对下面所述的监视资源产生影响。
- Oracle 监视资源Oracle 监视资源中的认证方式为[OS 认证],且将监视用户设置为Administrators组以外的用户时,Oracle监视处理会失败。认证方式设置为[OS认证]时,请将设置为"监视用户"的用户应从属于Administrator组。
6.4.14. 关于应用程序资源/脚本资源的画面显示¶
从EXPRESSCLUSTER的应用程序资源,脚本资源启动的进程需要用对话0执行,因此如果启动了有GUI的进程,将弹出"发现对话型服务对话框"窗口,在该窗口中,如果不选择"显示消息",则不会显示GUI。
6.4.15. 关于网卡(NIC)二重化的环境¶
NIC二重化的环境中,启动OS 时初始化NIC有时需要花费点时间。如果初始化结束前就启动集群,启动内核模式,LAN心跳资源(lankhb)有可执行失败。此状态下,即便NIC的初始化已结束,内核模式和LAN心跳资源也不能返回正常状态。要从此状态进行复归,需要挂起集群后对集群进行复原。
此外,为避免上述现象的发生,推荐对网络初始化结束等待时间进行设置或者使用[ARMDELAY]命令推迟集群的启动时间。
- 网络初始化等待时间是配置集群的所有服务器中的共通设置。即便没有到达设置的时间,如果网络的初始化已经结束,集群就会开始启动。
6.4.16. 关于EXPRESSCLUSTER的服务的登录帐号¶
EXPRESSCLUSTER的服务的登录帐号设置在 [当地系统帐号] 中。如果更改了此登录帐号的设置,就有可执行不能作为集群正常运行。
6.4.17. 关于EXPRESSCLUSTER的常驻进程的监视¶
使用监视进程的软件等对EXPRESSCLUSTER的常驻进程进行监视不会引发问题,但是在进程异常结束等情况下,请不要进行进程再启动等的复归运行。
6.4.18. 关于消息接收监视资源¶
向消息接收监视资源发生异常通知时,有使用[clprexec] 命令,和服务器管理平台联动功能的方法。
使用[clprexec] 命令时可使用与 EXPRESSCLUSTER CD 捆包一起的文件。请根据通知源服务器的 OS 和结构来使用。此外,还需要通知源服务器和通知目标服务器处于可进行通信的状态。
6.4.19. 关于JVM监视资源¶
重启监视对象的Java VM时,请将JVM监视资源挂起,或者停止集群后再进行。
变更设计内容时,需要进行集群的挂起和集群的复原。
不支持监视资源的延迟警报。
6.4.20. 关于系统监视资源,进程资源监视资源¶
变更设置内容时,需要进行集群挂起。
不支持监视资源的延迟警报。
若在运行中更改OS的日期或时间,则每隔10分钟执行的解析处理仅在更改日期或时间后的最初时序出现一次错位。出现以下两种问题时,请根据需要进行集群挂起和集群复归。
即使异常检测时间间隔经过之后,也不执行异常检测。
异常检测时间间隔经过之前,执行异常检测。
使用系统监视资源的磁盘资源监视功能可同时监视最多26个磁盘。
6.4.21. 关于镜像统计信息采集功能与OS标准功能联动的事件日志输出¶
从内部版本11.16之前升级的环境时,在应用程序事件日志中输出如下错误的情况。
- 事件ID:1008源:Perflib消息:服务"clpdiskperf" (DLL "<EXPRESSCLUSTER安装路径>\bin\clpdiskperf.dll") 的Open 进程失败。不能使用此服务的性能数据。数据段的最初4个字节(DWORD)含有错误代码。
使用镜像统计信息采集功能和OS标准功能之间的联动功能时,通过命令提示符执行以下命令,可以不输出本消息。
>lodctr.exe <EXPRESSCLUSTER 安装路径>\perf\clpdiskperf.ini
不使用联动功能时,即使输出该信息也不影响EXPRESSCLUSTER或者性能监视器操作,经常发生该消息输出时,通过执行以下2个命令,可以不输出本消息。
> unlodctr.exe clpdiskperf > reg delete HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\clpdiskperf
镜像统计信息采集功能与OS标准功能联动有效时,在应用程序事件日志中输出如下错误的情况。
- 事件ID:4806源:EXPRESSCLUSTER X消息:因性能监视器的进程数过多,不能采集镜像统计信息。
不使用联动功能时,即使输出该信息也不影响EXPRESSCLUSTER或者性能监视器操作,经常发生该消息输出时,通过执行以下2个命令,可以不输出本消息。
> unlodctr.exe clpdiskperf > reg delete HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\clpdiskperf
此外,关于镜像统计信息采集功能和OS标准功能之间的联动功能,请参考以下。
6.4.23. 关于AWS 环境中的AMI的恢复¶
6.5. EXPRESSCLUSTER的配置变更时¶
开始集群运行后如果对配置进行变更时,需要对发生的事项留意。
6.5.1. 关于组的共通属性的互斥规则¶
6.5.2. 关于资源属性的依存关系¶
6.5.3. 关于消息接收监视资源的集群统计信息的设定¶
变更监视资源的集群统计信息设置时,即使执行了挂起·复原,也无法在消息接收监视资源中反映集群统计信息的设置。如果要在消息接收监视资源中反映集群统计信息的设置,请重启OS。
6.5.4. 关于端口号的更改¶
启用服务器的防火墙,更改端口号时需要更改防火墙的设置。使用clpfwctrl命令可以进行防火墙的设置。详细内容请参考《参考指南》的"EXPRESSCLUSTER命令参考"的"添加防火墙规则(clpfwctrl命令)"。
6.6. EXPRESSCLUSTER版本升级时¶
作为集群开始操作后,进行EXPRESSCLUSTER 的版本升级时需要注意的事项。
6.6.1. 功能变更一览¶
各版本中变更的功能如下所示。
内部版本 13.00
关于强制停止功能以及强制停止脚本根据环境类型刷新为个别的强制停止资源。版本升级前设置的强制停止功能和强制停止脚本将失效,请重新设置为强制停止资源。
6.6.2. 功能删除一览¶
关于各版本中被删除的功能,显示如下。
重要
内部版本 13.00
功能
处理
WebManager/Builder
COM 网络分区解决资源
请打开[集群属性]的[NP解决标签页],删除类型显示为[不明]的NP解决资源。
NAS资源NAS监视资源
组资源的依赖关系中个别设置NAS资源时,先删除依赖关系的设置。关于依赖关系中设置NAS 资源的组资源,请打开[资源的属性]的[依赖关系]标签页,在选择了NAS资源的状态下点击[删除]按钮从依赖的资源中删除。 请删除NAS资源。删除NAS资源时,NAS监视资源也被删除。 打印机Spooler资源打印机Spooler监视资源
组资源的依赖关系中个别设置打印机Spool资源时,先删除依赖关系的设置。关于依赖关系中设置打印机Spooler资源的组资源,请打开[资源的属性]的[依赖关系]标签页,在选择了打印机Spooler资源的状态下点击[删除]按钮,从依赖的资源中删除。 请删除打印机Spooler资源。删除打印机Spooler资源时,打印机Spooler监视资源也被删除。 虚拟机组虚拟机资源虚拟机监视资源包含虚拟机组的"主机集群用的配置信息"不能迁移。
BMC联动功能
请删除关联的消息接收监视资源。
兼容命令
脚本资源
自定义监视资源
最终动作前脚本
启动/停止前后脚本
复归脚本
复归操作前脚本
强制停止脚本
其他从EXPRESSCLUSTER设置的脚本
在这些脚本中使用兼容命令时,请以没有使用兼容命令的形式修改脚本内容。
例
使用armload控制服务时,请通过sc命令替换服务的启动停止处理。关于服务的监视处理请通过服务监视资源替换。如果在armdelay中设置了启动EXPRESSCLUSTER服务的延迟时间,请将其替换为集群属性中超时选项卡 [服务启动延迟时间] 的设置。
CPU频率控制命令(clpcpufreq命令)-
资源使用量预测命令(clpprer命令)-
机箱ID指示灯控制命令(clpledctrl命令)-
集群间的联动处理请求命令(clptrnreq命令)-
更改BMC信息命令(clpbmccnf命令)-
内核模式LAN心跳资源的广播功能
心跳I/F的发送方法的广播被废止。如果使用通过以前版本创建的集群配置信息,则通过单播发送心跳。EXPRESSCLUSTER任务管理器
-
在EXPRESSCLUSTER客户
-
负载均衡器联动功能(JVM监视资源)-
使用SCVMM的虚拟机强制停止功能
-
镜像连接监视资源(集成到镜像磁盘监视资源)请删除镜像连接监视资源。
6.6.3. 参数删除一览¶
在通过Cluster WebUI可以设定的参数中,从各版本中删除的参数如下表所示。
内部版本 13.00
集群
参数
默认值
集群属性
私网签页
广播/单播
单播
扩展标签页
虚拟机强制停止设定 虚拟机管理工具
vCenter
虚拟机强制停止设定 命令
C:\Program Files (x86)\VMware\VMware vSphere CLI\Perl\apps\vm\vmcontrol.pl
运行强制停止脚本
Off
服务器属性
信息标签页
虚拟机
Off
种类
vSphere
BMC标签页
强制停止命令
-
机箱ID指示灯 闪烁 / 关灯
-
6.6.4. 默认值更改一览¶
在通过Cluster WebUI可以设定的参数中,各版本中被更改的默认值如下表所示。
版本升级后,想要继续设定[更改前的默认值]时,在版本升级后请重新设置该值。
在设置了[更改前的默认值]以外的值时,版本升级后会保留之前的设定值。
内部版本 12.00
集群
参数
更改前的默认值
更改后的默认值
备注
集群属性
JVM监视标签页
最大Java堆内存大小
7 [MB]
16 [MB]
扩展标签页
失效切换次数计数单位
集群
服务器
组资源共通
参数
更改前的默认值
更改后的默认值
备注
资源的共通属性
复归操作标签页
失效切换次数
与服务器数目相同
1 [回]
伴随[集群属性] - [扩展标签页] - [失效切换次数计数单位]的默认值变化而变化。
应用程序资源
参数
更改前的默认值
更改后的默认值
备注
应用程序资源的属性
依赖关系标签页
遵循原有的依赖关系
On- 浮动IP资源- 虚拟IP资源- 虚拟主机名资源- 磁盘资源- 共享型镜像磁盘资源- 镜像磁盘资源- 打印机spool资源- 注册表同步资源- CIFS资源- AWS Elastic IP资源- AWS虚拟IP资源- Azure探头端口资源 On- 浮动IP资源- 虚拟IP资源- 虚拟主机名资源- 磁盘资源- 共享型镜像磁盘资源- 镜像磁盘资源- 打印机spool资源- 注册表同步资源- CIFS资源- AWS Elastic IP资源- AWS虚拟IP资源- AWS DNS资源- Azure探头端口资源- Azure DNS资源注册表同步资源
参数
更改前的默认值
更改后的默认值
备注
注册表同步资源的属性
依赖关系标签页
遵循原有的依赖关系
On- CIFS资源- 磁盘资源- 共享型镜像磁盘资源- 浮动IP资源- 打印机spool资源- 镜像磁盘资源- 虚拟IP资源- 虚拟主机名资源- AWS Elastic IP资源- AWS虚拟IP资源- Azure探头端口资源 On- CIFS资源- 磁盘资源- 共享型镜像磁盘资源- 浮动IP资源- 打印机spool资源- 镜像磁盘资源- 虚拟IP资源- 虚拟主机名资源- AWS Elastic IP资源- AWS虚拟IP资源- AWS DNS资源- Azure探头端口资源- Azure DNS资源脚本资源
参数
更改前的默认值
更改后的默认值
备注
脚本资源的属性
依赖关系标签页
遵循原有的依赖关系
On- CIFS资源- 磁盘资源- 共享型镜像磁盘资源- 浮动IP资源- 打印机spool资源- 镜像磁盘资源- 注册表同步资源- 虚拟IP资源- 虚拟主机名资源- AWS Elastic IP资源- AWS虚拟IP资源- Azure探头端口资源 On- CIFS资源- 磁盘资源- 共享型镜像磁盘资源- 浮动IP资源- 打印机spool资源- 镜像磁盘资源- 注册表同步资源- 虚拟IP资源- 虚拟主机名资源- AWS Elastic IP资源- AWS虚拟IP资源- AWS DNS资源- Azure探头端口资源- Azure DNS资源服务资源
参数
更改前的默认值
更改后的默认值
备注
服务资源的属性
依赖关系标签页
遵循原有的依赖关系
On- CIFS资源- 磁盘资源- 共享型镜像磁盘资源- 浮动IP资源- 打印机spool资源- 镜像磁盘资源- 注册表同步资源- 虚拟IP资源- 虚拟主机名资源- AWS Elastic IP资源- AWS虚拟IP资源- Azure探头端口资源 On- CIFS资源- 磁盘资源- 共享型镜像磁盘资源- 浮动IP资源- 打印机spool资源- 镜像磁盘资源- 注册表同步资源- 虚拟IP资源- 虚拟主机名资源- AWS Elastic IP资源- AWS虚拟IP资源- AWS DNS资源- Azure探头端口资源- Azure DNS 资源监视资源共通
参数
更改前的默认值
更改后的默认值
备注
监视资源共通的属性
复归操作标签页
最大失效切换次数
与服务器数目相同
1 [回]
伴随[集群属性] - [扩展标签页] - [失效切换次数计数单位]的默认值变化而变化。
应用程序监视资源
参数
更改前的默认值
更改后的默认值
备注
应用程序监视资源的属性
监视 (共通) 标签页
开始监视的等待时间
0 [秒]
3 [秒]
超时发生时不重试
Off
On
超时发生时不做回复动作
Off
On
浮动IP监视资源
参数
更改前的默认值
更改后的默认值
备注
浮动IP监视资源的属性
监视 (共通) 标签页
超时
60 [秒]
180 [秒]
超时发生时不重试
Off
On
超时发生时不做回复动作
Off
On
NIC Link Up/Down监视资源
参数
更改前的默认值
更改后的默认值
备注
NIC Link Up/Down 监视资源的属性
监视 (共通) 标签页
超时
60 [秒]
180 [秒]
超时发生时不重试
Off
On
超时发生时不做回复动作
Off
On
注册表同期监视资源
参数
更改前的默认值
更改后的默认值
备注
注册表同期监视资源的属性
监视 (共通) 标签页
超时发生时不重试
Off
On
超时发生时不做回复动作
Off
On
服务监视资源
参数
更改前的默认值
更改后的默认值
备注
服务监视资源的属性
监视 (共通) 标签页
开始监视的等待时间
0 [秒]
3 [秒]
超时发生时不重试
Off
On
超时发生时不做回复动作
Off
On
打印机spool监视资源
参数
更改前的默认值
更改后的默认值
备注
打印机spool监视资源的属性
监视 (共通) 标签页
超时发生时不重试
Off
On
超时发生时不做回复动作
Off
On
虚拟主机名监视资源
参数
更改前的默认值
更改后的默认值
备注
虚拟主机名监视资源的属性
监视 (共通) 标签页
超时
60 [秒]
180 [秒]
超时发生时不重试
Off
On
超时发生时不做回复动作
Off
On
虚拟IP监视资源
参数
更改前的默认值
更改后的默认值
备注
虚拟IP监视资源的属性
监视 (共通) 标签页
超时
60 [秒]
180 [秒]
超时发生时不重试
Off
On
超时发生时不做回复动作
Off
On
用户监视资源
参数
更改前的默认值
更改后的默认值
备注
用户监视资源的属性
监视 (共通) 标签页
开始监视的等待时间
0 [秒]
3 [秒]
进程名监视资源
参数
更改前的默认值
更改后的默认值
备注
进程名监视资源的属性
监视 (共通) 标签页
开始监视的等待时间
0 [秒]
3 [秒]
超时发生时不重试
Off
On
超时发生时不做回复动作
Off
On
SQL Server监视资源
参数
更改前的默认值
更改后的默认值
备注
SQL Server监视资源的属性
监视 (固有) 标签页
ODBC驱动名
SQL Native Client
ODBC Driver 13 for SQL Server
Weblogic监视资源
参数
更改前的默认值
更改后的默认值
备注
Weblogic监视资源的属性
监视 (固有) 标签页
安装路径
C:\bea\weblogic92
C:\Oracle\Middleware\Oracle_Home\wlserver
JVM监视资源
参数
更改前的默认值
更改后的默认值
备注
JVM监视资源的属性
监视 (共通) 标签页
超时
120 [秒]
180 [秒]
动态域名解析监视资源
参数
更改前的默认值
更改后的默认值
备注
动态域名解析监视资源的属性
监视 (共通) 标签页
超时
120 [秒]
180 [秒]
超时发生时不重试
Off
On
超时发生时不做回复动作
Off
On
AWS Elastic IP监视资源
参数
更改前的默认值
更改后的默认值
备注
AWS Elastic IP监视资源的属性
监视 (共通) 标签页
超时
100 [秒]
180 [秒]
超时发生时不重试
Off
On
超时发生时不做回复动作
Off
On
AWS虚拟IP监视资源
参数
更改前的默认值
更改后的默认值
备注
AWS虚拟IP监视资源的属性
监视 (共通) 标签页
超时
100 [秒]
180 [秒]
超时发生时不重试
Off
On
超时发生时不做回复动作
Off
On
AWS AZ监视资源
参数
更改前的默认值
更改后的默认值
备注
AWS AZ监视资源的属性
监视 (共通) 标签页
超时
100 [秒]
180 [秒]
超时发生时不重试
Off
On
超时发生时不做回复动作
Off
On
Azure探头端口监视资源
参数
更改前的默认值
更改后的默认值
备注
Azure探头端口监视资源的属性
监视 (共通) 标签页
超时
100 [秒]
180 [秒]
超时发生时不重试
Off
On
超时发生时不做回复动作
Off
On
Azure负载均衡监视资源
参数
更改前的默认值
更改后的默认值
备注
Azure负载均衡监视资源的属性
监视 (共通) 标签页
超时
100 [秒]
180 [秒]
超时发生时不重试
Off
On
超时发生时不做回复动作
Off
On
内部版本 12.10
脚本资源
参数
更改前的默认值
更改后的默认值
备注
脚本资源的属性
详细标签页
脚本资源的调整属性
参数标签页
执行复归处理
On
Off
内部版本12.00 之前的版本不能进行设定变更。12.10 版本后可以进行设定变更。
内部版本 12.20
服务资源
参数
更改前的默认值
更改后的默认值
备注
服务资源的属性
复归动作标签页
启动重试次数
0 [次]
1 [次]
AWS Elastic IP 监视资源
参数
更改前的默认值
更改后的默认值
备注
AWS Elastic IP 监视资源的属性
监视(固有)标签页
AWS CLI命令未得到应答时的动作
不运行复归动作(显示警告)
不运行复归动作(不显示警告)
AWS 虚拟 IP 监视资源
参数
更改前的默认值
更改后的默认值
备注
AWS 虚拟 IP 监视资源的属性
监视(固有)标签页
AWS CLI命令未得到应答时的动作
不运行复归动作(显示警告)
不运行复归动作(不显示警告)
AWS AZ 监视资源
参数
更改前的默认值
更改后的默认值
备注
AWS AZ 监视资源的属性
监视(固有)标签页
AWS CLI命令未得到应答时的动作
不运行复归动作(显示警告)
不运行复归动作(不显示警告)
AWS DNS 监视资源
参数
更改前的默认值
更改后的默认值
备注
AWS DNS 监视资源的属性
监视(固有)标签页
AWS CLI命令未得到应答时的动作
不运行复归动作(显示警告)
不运行复归动作(不显示警告)
内部版本 12.30
集群
参数
更改前的默认值
更改后的默认值
备注
集群属性
扩展标签页
最大再启动次数
0 [次]
3 [次]
重置最大再启动次数的时间
0 [分]
60 [分]
内部版本 13.00
应用程序资源
参数
更改前的默认值
更改后的默认值
备注
应用程序资源的属性
依赖关系标签页
遵循原有的依赖关系
On- 浮动IP资源- 虚拟IP资源- 虚拟主机名资源- 磁盘资源- 共享型镜像磁盘资源- 镜像磁盘资源- 打印机spool资源- 注册表同步资源- CIFS资源- AWS Elastic IP资源- AWS虚拟IP资源- AWS DNS资源- Azure探头端口资源- Azure DNS资源 On- 浮动IP资源- 虚拟IP资源- 虚拟主机名资源- 磁盘资源- 共享型镜像磁盘资源- 镜像磁盘资源- 打印机spool资源- 注册表同步资源- CIFS资源- AWS Elastic IP资源- AWS虚拟IP资源- AWS辅助IP资源- AWS DNS资源- Azure探头端口资源- Azure DNS资源注册表同步资源
参数
更改前的默认值
更改后的默认值
备注
注册表同步资源的属性
依赖关系标签页
遵循原有的依赖关系
On- CIFS资源- 磁盘资源- 共享型镜像磁盘资源- 浮动IP资源- 打印机spool资源- 镜像磁盘资源- 虚拟IP资源- 虚拟主机名资源- AWS Elastic IP资源- AWS虚拟IP资源- AWS DNS资源- Azure探头端口资源- Azure DNS资源 On- CIFS资源- 磁盘资源- 共享型镜像磁盘资源- 浮动IP资源- 打印机spool资源- 镜像磁盘资源- 虚拟IP资源- 虚拟主机名资源- AWS Elastic IP资源- AWS虚拟IP资源- AWS辅助IP资源- AWS DNS资源- Azure探头端口资源- Azure DNS资源脚本资源
参数
更改前的默认值
更改后的默认值
备注
脚本资源的属性
依赖关系标签页
遵循原有的依赖关系
On- CIFS资源- 磁盘资源- 共享型镜像磁盘资源- 浮动IP资源- 打印机spool资源- 镜像磁盘资源- 注册表同步资源- 虚拟IP资源- 虚拟主机名资源- AWS Elastic IP资源- AWS虚拟IP资源- AWS DNS资源- Azure探头端口资源- Azure DNS资源 On- CIFS资源- 磁盘资源- 共享型镜像磁盘资源- 浮动IP资源- 打印机spool资源- 镜像磁盘资源- 注册表同步资源- 虚拟IP资源- 虚拟主机名资源- AWS Elastic IP资源- AWS虚拟IP资源- AWS辅助IP资源- AWS DNS资源- Azure探头端口资源- Azure DNS资源服务资源
参数
更改前的默认值
更改后的默认值
备注
服务资源的属性
依赖关系标签页
遵循原有的依赖关系
On- CIFS资源- 磁盘资源- 共享型镜像磁盘资源- 浮动IP资源- 打印机spool资源- 镜像磁盘资源- 注册表同步资源- 虚拟IP资源- 虚拟主机名资源- AWS Elastic IP资源- AWS虚拟IP资源- AWS DNS资源- Azure探头端口资源- Azure DNS 资源 On- CIFS资源- 磁盘资源- 共享型镜像磁盘资源- 浮动IP资源- 打印机spool资源- 镜像磁盘资源- 注册表同步资源- 虚拟IP资源- 虚拟主机名资源- AWS Elastic IP资源- AWS虚拟IP资源- AWS辅助IP资源- AWS DNS资源- Azure探头端口资源- Azure DNS 资源虚拟计算机名资源
参数
更改前的默认值
更改后的默认值
备注
虚拟计算机名资源的属性
依赖关系标签页
遵循原有的依赖关系
On- 浮动IP资源- 虚拟IP资源- AWS Elastic IP资源- AWS虚拟IP资源- Azure探头端口资源 On- 浮动IP资源- 虚拟IP资源- AWS Elastic IP资源- AWS虚拟IP资源- AWS辅助IP资源- Azure探头端口资源CIFS资源
参数
更改前的默认值
更改后的默认值
备注
CIFS资源的属性
详细标签页
当恢复共享设置出错时视为组资源启动异常
On
Off
动态DNS资源
参数
更改前的默认值
更改后的默认值
备注
动态DNS资源的属性
依赖关系标签页
遵循原有的依赖关系
On- 浮动IP资源- 虚拟IP资源- AWS Elastic IP资源- AWS虚拟IP资源- Azure探头端口资源 On- 浮动IP资源- 虚拟IP资源- AWS Elastic IP资源- AWS虚拟IP资源- AWS辅助IP资源- Azure探头端口资源
6.6.5. 参数移动一览¶
在通过Cluster WebUI可以设定的参数中,各版本设定位置存在变更的参数如下表所示。
内部版本 13.00
更改前的设置位置
更改后的设置位置
[集群属性]-[扩展标签页]-[使用强制停止功能]
[集群属性]-[Fencing标签页]-[强制停止]-[类型]
[集群属性]-[扩展标签页]-[强制停止操作]
[BMC强制停止的属性]-[强制停止标签页]-[强制停止操作]
[集群属性]-[扩展标签页]-[强制停止超时]
[BMC强制停止的属性]-[强制停止标签页]-[强制停止超时]
[集群属性]-[扩展标签页]-[虚拟机强制停止设定]-[操作]
[vCenter强制停止的属性]-[强制停止标签页]-[强制停止操作]
[集群属性]-[扩展标签页]-[虚拟机强制停止设定]-[超时]
[vCenter强制停止的属性]-[强制停止标签页]-[强制停止超时]
[集群属性]-[扩展标签页]-[虚拟机强制停止设定]-[主机名]
[vCenter强制停止的属性]-[vCenter标签页]-[主机名]
[集群属性]-[扩展标签页]-[虚拟机强制停止设定]-[用户名]
[vCenter强制停止的属性]-[vCenter标签页]-[用户名]
[集群属性]-[扩展标签页]-[虚拟机强制停止设定]-[密码]
[vCenter强制停止的属性]-[vCenter标签页]-[密码]
[集群属性]-[扩展标签页]-[虚拟机强制停止设定]-[Perl路径]
[vCenter强制停止的属性]-[vCenter标签页]-[Perl路径]
[服务器属性]-[BMC标签页]-[IP地址]
[BMC强制停止的属性]-[服务器列表标签页]-[BMC输入]-[IP地址]
[服务器属性]-[BMC标签页]-[用户名]
[BMC强制停止的属性]-[服务器列表标签页]-[BMC输入]-[用户名]
[服务器属性]-[BMC标签页]-[密码]
[BMC强制停止的属性]-[服务器列表标签页]-[BMC输入]-[密码]
6.7. 与旧版的兼容性¶
6.7.1. 与EXPRESSCLUSTER X 1.0/2.0/2.1/3.0/3.1/3.2/3.3/4.0/4.1/4.2/4.3的兼容性¶
6.7.2. 关于脚本文件¶
需要移动在EXPRESSCLUSTER Ver8.0以下版本所使用的脚本文件时,请将环境变量名从最初的 "ARMS_" 置换为 "CLP_"。
例) IF "%ARMS_EVENT%" == "START" GOTO NORMAL
↓
IF "%CLP_EVENT%" == "START" GOTO NORMAL
7. 词汇表¶
- 心跳线
- 集群服务器之间的通信路径。(相关) 私网,公网
- 虚拟IP地址
构筑远程集群时使用的资源(IP地址)。
- 管理客户端
已启动Cluster WebUI的机器。
- 启动属性
- 集群启动时,决定是自动还是手动启动失效切换组的失效切换组的属性。可在管理客户端进行设置。
- 共享磁盘
可从多台服务器访问的磁盘。
- 共享磁盘型集群
使用共享磁盘的集群系统。
- 切换分区
- 连接到多台计算机的,可切换使用的磁盘分区。(相关)磁盘心跳用分区
- 集群系统
通过LAN等连接多台计算机,并作为1个系统进行操作的系统形态。
- 集群关机
关闭整个集群系统(配置集群的所有服务器)。
- 集群分区
- 镜像磁盘中设定的分区。用于管理镜像磁盘。相关(磁盘心跳用分区)
- 运行服务器
- 对某一业务集合来说,正在运行业务的服务器。(相关) 待机服务器
- 服务器组
连接在同一网络或共享磁盘设备上的服务器的集合
- 从服务器 (服务器)
- 一般使用时,失效切换组进行失效切换的目标服务器。(相关) 主服务器
- 待机服务器
- 非运行服务器。(相关) 运行服务器
- 磁盘心跳用分区
共享磁盘型集群中用于心跳通信的分区。
- 数据分区
- 能像共享磁盘的切换分区一样使用的本地磁盘镜像磁盘中设定的数据用的分区。(相关)集群分区
- 网络分区症状
- 指所有的心跳中断。(相关) 心跳线,心跳
- 节点
在集群系统中,指配置集群的服务器。在网络用语中,指可以传输,接收和处理信号的,包括计算机和路由器在内的设备。
- 心跳
- 指为了监视服务器而在服务器之间定期进行相互间的通信。(相关) 心跳线,网络分区
- 公网
- 服务器 / 客户端之间的通信路径。(相关) 心跳线,私网
- 失效切换
指由于查出故障,待机服务器继承运行服务器上的业务应用程序。
- 故障恢复
将某台服务器上已启动的业务应用程序通过失效切换交接给其他服务器后,再把业务返回到已启动业务应用程序的服务器。
- 失效切换组
执行业务所需的集群资源,属性的集合。
- 失效切换移动组
指用户故意将业务应用程序从运行服务器移动到待机服务器。
- 失效切换策略
可进行失效切换的服务器列表及其列表中具有失效切换优先顺序的属性。
- 私网
- 指仅连接配置集群的服务器的LAN。(相关) 心跳线,公网
- 主服务器 (服务器)
- 失效切换组中的作为基准的主服务器。(相关) 从服务器 (服务器)
- 浮动IP地址
- 发生了失效切换时,可忽视客户端的应用程序所连接服务器发生切换而使用的IP地址。在与集群服务器所属的LAN相同的网络地址中,分配其他未使用的主机地址。
- 主服务器(Master Server)
Cluster WebUI的[服务器共通属性]-[主服务器]中显示在最前面的服务器。
- 镜像磁盘连接
数据镜像磁盘型集群中用于进行数据镜像的LAN。可通过和内部主网的通用进行设定。
- 镜像磁盘系统
- 不使用共享磁盘的集群系统。在服务器之间镜像服务器的本地磁盘。