1. 前言

1.1. 读者对象和用途

《EXPRESSCLUSTER X开始指南》以首次使用EXPRESSCLUSTER的用户为对象,介绍了EXPRESSCLUSTER的产品概要,集群系统导入的过程,其他手册的使用方法等。同时还介绍了最新的运行环境信息以及限制事项等。

1.2. 本手册的构成

1.3. EXPRESSCLUSTER手册体系

EXPRESSCLUSTER 的手册分为以下 5 类。各指南的标题和用途如下所示。

《EXPRESSCLUSTER X 开始指南》(Getting Started Guide)

本手册的读者对象为使用EXPRESSCLUSTER的用户,对产品概要,运行环境,升级信息以及现有的问题等进行了说明。

EXPRESSCLUSTER X 安装&设置指南》(Install and Configuration Guide)

本手册的读者对象为导入使用EXPRESSCLUSTER的集群系统的系统工程师以及导入集群系统后进行维护和操作的系统管理员。对导入使用了EXPRESSCLUSTER的集群系统后到开始操作前的必备事项进行说明。本手册按照实际导入集群系统时的顺序,对使用EXPRESSCLUSTER的集群系统的设计方法,EXPRESSCLUSTER的安装设置步骤,设置后的确认以及开始操作前的测试方法进行说明。

EXPRESSCLUSTER X 参考指南》(Reference Guide)

本手册的读者对象为管理员以及导入使用了EXPRESSCLUSTER的集群系统的系统工程师。手册说明了EXPRESSCLUSTER 的操作步骤,各模块的功能以及疑难解答信息等,是对《安装&设置指南》的补充。

EXPRESSCLUSTER X 维护指南》(Maintenance Guide)

本手册的读者对象为管理员以及导入使用EXPRESSCLUSTER的集群系统后进行维护和操作的系统管理员,对EXPRESSCLUSTER的维护的相关信息进行了说明。

EXPRESSCLUSTER X 硬件整合指南》 (Hardware Feature Guide)

本手册的读者对象为管理员以及导入使用EXPRESSCLUSTER的集群系统的系统工程师,对特定的硬件以及与其整合的功能进行说明。是对《安装&设置指南》的补充。

1.4. 本手册的标记规则

在本手册中,需要注意的事项,重要的事项以及相关信息等用如下方法标记。

注解

表示虽然比较重要,但是并不会引起数据损失或系统以及机器的损伤的信息。

重要

表示为避免数据损失和系统,机器损坏所必需的信息。

参见

表示参考信息的位置。

另外在本手册中使用以下标记法。

标记

使用方法

[ ]方括号
在命令名的前后,
显示在画面中的字句 (对话框,菜单等) 的前后。
点击[开始]。
[属性]对话框
命令行中的[ ]方括号
表示括号内的值可以不予指定
(可省)。
clpstat -s[-h host_name]

#

表示Linux用户正以root身份登录的提示符。

# clpcl  -s -a

等宽字体
路径名,命令行,系统输出(消息,提示等),目录,文件名,函数,参数。
/Linux/5.1/cn/server/
粗体
表示用户在命令提示符后实际输入的值。
输入以下值。
clpcl -s -a
斜体
用户将其替换为有效值后输入的项目。
clpstat -s[-h host_name]

EXPRESSCLUSTER X 在本手册的图中,为了表示EXPRESSCLUSTER,使用该图标。

1.5. 最新信息来源

关于最新的产品信息,请参考以下Web站点。

https://www.nec.com/global/prod/expresscluster/

2. 何谓集群系统

本章介绍集群系统的概要。

本章介绍以下内容。

2.1. 集群系统的概要

在今天的计算机社会中,不中断地持续提供服务是成功的关键所在。例如仅仅由于1台机器因故障或超负荷运行而宕机,从而造成向客户提供的服务全面中断。这样不仅会造成不可估量的损失,还可执行失去客户的信赖。

而集群系统就是避免这种事态发生的系统。导入集群系统后,或者能够将万一发生系统运行停止时的停止时间(DownTime)缩到最短,或者能够通过分散负载的方法回避系统宕机。

所谓集群就是"群""团"的意思,顾名思义,集群系统就是"将多个计算机集合成一个群(或多个群),从而提高可靠性和处理性能的系统"。集群系统有很多种,分为以下3类。其中,EXPRESSCLUSTER属于高可用性集群。

  • HA (High Availability) 集群

    指在正常时将其中一方用作运行服务器,提供业务,运行服务器发生故障时将业务交接给待机服务器的集群形态。该集群主要目的是实现高可用性,可以交接数据。该集群包含共享磁盘型,镜像磁盘型,远程集群型。

  • 负载均衡集群

    指能够将客户端发送的请求按照合适的负载均衡原则,分配给各负载均衡主机的集群形态。该集群的主要目的实现高扩展性,一般情况不能进行数据交接。该集群包含负载均衡集群,并列数据库集群。

  • HPC(High Performance Computing)集群

    使用所有节点的CPU,实现单一业务的集群。该集群的主要目的是实现高性能,应用范围不大。
    另外,该集群是HPC的一种,将更广泛范围内的节点和计算机集群捆绑在一起的网格运算技术也成为近年来关注的焦点。

2.2. HA(High Availability)集群

为了提高系统的可用性,普遍认为将系统部件冗余化,排除Single Point of Failure是至关重要的。所谓Single Point of Failure是指因为计算机的配置要素(硬件)只有一个,在这个部件上发生故障时则会造成业务中断这一弱点。HA集群则是通过使用多台服务器使系统冗余化,从而将系统的中断时间限制在最小,提高业务可用性(availability)的集群系统。

绝对不容许系统中断的骨干业务系统自不必说,在系统中断会给业务带来巨大影响的系统中也需要导入HA集群。

HA集群可以分为共享磁盘型和数据镜像型。下面分别介绍两种类型。

2.2.1. 共享磁盘型

在集群系统中,必须在服务器之间进行数据的交接。将这些数据放在共享磁盘上,多个服务器共同使用该磁盘的系统形态称为共享磁盘型。

连接共享磁盘的2台服务器

图 2.1 HA集群配置图(共享磁盘型)

  • 由于需要共享磁盘而价格高

  • 适用于处理大规模数据的系统

运行业务应用程序的服务器(运行服务器)发生故障时,集群系统能够查出故障,自动启动待机服务器上的业务应用程序,使业务继续进行。该功能称为失效切换。集群系统进行交接的业务由磁盘,IP地址,应用程序等资源配置。

在未进行集群化的系统中,如果在其他服务器上重新启动应用程序,客户端必须重新连接不同的IP地址。但是在多个集群系统中,会以业务为单位分配虚拟IP地址。因此,客户端不必识别现在运行的服务器是运行服务器还是待机服务器,可以完全像连接在同一台服务器上一样继续执行业务。

交接数据时必须检查文件系统的一致性。一般使用检查命令(如在Linux上会使用fsck)检查文件系统的一致性,但是文件系统越大,检查所花的时间越长,检查期间就会造成业务中断。在该系统中为了解决该问题,通过日志文件系统缩短失效切换时间。

业务应用程序需要对交接后的数据进行逻辑检查。如果是数据库,则需要进行回滚或前滚处理。通过该方法,客户端只需要重新执行未提交的SQL文,就可以使业务不中断运行。

恢复故障服务器时,只要将查出故障的服务器进行物理分离,修理之后,重新连接到集群系统上,就可以作为待机服务器恢复了。在重视业务持续性的实际运用过程中,使用这样的恢复方式就足够了。

4个场景,一般使用,发生故障,服务器恢复,业务移动

图 2.2 发生故障到服务器恢复的流程

  1. 一般使用

  2. 发生故障

  3. 服务器恢复

  4. 业务移动

如果失效切换到的服务器配置不够,担心双向待机负荷过大,希望在原来的服务器上运行业务时,可以进行故障恢复,重新在原来的服务器上运行业务。

如 "图 2.3 HA集群的运行形态" 所示,只有一个业务,在待机服务器上没有运行业务的待机形态称为单向待机。

连接共享磁盘的2台服务器

图 2.3 HA集群的运行形态(单向待机)

如 "图 2.4 HA集群的运行形态(双向待机) " 所示,有两个业务以上,各种服务器有运行系统和待机系统两种形态,称为双向待机。
Server 1是Application A的运行系统,同时又是Application B的待机系统。
Server 2是Application B的运行系统,同时又是Application A的待机系统。
连接共享磁盘的2台服务器

图 2.4 HA集群的运行形态(双向待机)

2.2.2. 数据镜像型

之前介绍的共享磁盘型适用于大规模系统,但是由于共享磁盘大多很昂贵,所以搭建系统的成本也就随之增加。不使用共享磁盘,在各服务器之间对各服务器上的磁盘进行镜像,通过该方法用低廉的价格实现相同功能的集群系统称为数据镜像型。

连接各种磁盘的2台服务器

图 2.5 HA集群配置图(数据镜像型)

  • 由于不需要共享磁盘而价格便宜

  • 适用于由于镜像而导致数据量不大的系统

但是,因为需要在服务器之间进行数据的镜像,因此不适用于需要大量数据的大规模系统。

应用程序发出write请求时,数据镜像引擎会将数据写入本地磁盘的同时,通过心跳线将write请求同时分发给待机服务器。所谓心跳线是指连接各服务器的网络,在集群系统中需要使用心跳线进行服务器的生存状态监视。在数据镜像类型中,心跳线除了用于生存状态监视,还用于数据传输。待机服务器数据镜像引擎将收到的数据写入待机服务器的本地磁盘,从而实现运行服务器和待机服务器间的数据同步。

应用程序发出Read请求时,则只需单纯从运行服务器的磁盘中读取数据即可。

连接各种磁盘的2台服务器

图 2.6 数据镜像的结构

作为数据镜像的一个应用示例,可以使用快照备份。数据镜像类型的集群系统由于同时在2处保存共享数据,因此只需将待机服务器从集群中分离开,无需备份,就可以将磁盘作为快照备份保存。

失效切换的机制和问题

至此,我们一口气介绍了包含失效切换集群,负载均衡集群,HPC(High Performance Computing)集群等多种多样的集群系统。我们了解了失效切换集群称为HA(High Availability)集群,其目的是通过将服务器多重化,发生故障时将运行的业务转移到其他服务器上,从而提高业务的可用性(Availability)。下面介绍集群的结构和问题。

2.3. 查出故障的原理

集群软件一旦查出影响业务继续运行的故障,就会进行业务的切换(失效切换)。在介绍失效切换处理的详细内容之前,先简单了解一下集群软件是如何检测故障的。

心跳和服务器的故障检测

在集群系统中,应该查出的最基本故障是配置集群的各服务器均停止运行。服务器故障中,包括电源故障,内存错误等硬件故障和OS的panic。要查出该故障,则需要在服务器生存状态监视中使用心跳。

心跳也可以是确认ping应答这样的简单的生存状态监视,但是使用集群软件还能够互相传送本服务器的状态信息。集群软件进行心跳信息的收发信息,没有心跳应答时则认为该服务器发生故障,开始进行失效切换处理。但是考虑到服务器也可执行是因为负载较高,收发心跳信息有延迟,在做出服务器故障判断之前留有一定的缓冲时间。因此,实际发生故障的时间和集群软件查出故障的时间之间有一定时滞。

资源的故障检测

造成业务中断的原因不仅仅是配置集群服务器全部中断,还有可执行是因为业务应用程序使用的磁盘设备或NIC 发生故障,亦或是业务应用程序本身发生故障造成业务中断。为了提高可用性,这些资源故障同样需要查出来并进行失效切换。

作为检测资源故障的方法,如果监视的对象资源是物理设备,则采取实际访问的方法。在应用程序的监视中,除了应用程序进程自身的生存状态监视,还考虑在不影响业务的范围内使用服务端口等手段。

2.3.1. 共享磁盘型的各种问题

在共享磁盘型的失效切换集群中,多个服务器上物理共享一个磁盘设备。一般情况下,文件系统会通过在服务器中保持数据的缓存,发挥出超过磁盘设备物理I/O性能界限的文件I/O性能。

试想一下,如果某个文件系统同时被多个服务器mount访问结果会怎样?

一般的文件系统是不考虑其他服务器磁盘上数据的更新的,所以会造成缓存和磁盘上数据的矛盾,最终导致数据被破坏。为了防止下面介绍的网络分区解决资源带来的多个服务器同时mount文件系统的问题,在失效切换集群系统中使用了磁盘设备的互斥控制。

连接共享磁盘的2台服务器

图 2.7 共享磁盘类型的集群配置

2.3.2. 网络分区症状(Split-brain-syndrome)

如果断开所有各服务器之间连接的心跳线,通过心跳进行的生存状态监视就会互相查出服务器宕机,开始执行失效切换处理。结果就会造成多个服务器上同时mount文件系统,引起数据损坏。在失效切换集群系统中,发生故障时必须进行恰当的处理,这是能够理解的。

相互连接的网络被断开的2台服务器

图 2.8 网络分区症状

这样的问题称为"网络分区症状"或Split-brain-syndrome。现在就要考虑在失效切换集群中,如果所有的心跳线都被切断,该如何实现共享磁盘设备之间的互斥控制。

2.4. 集群资源的交接

集群管理的资源中有磁盘,IP地址,应用程序等。下面介绍失效切换集群系统中用于交接这些集群资源的功能。

2.4.1. 数据的交接

在集群系统中,服务器之间交接的数据存放在共享磁盘设备的分区中。即,所谓的交接数据无非就是将保存有应用程序所使用的文件的文件系统在正常的服务器上重新mount。共享磁盘设备与交接对象服务器物理连接,集群软件需要做的就是文件系统的mount。

连接共享磁盘的2台服务器

图 2.9 数据的交接

虽然这个过程看似简单,但是在设计构建集群系统时还是有很多需要注意的地方。

首先是文件系统的恢复时间问题。要交接的文件系统在发生故障之前可执行正在其他服务器上使用,或者正在更新。所以交接的文件系统一般是会有些垃圾,需要检查文件系统的一致性。文件系统越大,则一致性检查所需的时间就越长,有时甚至需要花几个小时,而这个时间将直接转嫁到失效切换时间(业务的交接时间)中,成为造成系统可用性下降的原因。

还有一个就是写入保证的问题。应用程序将重要的数据写入文件时,要利用同步写入等方法保证在磁盘中也写入该数据。因此,应用程序认为已经写入的数据在失效切换后希望该数据也能够被交接。例如,邮件服务器已经将收到的邮件写入缓冲处理区时,会向客户端或者其他邮件服务器发出收信结束的应答。这样,即使服务器发生故障,在服务器重启后,能够重新传输被缓冲处理的邮件。在集群系统中也一样,必须保证一方服务器写入缓冲处理区的邮件在失效切换后另一个服务器能够读取。

2.4.2. 应用程序的交接

集群软件在业务交接的最后工作是交接应用程序。与容错计算机(FTC)不同,在一般的失效切换集群中,不交接包含正在执行应用程序的内存内容的进程状态。即,在发生故障的服务器上运行的应用程序只能通过在正常的服务器上重新执行来完成应用程序的交接。

例如,交接数据库管理系统(DBMS)的实例时,将在启动实例时自动进行数据库的恢复(回滚/前滚等)。数据库恢复所需时间可以通过设置DBMS的Check Point Interval等进行一定的控制,但是一般都需要几分钟。

很多应用程序只要重新执行就可以重新开始运行业务,但是也有些应用程序在发生故障后需要一定的业务恢复步骤。对于这样的应用程序,集群软件将业务恢复步骤写在脚本中,在重启时将不启动应用程序,而是启动该脚本。在脚本中,记载了脚本的执行原因,执行服务器等信息,需要时还会记载尚未更新完毕的文件的整理等恢复步骤。

2.4.3. 失效切换总结

至此,大家都已经了解了以下集群软件的运行。

  1. 查出故障(心跳/资源监视)

  2. Fencing (网络分区状态的解决(NP解决) 以及 切断发生故障的服务器)

  3. 数据的交接

  4. IP地址的交接

  5. 应用程序的交接

显示宕机时间内的时间经过以及状态转换的图

图 2.10 失效切换时间图

集群软件在实现失效切换时,会在短时间内逐一切实执行这些处理,从而实现了高可用性(High Availability)。

2.5. Single Point of Failure的排除

在构建高可用性系统时,把握所追求的或者说目标的可用性级别是很重要的。即,在设计系统时,必须考虑到对于可执行阻碍系统运行的各种故障应该采取的措施,如通过冗余结构保证系统持续运行,或者能够在短时间恢复到运行状态等,以及这些措施的性价比等。

Single Point of Failure(SPOF)之前已经介绍过,是指可执行造成系统中断的部位。在集群系统中,实现了服务器的多重化,能够排除系统的SPOF,但是共享磁盘等在服务器之间共享的部分可执行造成SPOF。设计系统时将这些共享部分多重化或者排除是构建高可用性系统的关键点。

集群系统虽然提高了可用性,但是失效切换时,还是需要几分钟的系统切换时间的。因此,失效切换时间也是造成可用性下降的原因之一。但是因为在高可用性系统中,ECC内存或冗余电源技术对于提高单体服务器的可用性原本就是很重要的,在本文中我们暂且不谈这些提高单体服务器可用性的技术,在集群系统中,我们挖掘可执行造成SPOF的以下3点原因,看看对此能够采取什么对策。

  • 共享磁盘

  • 共享磁盘的访问路径

  • LAN

2.5.1. 共享磁盘

一般共享磁盘通过磁盘阵列组建RAID,因此磁盘的成对驱动器是不会造成SPOF的。但是由于RAID控制器内置,控制器可执行会发生问题。很多集群系统中所使用的共享磁盘可以实现控制器二重化。

为了发挥二重化RAID控制器优势,一般需要进行共享磁盘访问路径的二重化。如果是二重化的多个控制器能够同时访问同一逻辑磁盘组(LUN)的共享磁盘,可以在每个控制器上分别连接一台服务器,发生控制器故障时可以通过节点间的失效切换实现高可用性。

内置一个RAID Controller的共享磁盘和与之相连的2台服务器

图 2.11 RAID控制器和访问路径为SPOF的示例

内置两个RAID Controller的共享磁盘和与之相连的2台服务器

图 2.12 RAID控制器和访问路径二重化的示例

另外,在不使用共享磁盘的镜像磁盘型的失效切换集群中,所有的数据都与其他服务器的磁盘镜像化,能够实现没有SPOF的理想系统配置。但是,虽然以下几点不算作缺点,但也需要考虑。

  • 通过网络进行数据镜像化对磁盘I/O性能(特别是write性能)的影响

  • 服务器故障后恢复时,镜像重新同步过程中对系统性能的影响(镜像复制在后台执行)

  • 镜像重新同步的时间(在镜像重新同步完成之前不会嵌入到集群中)

即,在数据引用多,数据容量不大的系统中,使用镜像磁盘型的失效切换集群也可以提高可用性。

2.5.2. 共享磁盘的访问路径

在普通的共享磁盘型集群结构中,共享磁盘的访问路径通过配置集群的各服务器共享。以SCSI为例,就是在一条SCSI路径上有2台服务器与共享磁盘连接。因此,共享磁盘访问路径的故障可执行是造成系统整体中断的原因。

作为其对策,可以考虑准备多条共享磁盘的访问路径,配置冗余结构,而从应用程序来看,共享磁盘的访问路径仍然只有1条。实现这一技术的设备驱动程序称为路径失效切换驱动程序(路径失效切换驱动程序多由共享磁盘供应商开发发布,Linux版的路径失效切换驱动程序好像还未开发完毕,尚未发布。现阶段,如前所述,可以通过给每个共享磁盘的阵列控制器连接一个服务器,分割共享磁盘的访问路径,通过此方法可以确保Linux集群的可用性)。

具有到共享磁盘的二重化访问路径的2台服务器

图 2.13 路径失效切换驱动程序

2.5.3. LAN

不仅仅是集群系统,所有需要在网络上执行某种服务的系统,LAN故障都是阻碍系统运行的重要原因。在集群系统中,如果配置恰当,可以在NIC发生故障时在节点之间进行失效切换,从而提高可用性,但是集群系统外的网络设备如果发生故障仍然会阻碍系统的运行。

2台服务器和通过路由器与之相连的PC

图 2.14 LAN故障的示例(NIC)

图中所示的情况,即使服务器上的NIC发生故障,也可以通过失效切换,继续从PC访问服务器上的服务。

2台服务器和通过路由器与之相连的PC

图 2.15 LAN故障的示例(Router)

该图所示的情况,如果路由器发生故障,则无法继续从PC访问服务器上的服务(路由器为SPOF)。

在这种情况下,可以通过LAN的冗余化提高系统的可用性。在集群系统中,也可以直接使用单体服务器上的技术提高LAN的可用性。如,一种原始方法是准备好备用的网络设备,先不打开电源,发生故障时手动切换,或者冗余配置高性能的网络设备,通过将网络路径多重化实现路径的自动切换等方法。另外,也可以考虑使用类似于因特尔公司ANS驱动程序的支持NIC冗余结构驱动程序。

负载均衡设备(Load Balance Appliance)和防火墙服务器(Firewall Appliance)都是容易发生SPOF的网络设备。这些可以通过标配或可选的软件,使其能够搭建失效切换结构。同时因为这些设备大多在系统整体中的位置非常重要,所以一般必须配置冗余结构。

2.6. 支持可用性的操作

2.6.1. 操作前测试

系统问题大多起因于配置错误或操作维护。从这一点来考虑,在实现高可用性系统时,操作前的测试和完善故障恢复手册对系统的稳定运行非常重要。作为测试观点,结合实际操作,进行以下操作可以提高可用性。

  • 筛选故障发生位置,讨论对策,进行模拟故障测试验证

  • 进行假定集群生存周期的测试,验证降级运行时的性能

  • 以这些测试为基础,完善系统操作,故障恢复手册

简化集群系统的设计,能够简化上述的验证操作和手册,提高系统的可用性。

2.6.2. 故障监视

虽然我们已经做了上述的努力,可执行还是会发生故障。系统长期持续运行后,必然会发生故障,其原因可执行是硬件老化,软件的内存泄漏,或者操作时超过系统当初设计的承受能力等。因此,在提高硬件,软件可用性的同时,需要进一步监视故障,在发生故障时采取恰当的处理,这一点非常重要。例如,万一服务器发生故障,可以通过搭建集群系统,只需要几分钟的切换时间就可以使系统继续运行,但是如果置之不管,系统失去冗余性,发生下一个故障时集群系统就没有任何意义了。

因此,发生故障时,系统管理员必须要采取措施防范下一故障的发生,排除新发生的SPOF。在支持系统管理业务上,远程维护,故障通知等功能非常重要。勿庸置疑,Linux在远程维护方面非常优秀,故障通告的机制也在逐渐完备。

以上介绍了使用集群系统实现高可用性时所需的周边技术以及其他的一些要点。简单总结一下,就是要注意以下几点:

  • 排除或掌握Single Point of Failure

  • 设计简洁的抵抗故障能力强的系统,在操作前测试的基础上完善操作故障恢复步骤手册

  • 及早查出发生的故障并进行恰当的处理

3. EXPRESSCLUSTER的使用方法

本章介绍EXPRESSCLUSTER各个组件的说明,从集群系统的设计到运行步骤之间的流程。

本章将介绍以下内容。

3.1. 何谓EXPRESSCLUSTER

现在大家已经了解了集群,下面开始介绍EXPRESSCLUSTER。所谓EXPRESSCLUSTER 就是通过冗余化(集群化)的系统结构,运行服务器发生故障时,自动用待机服务器交接业务的软件,该软件实现了系统可用性和扩展性的飞越性的提高。

3.2. EXPRESSCLUSTER的产品结构

EXPRESSCLUSTER大致由2个模块组成。

  • EXPRESSCLUSTER Server
    EXPRESSCLUSTER主体,包含所有服务器的高可用性功能。还包含Cluster WebUI的服务器一端的功能。
  • Cluster WebUI
    创建EXPRESSCLUSTER的配置信息或者进行操作管理的管理工具。使用Web浏览器作为用户接口。实体嵌入在EXPRESSCLUSTER Server中,通过管理终端上的Web浏览器进行操作,据此与EXPRESSCLUSTER Server主体区分。

3.3. EXPRESSCLUSTER的软件配置

EXPRESSCLUSTER的软件配置如下图所示。在Linux服务器上安装"EXPRESSCLUSTER Server(EXPRESSCLUSTER主体)"。Cluster WebUI的主体功能包括在EXPRESSCLUSTER Server内,因此无需另行安装。除了通过管理PC上的Web浏览器以外,Cluster WebUI还能通过构成集群的各服务器上的Web浏览器进行操作。

  1. EXPRESSCLUSTER Server

  2. Cluster WebUI

2台服务器和Management PC

图 3.1 EXPRESSCLUSTER的软件配置

3.3.1. EXPRESSCLUSTER的故障监视原理

通过EXPRESSCLUSTER可以进行服务器监视,业务监视,内部监视等3种监视,从而能够迅速准确查出故障。下面详细介绍各种监视。

3.3.2. 何谓服务器监视

服务器监视是失效切换型集群系统中最基本的监视功能,用于监视配置集群的服务器是否中断。
EXPRESSCLUSTER是为了服务器监视,定期在各服务器之间进行生存确认。该生存确认称为心跳确认。心跳确认通过以下通信线路进行。
  • 私网
    在失效切换型集群专用的通信线路上,使用普通的Ethernet NIC。除了确认心跳,还可以用于服务器之间的信息交换。
    连接共享磁盘的2台服务器

    图 3.2 LAN心跳/内核模式LAN心跳(Primary interconnect)

  • 公网
    作为备用心跳线,使用与客户端进行通信的通信线路。只要是能够使用TCP/IP的NIC即可。除了确认心跳,还可以用于服务器之间的信息交换。
    连接共享磁盘的2台服务器

    图 3.3 LAN心跳/内核模式LAN心跳(Secondary interconnect)

  • 共享磁盘
    在连接到配置失效切换型集群的所有服务器上的磁盘中,创建EXPRESSCLUSTER专用分区(Cluster分区),在Cluster分区上进行心跳确认。
    连接共享磁盘的2台服务器

    图 3.4 磁盘心跳

  • Witness
    构成失效切换型集群的各服务器与运行Witness 服务器服务的外部服务器(Witness 服务器)间进行通信,通过与保持Witness 服务器的其他服务器间的通信信息确认生存。
    连接共享磁盘的2台服务器

    图 3.5 Witness心跳

使用这些通信路径能够大幅度提高服务器间通信的可靠性,防止网络分区状态的发生。

注解

网络分区状态:集群服务器之间所有的通信线路均发生故障,造成网络性中断的状态。在不能对应网络分区状态的集群系统中,不能区分通信线路故障和服务器故障,多个服务器同时访问同一资源,就可执行造成数据损坏。

3.3.3. 何谓业务监视

业务监视用于监视业务应用程序自身或者造成陷入无法执行业务状态的故障原因。

  • 应用程序的生存状态监视
    能够使用启动资源(称为EXEC资源)启动应用程序,通过监视资源(称为PID监视资源)定期监视进程的生存。在由于业务应用程序异常退出造成业务中断时有效。

    注解

    • 如果EXPRESSCLUSTER直接启动的应用程序为启动,结束监视对象的常驻进程的应用程序,则无法查出常驻进程的异常。

    • 无法查出应用程序内部状态的异常(应用程序的停止,结果异常)。

  • 资源的监视
    通过EXPRESSCLUSTER的监视资源能够监视集群资源(磁盘分区,IP地址等)和公网的状态。在由于必须资源异常造成业务中断时有效。

3.3.4. 何谓内部监视

内部监视是EXPRESSCLUSTER内部模块之间的相互监视,用于监视EXPRESSCLUSTER的各监视功能是否正常运行。
EXPRESSCLUSTER内部进行以下监视。
  • EXPRESSCLUSTER进程的生存状态监视

3.3.5. 可监视的故障和无法监视的故障

EXPRESSCLUSTER 中有可监视的故障和无法监视的故障。在构建集群系统时,需要先了解哪些故障能够监视,而哪些不能监视。

3.3.6. 通过服务器监视可以查出的故障和无法查出的故障

监视条件:故障服务器的心跳中断

  • 可监视的故障示例

    • 硬件故障(OS不能继续运行)

    • panic

  • 无法监视的故障示例

    • OS局部功能故障(仅鼠标,键盘等出现故障等)

3.3.7. 通过业务监视可以查出的故障和无法查出的故障

监视条件:故障应用程序的消失,持续的资源异常,与某网络设备通信的路径中断

  • 可监视故障示例

    • 应用程序的异常退出

    • 共享磁盘访问故障(HBA [#s1]__的故障等)

    • 公网NIC故障

  • 无法监视故障示例

  • 应用程序的停止/结果异常
    EXPRESSCLUSTER虽无法直接监视应用程序的停止/结果异常,但是可以监视应用程序,在查出异常时能够创建退出自身的程序,通过EXEC资源启动该程序,利用PID监视资源进行监视,从而使其发生失效切换。
1

Host Bus Adapter的缩写,不是指共有磁盘一端的适配器,而是指服务器主机一端的适配器。

3.4. Fencing 功能

EXPRESSCLUSTER 具有“网络分区解决”和“强制停止”作为Fencing机制。

3.4.1. 网络分区解决

所谓EXPRESSCLUSTER,是指从某一服务器查出心跳中断,并对其原因进行判断:是服务器本身的故障,还是由于网络分区状态引起的故障。如果判断为服务器故障,就会执行失效切换(在正常的服务器上启动各种资源,启动业务应用程序),如果判断为网络分区状态引起的故障,因为保护数据比继续业务更重要,就会执行紧急关机等处理。
网络分区解决方式有以下方法。
  • ping方式

  • http方式

参见

关于网络分区解决方法设置的详细内容,请参考《参考指南》的 "网络分区解决资源的详细信息" 。

3.4.2. 强制停止

当检测到服务器故障时,正常的服务器可以向发生故障的服务器发出停止请求。通过将有故障的服务器迁移到停止状态,排除了业务应用同时在多台服务器上启动的可能性。强制停止的处理在失效切换开始前执行。

参见

关于设置强制停止的详细内容, 请参考《参考指南》的"强制停止资源的详细信息"。

3.5. 失效切换的原理

EXPRESSCLUSTER查出故障时,在开始失效切换之前会判断查出的故障是服务器的故障还是网络分区状态。之后会在正常的服务器上启动各种资源,启动业务应用程序,执行失效切换。

此时,同时移动的资源集合称为失效切换组。从使用者角度来看,可以把失效切换组看作虚拟的计算机。

注解

在集群系统中,通过在正常的节点上重启应用程序来执行失效切换。因此,在应用程序的内存上保存的执行状态不能进行失效切换。

从发生故障到失效切换结束需要几分钟时间。下面是时间图。

显示自发生故障以来的时间经过和状态转换的图

图 3.6 失效切换的时间图

  1. 心跳确认超时

    • 正在执行业务的服务器发生故障后,到待机服务器查出该故障之间的时间。

    • 可以根据业务的负载调整集群属性的设置值。
      (出厂设置是90秒。)
  2. Fencing

    • 为了执行网络分区解决和强制停止的时间。

    • 网络分区解决,
      是为了确认对方服务器的心跳的中断(心跳超时)是由于网络分区状态引起还是实际上对方服务器发生故障引起的所需时间。
      通常是瞬间完成确认。
    • 强制停止是,对判断发生了故障的对方服务器发出停止请求。
      所需时间根据集群的运行环境(物理环境、虚拟环境、Cloud等)不同而有所不同。
  3. 启动各种资源

    • 启动业务所需资源的时间。

    • 文件系统恢复,磁盘内数据交接,IP地址交接等。

    • 一般配置情况下,启动需要几秒,失效切换组中登录的资源种类数量不同,所需时间会相应变化。
      (具体请参考《安装&设置指南》。)
  4. 开始脚本执行时间

    • 数据库的回滚/前滚等数据恢复时间和业务中使用的应用程序的启动时间。

    • 通过调整Check Point Interval时间,可以预测回滚/前滚的时间。详细内容请参考各软件产品的文档。

3.5.1. 失效切换资源

EXPRESSCLUSTER能够作为失效切换对象的主要资源如下。

  • 切换分区(磁盘资源等)

    • 保存业务应用程序应该交接的数据的磁盘分区。

  • 浮动IP地址(浮动IP资源)

    • 使用浮动IP地址连接业务,这样客户端可以不必考虑失效切换带来的业务执行位置(服务器)的变化。

    • 浮动IP地址通过向公网适配器动态分配IP地址和发送ARP包来实现。大多数网络设备都能通过浮动IP地址连接。

  • 脚本(EXEC资源)

    • 在EXPRESSCLUSTER中,从脚本启动业务应用程序。

    • 通过共享磁盘交接的文件虽然作为文件系统是正常的,但是作为数据可执行是不完整的。在脚本中,除了启动应用程序,还记载了失效切换时业务特有的恢复处理。

    注解

    在集群系统中,通过在正常的节点上重启应用程序来执行失效切换。因此,在应用程序的内存上保存的执行状态不能进行失效切换。

3.5.2. 失效切换型集群的系统配置

失效切换型集群在集群服务器间共享磁盘阵列设备。服务器发生故障时,待机服务器使用共享磁盘上的数据交接业务。

配置集群的2台服务器,PC

图 3.7 失效切换型集群的系统配置

失效切换型集群根据运行形态分为以下几类。

单向待机集群

其中一个服务器作为运行服务器运行业务,另外一个服务器作为待机服务器不运行业务的运行形态。这是最简单的一种运行形态,使用该形态构建的系统失效切换后性能不会降低,可用性高。

配置集群的2台服务器,PC

图 3.8 单向待机集群(1)

配置集群的2台服务器,PC

图 3.9 单向待机集群(2)

同一应用程序双向待机集群

在多个服务器上同时运行某业务应用程序,互为待机的运行形态。应用程序必须支持双向待机运行。将某业务数据分割成数份时,根据要访问的数据来更改客户端所要连接的目标服务器,可以构建以数据分割为单位的负载均衡系统。

配置集群的2台服务器,PC

图 3.10 同一应用程序双向待机集群(1)

配置集群的2台服务器,PC

图 3.11 同一应用程序双向待机集群(2)

不同应用程序双向待机集群

多种业务应用程序分别在不同服务器上运行,互为待机的运行形态。应用程序没有必要一定支持双向待机运行。能够构建以业务为单位的负载均衡系统。

Application A和Application B为不同应用程序。

配置集群的2台服务器,PC

图 3.12 不同应用程序双向待机集群(1)

配置集群的2台服务器,PC

图 3.13 不同应用程序双向待机集群(2)

N + N结构

应用前面介绍的结构,可以将系统扩展为使用更多节点的结构。在下图所示的结构中,在3台服务器上执行3种业务,一旦发生问题,将把业务交接给1台待机服务器。在单向待机中,正常时的资源浪费是1/2,在此结构中正常时的资源浪费降低到1/4,而且如果1台发生故障,不会造成系统性能下降。

配置集群的4台服务器

图 3.14 N + N 结构 (1)

配置集群的4台服务器

图 3.15 N + N 结构 (2)

3.5.3. 共享磁盘型的硬件配置

共享磁盘型的EXPRESSCLUSTER的HW配置如下图所示。

服务器之间的通信一般使用以下配置:

  • 2块NIC(1块用于与外部通信,1块为EXPRESSCLUSTER专用)

  • 共享磁盘的指定区域

与共享磁盘连接的接口可以是SCSI或FibreChannel,但是最近使用FibreChannel进行连接比较普遍。

连接Shared disk的Server 1,Server 2

图 3.16 集群配置示例(共享磁盘型)

FIP1

10.0.0.11 (从Cluster WebUI客户端访问)

FIP2

10.0.0.12 (从业务客户端访问)

NIC1-1

192.168.0.1

NIC1-2

10.0.0.1

NIC2-1

192.168.0.2

NIC2-2

10.0.0.2

RS-232C 设备

/dev/ttyS0

  • 共享磁盘:

    设备名

    /dev/sdb2

    Mount点

    /mnt/sdb2

    文件系统

    ext3

3.5.4. 镜像磁盘型的硬件配置

镜像磁盘型的EXPRESSCLUSTER配置如下图所示。

与共享磁盘配置相比,需要配备镜像磁盘数据复制所使用的网络,但是一般是使用EXPRESSCLUSTER的内部通信用NIC代替。

另外,镜像磁盘不依存于连接接口(IDE or SCSI)。

  • 使用镜像磁盘时的集群环境示例(在安装OS的磁盘中确保集群分区和数据分区时)

    在以下配置中,将安装了OS的磁盘的空闲分区作为集群分区和数据分区使用。

    内置磁盘的Server 1,Server 2

    图 3.17 集群配置示例(1)(镜像磁盘型)

    FIP1

    10.0.0.11 (从Cluster WebUI客户端访问)

    FIP2

    10.0.0.12 (从业务客户端访问)

    NIC1-1

    192.168.0.1

    NIC1-2

    10.0.0.1

    NIC2-1

    192.168.0.2

    NIC2-2

    10.0.0.2

    RS-232C 设备

    /dev/ttyS0

    OS的/boot设备

    /dev/sda1

    OS的swap设备

    /dev/sda2

    OS的/(root)设备

    /dev/sda3

    集群分区用设备

    /dev/sda5

    数据分区用设备

    /dev/sda6

    Mount点

    /mnt/sda6

    文件系统

    ext3

  • 使用镜像磁盘时的集群环境示例(准备了用于集群分区和数据分区的磁盘时)

    在以下配置中,已准备并连接了用于集群分区和数据分区的磁盘。

    连接各种磁盘的Server 1,Server 2

    图 3.18 集群配置示例(2)(镜像磁盘型)

    FIP1

    10.0.0.11 (从Cluster WebUI客户端访问)

    FIP2

    10.0.0.12 (从业务客户端访问)

    NIC1-1

    192.168.0.1

    NIC1-2

    10.0.0.1

    NIC2-1

    192.168.0.2

    NIC2-2

    10.0.0.2

    RS-232C 设备

    /dev/ttyS0

    OS的/boot设备

    /dev/sda1

    OS的swap设备

    /dev/sda2

    OS的/(root)设备

    /dev/sda3

    集群分区用设备

    /dev/sdb1

    镜像资源磁盘设备

    /dev/sdb2

    Mount点

    /mnt/sdb2

    文件系统

    ext3

3.5.5. 共享型镜像磁盘型的硬件配置

共享型配置的EXPRESSCLUSTER配置如下图所示。

与共享磁盘配置相比,需要配备复制数据所使用的网络,但是一般是使用EXPRESSCLUSTER的内部通信用NIC代替。

另外,磁盘不依存于连接接口(IDE or SCSI)。

  • 使用共享型镜像磁盘时的集群环境的示例 (在2台服务器中使用共享磁盘,并镜像第3台服务器的常规磁盘时)

    连接相同共享磁盘的2台服务器,连接磁盘的1台服务器

    图 3.19 集群配置示例(共享型镜像磁盘型)

    FIP1

    10.0.0.11 (从Cluster WebUI客户端访问)

    FIP2

    10.0.0.12 (从业务客户端访问)

    NIC1-1

    192.168.0.1

    NIC1-2

    10.0.0.1

    NIC2-1

    192.168.0.2

    NIC2-2

    10.0.0.2

    NIC3-1

    192.168.0.3

    NIC3-2

    10.0.0.3

  • 共享磁盘

    共享型镜像设备

    /dev/NMP1

    Mount点

    /mnt/hd1

    文件系统

    ext3

    集群分区用设备

    /dev/sdb1

    共享型镜像磁盘资源磁盘设备

    /dev/sdb2

    DISK心跳设备名

    /dev/sdb3

    Raw设备名

    /dev/raw/raw1

  • 用于共享型镜像磁盘资源的磁盘

    共享型镜像设备

    /dev/NMP1

    Mount点

    /mnt/hd1

    文件系统

    ext3

    集群分区用设备

    /dev/sdb1

    共享型镜像磁盘资源磁盘设备

    /dev/sdb2

3.5.6. 何谓集群对象

在EXPRESSCLUSTER中,使用以下结构管理各种资源。

  • 集群对象
    配置集群的单位。
  • 服务器对象
    表示实体服务器的对象,属于集群对象。
  • 服务器组对象
    捆绑服务器的对象,属于集群对象。
  • 心跳资源对象
    表示实体服务器的NW部分的对象,属于服务器对象。
  • 网络分区解决资源对象
    表示网络分区解决机构的对象,属于服务器对象。
  • 组对象
    表示虚拟服务器的对象,属于集群对象。
  • 组资源对象
    表示拥有虚拟服务器的资源 (NW,磁盘)的对象,属于组对象。
  • 监视资源对象
    表示监视机构的对象,属于集群对象。

3.6. 何谓资源

在EXPRESSCLUSTER中,监视端和被监视端的对象都称为资源,分类进行管理。这样不仅能够明确区分监视/被监视的对象,还能够使构建集群或查出故障时的对应更简便。资源分为心跳资源,网络分区解决资源,组资源和监视资源4类。以下简要介绍各类资源。

3.6.1. 心跳资源

在服务器之间互相确认生存状态所使用的资源。

现在支持的心跳资源如下所示:

  • LAN心跳资源
    使用Ethernet的通信。
  • 内核模式LAN心跳资源
    使用Ethernet的通信。
  • 磁盘心跳资源
    使用共享磁盘上的特定分区(磁盘心跳分区)的通信。仅限共享磁盘配置时使用。
  • Witness 心跳资源
    表示从Witness 服务器服务运行的外部服务器中取得的与各服务器间的通信状态。

3.6.2. 网络分区解决资源

表示为了处理网络分区状态的资源。

  • PING网络分区解决资源
    使用PING方式的网络分区解决资源。
  • HTTP 网络分区解决资源
    HTTP 方式的网络分区解决资源。

3.6.3. 组资源

组成失效切换的单位——失效切换组的资源。

现在支持的组资源如下所示:

  • 浮动IP资源 (fip)
    提供虚拟IP地址。客户端可以像普通IP地址一样访问。
  • EXEC资源 (exec)
    提供启动/停止业务(DB,httpd,etc..)的机制。
  • 磁盘资源 (disk)
    提供共享磁盘上的指定分区。仅限(共享磁盘)配置时使用。
  • 镜像磁盘资源 (md)
    提供镜像磁盘上的指定分区。仅限(镜像磁盘)配置时使用。
  • 共享型镜像磁盘资源 (hd)
    提供共享磁盘或磁盘上的指定分区。仅限(共享型镜像磁盘)配置时使用。
  • 卷管理资源 (volmgr)
    将多个存储器及磁盘用作一个逻辑磁盘。
  • 虚拟IP资源 (vip)
    提供虚拟IP地址。可以像访问客户端的普通IP地址一样访问虚拟IP地址。用于配置网络地址在不同区间的远程集群。
  • 动态域名解析资源(ddns)
    将虚拟主机名及启动服务器的IP地址登录在Dynamic DNS服务器上。
  • AWS Elastic IP资源 (awseip)
    在AWS上利用EXPRESSCLUSTER时,提供可授予Elastic IP(以下称为EIP)的机能。
  • AWS虚拟IP资源 (awsvip)
    在AWS上利用EXPRESSCLUSTER时,提供可授予虚拟IP(以下称为VIP)的机能。
  • AWS辅助IP资源 (awssip)
    在AWS上利用EXPRESSCLUSTER时,提供可授予辅助IP的机能。
  • AWS DNS资源 (awsdns)
    在AWS上利用EXPRESSCLUSTER时,在Amazon Route 53上登录虚拟主机名和启动服务器的IP地址。
  • Azure 探头端口资源 (azurepp)
    在Microsoft Azure上利用EXPRESSCLUSTER时,提供可在运行业务的节点开放特定的端口的机能。
  • Azure DNS资源 (azuredns)
    Microsoft Azure上利用EXPRESSCLUSTER时,在Azure DNS上登录虚拟主机名和启动服务器的IP地址。
  • Google Cloud 虚拟 IP 资源 (gcvip)
    在Google Cloud Platform上使用ExpressCluster时,提供了一种在业务运行的节点上打开特定端口的机制。
  • Google Cloud DNS 资源 (gcdns)
    Google Cloud Platform上利用EXPRESSCLUSTER时,在Cloud DNS上登录虚拟主机名和启动服务器的IP地址。
  • Oracle Cloud 虚拟 IP 资源 (ocvip)
    在Oracle Cloud Infrastructure上使用ExpressCluster时,提供了一种在业务运行的节点上打开特定端口的机制。

3.6.4. 监视资源

是集群系统内进行监视的主体资源。

现在支持的监视资源如下所示:

  • 浮动 IP 监视资源 (fipw)
    提供浮动 IP 资源中启动的 IP 地址的监视机构。
  • IP监视资源 (ipw)
    提供外部IP地址的监视机构。
  • 磁盘监视资源 (diskw)
    提供磁盘的监视机构。也可以用于共享磁盘的监视。
  • 镜像磁盘监视资源 (mdw)
    提供镜像磁盘的监视机构。
  • 镜像磁盘接口监视资源 (mdnw)
    提供镜像磁盘接口的监视机构。
  • 共享型镜像磁盘监视资源 (hdw)
    提供共享型镜像磁盘的监视机构。
  • 共享型镜像磁盘接口监视资源 (hdnw)
    提供共享型镜像磁盘接口的监视机构。
  • PID监视资源 (pidw)
    提供EXEC资源启动的进程的生存状态监视功能。
  • 用户空间监视资源 (userw)
    提供用户空间的停止监视机构。
  • NIC Link Up/Down监视资源 (miiw)
    提供LAN线缆的链接状态的监视机构。
  • 卷管理监视资源 (volmgrw)
    提供多个存储器及磁盘的监视机构。
  • Multi-Target监视资源 (mtw)
    提供捆绑多个监视资源的状态。
  • 虚拟IP监视资源 (vipw)
    提供送出虚拟IP资源RIP包的机构。
  • ARP监视资源 (arpw)
    提供送出浮动IP或虚拟IP资源ARP包的机构。
  • 自定义监视资源 (genw)
    提供有进行监视处理的命令或脚本时,根据其动作结果监视系统的机构。
  • 消息接收监视资源 (mrw)
    用于实现"设置接收异常发生通知时执行的异常时动作"及"异常发生通知的Cluster WebUI显示"的监视资源。
  • 动态域名解析监视资源 (ddnsw)
    定期将虚拟主机名及启动服务器的IP地址登录在Dynamic DNS服务器上。
  • 进程名监视资源 (psw)
    通过指定进程名,提供任意的进程死活监视功能。
  • DB2监视资源 (db2w)
    提供IBM DB2数据库的监视机构。
  • ftp监视资源 (ftpw)
    提供FTP服务器的监视机构。
  • http监视资源 (httpw)
    提供HTTP服务器的监视机构。
  • imap4监视资源 (imap4w)
    提供IMAP4服务器的监视机构。
  • MySQL监视资源 (mysqlw)
    提供MySQL数据库的监视机构。
  • nfs监视资源 (nfsw)
    提供nfs文件服务器的监视机构。
  • Oracle监视资源 (oraclew)
    提供Oracle数据库的监视机构。
  • pop3监视资源(pop3w)
    提供POP3服务器的监视机构。
  • PostgreSQL监视资源 (psqlw)
    提供PostgreSQL数据库的监视机构。
  • samba监视资源 (sambaw)
    提供samba文件服务器的监视机构。
  • smtp监视资源 (smtpw)
    提供SMTP服务器的监视机构。
  • Tuxedo监视资源 (tuxw)
    提供Tuxedo应用程序服务器的监视机构。
  • WebSphere监视资源 (wasw)
    提供WebSphere应用程序服务器的监视机构。
  • WebLogic监视资源 (wlsw)
    提供WebLogic应用程序服务器的监视机构。
  • WebOTX监视资源 (otxw)
    提供WebOTX应用程序服务器的监视机构。
  • JVM 监视资源 (jraw)
    提供Java VM的监视机构。
  • 系统监视资源 (sraw)
    提供系统整体资源的监视机构。
  • 进程资源监视资源(psrw)
    提供个别进程资源的监视机构。
  • AWS Elastic IP监视资源 (awseipw)
    提供在AWS Elastic IP资源所附加的EIP的监视机构。
  • AWS虚拟IP监视资源 (awsvipw)
    提供在AWS虚拟IP资源所附加的VIP的监视机构。
  • AWS辅助IP监视资源 (awssipw)
    提供在AWS辅助IP资源所附加的辅助IP的监视机构。
  • AWS AZ监视资源 (awsazw)
    提供Availability Zone(以下称为AZ)的监视机构。
  • AWS DNS监视资源 (awsdnsw)
    提供在AWS DNS资源授予的虚拟主机名和IP地址的监视机构。
  • Azure 探头端口监视资源 (azureppw)
    针对Azure探头端口资源所启动的节点提供探头端口的监视机构。
  • Azure负载均衡监视资源 (azurelbw)
    针对Azure探头端口资源所启动的节点提供与Probe端口相同的端口号是否被开放的监视机构。
  • Azure DNS监视资源 (azurednsw)
    提供在Azure DNS资源授予的虚拟主机名和IP地址的监视机构。
  • Google Cloud 虚拟 IP 监视资源 (gcvipw)
    对启动了Google Cloud虚拟IP资源的节点,提供用于进行心跳存活监视的端口的监控机制。
  • Google Cloud 负载均衡监视资源 (gclbw)
    对没有启动Google Cloud虚拟IP资源的节点,提供确认是否开放以及用于心跳存活侦测的端口相同的端口号的监控机制。
  • Google Cloud DNS监视资源 (gcdnsw)
    提供在Google Cloud DNS资源授予的虚拟主机名和IP地址的监视机构。
  • Oracle Cloud 虚拟 IP 监视资源 (ocvipw)
    对启动了Oracle Cloud虚拟IP资源的节点,提供用于进行心跳存活监视的端口的监控机制。
  • Oracle Cloud 负载均衡监视资源 (oclbw)
    对没有启动Oracle Cloud虚拟IP资源的节点,提供确认是否开放以及用于心跳存活侦测的端口相同的端口号的监控机制。

3.7. 开始使用EXPRESSCLUSTER吧!

至此EXPRESSCLUSTER的简单介绍就结束了。
下面我们将根据以下流程,一边阅读对应的指南,一边构建使用EXPRESSCLUSTER的集群系统。

3.7.1. 最新信息的确认

请参考本指南的"4. EXPRESSCLUSTER的运行环境","5. 最新版本信息","6. 注意限制事项","7. 升级步骤"。

3.7.3. 集群系统的构建

请参考《安装&设置指南》的全篇。

3.7.4. 开始操作集群系统后的故障对策

请参考《维护指南》的"维护信息"以及

参考指南》的"疑难解答","错误消息一览表"

4. EXPRESSCLUSTER的运行环境

本章介绍EXPRESSCLUSTER的运行环境。

本章介绍的项目如下。

4.1. 硬件

EXPRESSCLUSTER在以下架构的服务器上运行。

  • x86_64

  • IBM POWER LE (不支持Replicator,Replicator DR,各Agent)

4.1.1. 规格

EXPRESSCLUSTER Server所需的规格如下所示。

  • RS-232C板卡 一个(构建3节点以上集群时不需要)

  • Ethernet板卡 两个以上

  • 共享磁盘

  • 镜像用磁盘或镜像用剩余分区

  • DVD-ROM驱动器

4.2. 软件

4.2.1. EXPRESSCLUSTER Server的运行环境

4.2.2. 可运行的Distribution和kernel

注解

EXPRESSCLUSTER X的安装光盘,可执行没有对应最新的kernel的rpm安装包。请对比确认运行环境中的kernel版本和本章记载的"可操作的Distribution和Kernel"是否相符,并安装"EXPRESSCLUSTER Version"记载的适当的版本进行升级。

EXPRESSCLUSTER Server是EXPRESSCLUSTER独自的kernel模块,因此其运行环境取决于kernel模块的版本。
EXPRESSCLUSTER具备如下的独自的kernel模块。

独自的kernel模块

说明

Kernel模式LAN心跳驱动程序

使用Kernel模式LAN心跳资源。

Keepalive驱动程序
当用户空间监视资源的监视方法选择keepalive时使用。
当关机监视的监视方法选择keepalive时使用。

镜像驱动程序

使用镜像磁盘资源。

关于运行确认完毕的发布版和kernel版本信息,请参照以下的Web站点。

EXPRESSCLUSTER的Web站点
-> System Requirements
-> EXPRESSCLUSTER X for Linux

注解

EXPRESSCLUSTER支持的CentOS的内核版本请确认Red Hat Enterprise Linux的支持内核版本。

4.2.3. 运行确认完毕的监视选项应用程序信息

监视资源的监视对象的应用程序版本信息

x86_64

监视资源
监视对象应用程序
EXPRESSCLUSTER
Version
备注

Oracle监视

Oracle Database 19c (19.3)

5.0.0-1~

DB2监视

DB2 V11.5

5.0.0-1~

PostgreSQL监视

PostgreSQL 14.1

5.0.0-1~

PostgreSQL 15.1

5.1.0-1~

PowerGres on Linux 13.5

5.0.0-1~

MySQL监视

MySQL 8.0

5.0.0-1~

MySQL 8.0.31

5.1.0-1~

MariaDB 10.5

5.0.0-1~

MariaDB 10.10.2

5.1.0-1~

SQL Server监视

SQL Server 2019

5.0.0-1~

SQL Server 2022

5.1.0-1~

samba监视

Samba 3.3

4.0.0-1~

Samba 3.6

4.0.0-1~

Samba 4.0

4.0.0-1~

Samba 4.1

4.0.0-1~

Samba 4.2

4.0.0-1~

Samba 4.4

4.0.0-1~

Samba 4.6

4.0.0-1~

Samba 4.7

4.1.0-1~

Samba 4.8

4.1.0-1~

Samba 4.13

4.3.0-1~

nfs监视

nfsd 2 (udp)

4.0.0-1~

nfsd 3 (udp)

4.0.0-1~

nfsd 4 (tcp)

4.0.0-1~

mountd 1(tcp)

4.0.0-1~

mountd 2(tcp)

4.0.0-1~

mountd 3(tcp)

4.0.0-1~

http监视

未指定版本

4.0.0-1~

smtp监视

未指定版本

4.0.0-1~

pop3监视

未指定版本

4.0.0-1~

imap4监视

未指定版本

4.0.0-1~

ftp监视

未指定版本

4.0.0-1~

Tuxedo监视

Tuxedo 12c Release 2 (12.1.3)

4.0.0-1~

WebLogic监视

WebLogic Server 11g R1

4.0.0-1~

WebLogic Server 11g R2

4.0.0-1~

WebLogic Server 12c R2 (12.2.1)

4.0.0-1~

WebLogic Server 14c (14.1.1)

4.2.0-1~

WebSphere监视

WebSphere Application Server 8.5

4.0.0-1~

WebSphere Application Server 8.5.5

4.0.0-1~

WebSphere Application Server 9.0

4.0.0-1~

WebOTX监视

WebOTX Application Server V9.1

4.0.0-1~

WebOTX Application Server V9.2

4.0.0-1~

WebOTX Application Server V9.3

4.0.0-1~

WebOTX Application Server V9.4

4.0.0-1~

WebOTX Application Server V10.1

4.0.0-1~

WebOTX Application Server V10.3

4.3.0-1~

JVM监视

WebLogic Server 11g R1

4.0.0-1~

WebLogic Server 11g R2

4.0.0-1~

WebLogic Server 12c

4.0.0-1~

WebLogic Server 12c R2 (12.2.1)

4.0.0-1~

WebLogic Server 14c (14.1.1)

4.2.0-1~

WebOTX Application Server V9.1

4.0.0-1~

WebOTX Application Server V9.2

4.0.0-1~

进程组监视需要进行WebOTX update

WebOTX Application Server V9.3

4.0.0-1~

WebOTX Application Server V9.4

4.0.0-1~

WebOTX Application Server V10.1

4.0.0-1~

WebOTX Application Server V10.3

4.3.0-1~

WebOTX Enterprise Service Bus V8.4

4.0.0-1~

WebOTX Enterprise Service Bus V8.5

4.0.0-1~

WebOTX Enterprise Service Bus V10.3

4.3.0-1~

JBoss Enterprise Application Platform 7.0

4.0.0-1~

JBoss Enterprise Application Platform 7.3

4.3.2-1~

JBoss Enterprise Application Platform 7.4

5.0.2-1~

Apache Tomcat 8.0

4.0.0-1~

Apache Tomcat 8.5

4.0.0-1~

Apache Tomcat 9.0

4.0.0-1~

Apache Tomcat 10.0

5.0.2-1~

WebSAM SVF for PDF 9.0

4.0.0-1~

WebSAM SVF for PDF 9.1

4.0.0-1~

WebSAM SVF for PDF 9.2

4.0.0-1~

WebSAM SVF PDF Enterprise 10.1

5.1.0-1~

WebSAM Report Director Enterprise 9.0

4.0.0-1~

WebSAM Report Director Enterprise 9.1

4.0.0-1~

WebSAM Report Director Enterprise 9.2

4.0.0-1~

WebSAM RDE SUITE 10.1

5.1.0-1~

WebSAM Universal Connect/X 9.0

4.0.0-1~

WebSAM Universal Connect/X 9.1

4.0.0-1~

WebSAM Universal Connect/X 9.2

4.0.0-1~

WebSAM SVF Connect SUITE Standard 10.1

5.1.0-1~

系统监视

未指定版本

4.0.0-1~

进程资源监视

未指定版本

4.1.0-1~

注解

x86_64环境中使用监视选项时,监视对象的应用程序也请使用x86_64版的应用程序。

4.2.4. JVM监视器的运行环境

使用JVM监视器时,需要可Java 的执行环境。此外,监视JBoss Enterprise Application Platform 的domain 模式时,需要安装Java(TM) SE Development Kit。

Java(TM) Runtime Environment

Version 8.0 Update 11 (1.8.0_11) 以上

Java(TM) SE Development Kit

Version 8.0 Update 11 (1.8.0_11) 以上

Java(TM) Runtime Environment

Version 9.0 (9.0.1) 以上

Java(TM) SE Development Kit

Version 9.0 (9.0.1) 以上

Java(TM) SE Development Kit

Version 11.0 (11.0.5) 以上

Java(TM) SE Development Kit

Version 17.0 (17.0.2) 以上

Open JDK

Version 7.0 Update 45 (1.7.0_45) 以上
Version 8.0 (1.8.0) 以上
Version 9.0 (9.0.1) 以上

4.2.5. AWS Elastic IP资源,AWS Elastic IP监视资源,AWS AZ监视资源的运行环境

想使用AWS Elastic IP资源,AWS Elastic IP监视资源,AWS AZ监视资源时,需要以下的软件。

软件

Version

备注

AWS CLI

1.8.0~
2.0.0~
Python
2.6.5~
3.5.2~
AWS CLI 附带的 Python 不可以
由于EXPRESSCLUSTER有独自的kernel模块,所以EXPRESSCLUSTER Server的动作环境要依赖于kernel模块的版本。
AWS上的OS会发生频繁的版本升级,有可执行会不支持。
动作确认完毕的kernel版本信息,请参照"4.2.2. 可运行的Distribution和kernel"。

4.2.6. AWS虚拟IP资源,AWS 虚拟IP监视资源的运行环境

想使用AWS虚拟IP资源,AWS虚拟IP监视资源时,需要以下的软件。

软件

Version

备注

AWS CLI

1.9.0~
2.0.0~
由于EXPRESSCLUSTER有独自的kernel模块,所以EXPRESSCLUSTER Server的动作环境要依赖于kernel模块的版本。
AWS上的OS会发生频繁的版本升级,有可执行会不支持。
动作确认完毕的kernel版本信息,请参照"4.2.2. 可运行的Distribution和kernel"。

4.2.7. AWS辅助IP资源,AWS辅助IP监视资源的运行环境

想使用AWS辅助IP资源,AWS辅助IP监视资源时,需要以下的软件。

软件

Version

备注

AWS CLI

1.8.0~
2.0.0~
由于EXPRESSCLUSTER有独自的kernel模块,所以EXPRESSCLUSTER Server的动作环境要依赖于kernel模块的版本。
AWS上的OS会发生频繁的版本升级,有可执行会不支持。
动作确认完毕的kernel版本信息,请参照"4.2.2. 可运行的Distribution和kernel"。

4.2.8. AWS DNS资源,AWS DNS监视资源的运行环境

想使用AWS DNS资源,AWS DNS监视资源时,需要以下的软件。

软件

Version

备注

AWS CLI

1.11.0~

Python (Red Hat Enterprise Linux 6, Cent OS 6, SUSE Linux Enterprise Server 11, Oracle Linux 6的场合)
2.6.6~
3.6.5~
AWS CLI 附带的 Python 不可以
Python (Red Hat Enterprise Linux 6, Cent OS 6, SUSE Linux Enterprise Server 11, Oracle Linux 6 以外的场合)
2.7.5~
3.5.2~
AWS CLI 附带的 Python 不可以
由于EXPRESSCLUSTER有独自的kernel模块,所以EXPRESSCLUSTER Server的动作环境要依赖于kernel模块的版本。
AWS上的OS会频繁版本升级,有可执行不支持。
动作确认完毕的kernel版本信息,请参照"4.2.2. 可运行的Distribution和kernel"。

4.2.9. AWS 强制停止资源的运行环境

想使用AWS 强制停止资源时,需要以下的软件。

软件

Version

备注

AWS CLI

1.8.0~
2.0.0~
由于EXPRESSCLUSTER有独自的kernel模块,所以EXPRESSCLUSTER Server的动作环境要依赖于kernel模块的版本。
AWS上的OS会发生频繁的版本升级,有可执行会不支持。
动作确认完毕的kernel版本信息,请参照"4.2.2. 可运行的Distribution和kernel"。

4.2.10. Azure 探头端口资源,Azure 探头端口监视资源,Azure负载均衡监视资源的运行环境

EXPRESSCLUSTER有自己的内核模块,EXPRESSCLUSTER的运行环境依赖于kernel模块的版本。
Microsoft Azure上的操作系统会频繁进行版本升级,所以会有不能运行的情况发生。
关于已经可以运行的kernel版本的信息,请参照"4.2.2. 可运行的Distribution和kernel"。
执行了探头端口资源的运行确认Microsoft Azure 上的部署模型如下所示。
负载均衡器的加载方法请参照Microsoft的文档

x86_64

部署模型

EXPRESSCLUSTER
版本

备注

资源管理器

4.0.0-1~

需要追加负载均衡器

4.2.11. Azure DNS资源,Azure DNS监视资源的运行环境

想使用Azure DNS资源,Azure DNS监视资源时,需要以下的软件。

软件

版本

备注

Azure CLI (Red Hat Enterprise Linux 6, Cent OS 6, Asianux Server 4, SUSE Linux Enterprise Server 11, Oracle Linux 6 的情况)

1.0~

不需要Python

Azure CLI (Red Hat Enterprise Linux 6, Cent OS 6, Asianux Server 4, SUSE Linux Enterprise Server 11, Oracle Linux 6 以外的情况)

2.0~

不建议使用Azure CLI 1.0(Azure Classic CLI),建议使用Azure CLI 2.0。详细情况请参考以下内容。
Azure CLI 的前提条件,安装方法请参考以下内容。
由于存在ExpressCluster独有的内核模块,因此ExpressCluster Server的操作环境取决于内核模块版本。
由于Microsoft Azure 上的OS经常更新,因此可执行无法正常工作。
有关已确认操作的内核版本的信息请参考" 可运行的Distribution和kernel "。

执行了Azure DNS资源,Azure DNS监视资源运行确认的Microsoft Azure上的部署模型如下所示。Azure DNS的设置方法请参考《EXPRESSCLUSTER X Mircosoft Azure的HA Cluster构筑指南 (Linux版)》。

x86_64

部署模型
EXPRESSCLUSTER
版本
备注

资源管理器

4.0.0-1~

需要追加Azure DNS

4.2.12. Azure 强制停止资源的运行环境

想使用Azure 强制停止资源时,需要以下的软件。

软件

Version

备注

Azure CLI

2.0~

由于EXPRESSCLUSTER有独自的kernel模块,所以EXPRESSCLUSTER Server的动作环境要依赖于kernel模块的版本。
OCI上的OS会发生频繁的版本升级,有可执行会不支持。
作动确认的kernel版本信息,请参照"4.2.2. 可运行的Distribution和kernel"。

4.2.13. Google Cloud 虚拟 IP 资源,Google Cloud 虚拟 IP 监视资源,Google Cloud 负载均衡监视资源的运行环境

由于存在ExpressCluster独有的内核模块,因此ExpressCluster Server的操作环境取决于内核模块版本。
由于Google Cloud Platform上的OS经常更新,因此可执行无法正常工作。
有关已认证可以正常工作的内核版本的信息,请参考" 4.2.2. 可运行的Distribution和kernel "。

4.2.14. Google Cloud DNS 资源,Google Cloud DNS 监视资源的运行环境

想使用Google Cloud DNS资源,Google Cloud DNS监视资源时,需要以下的软件。

软件

版本

备注

Google Cloud SDK

295.0.0~

Google Cloud SDK 的前提条件,安装方法请参考以下内容。
安装Google Cloud SDK:
由于存在ExpressCluster独有的内核模块,因此ExpressCluster Server的操作环境取决于内核模块版本。
由于Google Cloud Platform 上的OS经常更新,因此可执行无法正常工作。
有关已确认操作的内核版本的信息请参考" 可运行的Distribution和kernel "。

4.2.15. Oracle Cloud 虚拟 IP 资源,Oracle Cloud 虚拟 IP 监视资源,Oracle Cloud 负载均衡监视资源的运行环境

由于存在ExpressCluster独有的内核模块,因此ExpressCluster Server的操作环境取决于内核模块版本。
由于Oracle Cloud Infrastructure上的OS经常更新,因此可执行无法正常工作。
有关已认证可以正常工作的内核版本的信息,请参考" 4.2.2. 可运行的Distribution和kernel "。

4.2.16. OCI 强制停止资源的运行环境

想使用OCI 强制停止资源时,需要以下的软件。

软件

Version

备注

OCI CLI

3.5.3~
由于EXPRESSCLUSTER有独自的kernel模块,所以EXPRESSCLUSTER Server的动作环境要依赖于kernel模块的版本。
OCI上的OS会发生频繁的版本升级,有可执行会不支持。
作动确认的kernel版本信息,请参照"4.2.2. 可运行的Distribution和kernel"。

4.2.17. clpcfadm.py命令的运行环境

使用clpcfadm.py命令时,需要以下软件。

软件

版本

备注

Python

3.6.8~

4.2.18. 在邮件通报功能中启用加密时的运行环境

在邮件通报功能中启用加密需要以下软件。

软件

Version

备注

OpenSSL

1.1.1~
3.0.0~

4.2.19. 所需内存容量和磁盘容量

所需内存容量
(用户模式)
300MB 2
所需内存容量
(内核模式)
同步模式时
1MB +(请求队列数×I/O大小)+
(2MB+差分Bitmap大小)×(镜像磁盘资源,共享型镜像磁盘资源数)
异步模式时
1MB +{请求队列数}×{I/O大小}
+[3MB
+({I/O大小}×{异步队列数})
+({I/O大小}÷ 4KB × 8字节 + 0.5KB)× ({历史文件大小限制值}÷{I/O大小}+{异步队列数})
+{差分Bitmap大小}
]×(镜像磁盘资源,共享型镜像磁盘资源数)

内核模式 LAN心跳驱动程序时
8MB

KeepAlive驱动程序时
8MB
所需磁盘容量
(安装后)
300MB
所需磁盘容量
(运行时)
5.0GB + 1.0GB 3
2

除Option类

3

镜像磁盘资源及共享型镜像磁盘资源所需的磁盘大小。

注解

I/O大小的标准如下所示。

- RHEL8时,2MB
- Ubuntu16时,1MB
- Ubuntu14,RHEL7时,124KB
- RHEL6时,4KB

关于请求队列数,异步队列数的设置值,请参考《参考指南》的"组资源的详细信息"的"理解镜像磁盘资源"。

关于磁盘心跳资源使用的分区所需的大小,请参考"关于共享磁盘"。

关于集群分区所需的大小请参考"关于镜像用磁盘","关于共享型镜像磁盘资源用磁盘"。

4.3. Cluster WebUI 的运行环境

4.3.1. 运行确认完毕的OS,浏览器

现在的支持情况如下。

浏览器

语言

Internet Explorer 11

日文/英文/中文

Internet Explorer 10

日文/英文/中文

Firefox

日文/英文/中文

Google Chrome

日文/英文/中文

Microsoft Edge (Chromium)

日文/英文/中文

注解

通过IP地址连接时,需要事先将该IP地址登录到 [本地Intranet] 的 [站点] 中。

注解

用 Internet Explorer11连接Cluster WebUI时,Internet Explorer可执行会停止。为了避免发生,请更新Internet Explorer(KB4052978或更高版本)。此外,为了在Windows 8.1/Windows Server 2012R2中应用KB4052978以上的版本,请提前应用KB2919355。相关信息请参考Microsoft部署的信息。

注解

不支持平板电脑和智能手机等移动设备。

4.3.2. 所需内存容量/磁盘容量

  • 所需内存容量 500MB以上

  • 所需磁盘容量 200MB以上

4.4. Witness服务器的运行环境

4.4.1. Witness 服务器服务经过运行确认的环境

已确认以下运行环境。

Witness 服务版本

执行环境

5.1.0

Node.js 10.15.0
Node.js 12.18.3
Node.js 18.13.0

4.4.2. 所需内存容量和磁盘容量

所需内存容量

50MB + (节点数 * 0.5 MB)

所需磁盘容量

1GB

5. 最新版本信息

在本章中对EXPRESSCLUSTER的最新信息进行说明。为您介绍新发布版本中强化和改善的内容。

5.1. EXPRESSCLUSTER和手册的对应表

本手册中以下列版本的EXPRESSCLUSTER为前提进行说明。请注意EXPRESSCLUSTER的版本和手册的版本。

EXPRESSCLUSTER内部版本

手册

版本数

备注

5.1.0-1

开始指南

第2版

安装&设置指南

第1版

参考指南

第1版

维护指南

第1版

硬件整合指南

第1版

5.2. 功能强化

对于各个版本,分别进行了以下的功能强化。

No

内部版本

功能强化项目

1

5.0.0-1

支持新发布的kernel。

2

5.0.0-1

支持Ubuntu 20.04.3 LTS。

3

5.0.0-1

支持SUSE LINUX Enterprise Server 12 SP3。

4

5.0.0-1

随着主版本升级,部分功能被移除。 详细信息请参考功能删除列表。

5

5.0.0-1

添加了当服务器宕机时为整个集群集体抑制失效切换的功能。

6

5.0.0-1

当由于检测到组资源的启动·停止异常时以及监视资源异常时的最终动作而重新启动服务器的次数被重置时,将会通过警报日志通知。

7

5.0.0-1

在动态失效切换以外的自动失效切换中,可以从失效切换目标中排除在指定的监视资源中检测出异常的服务器。

8

5.0.0-1

添加了用于添加防火墙规则的clpfwctrl 命令。

9

5.0.0-1

添加了 AWS 辅助 IP 资源和 AWS 辅助 IP 监视资源。

10

5.0.0-1

使用 BMC 的强制停止功能已更新为 BMC 强制停止资源。

11

5.0.0-1

虚拟机强制停止功能已更新为 vCenter 强制停止资源。

12

5.0.0-1

AWS环境的强制停止功能已添加到强制停止资源中。

13

5.0.0-1

OCI环境的强制停止功能已添加到强制停止资源中。

14

5.0.0-1

强制停止脚本已更新为自定义强制停止资源。

15

5.0.0-1

添加了一项功能,将伴随 OS 关闭的所有操作(例如检测到监视异常时的恢复操作等)更改为 OS 重新启动。

16

5.0.0-1

改进了有关组之间开始和停止等待处理的警报消息。

17

5.0.0-1

资源启动属性的设置值可以在clpstat的设置信息的显示选项中显示。

18

5.0.0-1

即使在本地服务器为集群停止状态,也可以使用clpcl/clpstdn命令指定-h选项。

19

5.0.0-1

使用非真实 IP 地址连接到 Cluster WebUI 并切换到设置模式时,会输出警告消息。

20

5.0.0-1

可以在Cluster WebUI的设置模式中在已注册组资源的状态下删除组。

21

5.0.0-1

更改了 Cluster WebUI 中发生通信超时时的错误消息的内容。

22

5.0.0-1

更改了 Cluster WebUI 的镜像磁盘画面上执行完整复制等失败时的错误消息的内容。

23

5.0.0-1

添加了可以复制Cluster WebUI 的设置模式下注册的组、组资源、监视资源的功能。

24

5.0.0-1

添加了在Cluster WebUI 的设置模式下,将注册的组资源移动到其他组的功能。

25

5.0.0-1

可以在Cluster WebUI的设置模式下从[组的属性]的组资源列表中更改设置。

26

5.0.0-1

可以在Cluster WebUI的设置模式下从[监视通用属性]的监视资源列表中更改设置。

27

5.0.0-1

可在Cluster WebUI的设置模式中显示组资源停止时的依赖关系。

28

5.0.0-1

添加了在Cluster WebUI 的设置模式中显示组资源启动时以及停止时的依赖关系图的功能。

29

5.0.0-1

添加了在Cluster WebUI 的状态画面中按照组资源/监视资源的类型和资源名缩小范围检索的功能。

30

5.0.0-1

用户空间监视资源、动态DNS监视资源支持集群统计信息功能。

31

5.0.0-1

WebManager 服务使用HTTPS 作为通信方式时,可以使用中间证书作为证书文件。

32

5.0.0-1

添加了clpcfconv.sh命令,将集群配置信息文件从旧版本转换为当前版本。

33

5.0.0-1

添加了OS启动时延迟启动集群服务的功能。

34

5.0.0-1

扩展了集群配置信息检查功能的检查项目。

35

5.0.0-1

Cluster WebUI的集群配置信息检查的错误结果中,可以显示处理方法等详细内容。

36

5.0.0-1

可以在指定 clpcfset 命令的create选项时指定OS类型。

37

5.0.0-1

添加了在 clpcfset 命令中添加 del 选项,并从集群配置信息中删除资源和参数的功能。

38

5.0.0-1

添加了增强clpcfset命令界面的clpcfadm.py命令。

39

5.0.0-1

更改了 AWS DNS 资源的启动完成时间,是在确认记录集已经传播到AWS Route53后启动的。

40

5.0.0-1

AWS DNS监视资源的监视开始等待时间的默认值更改为300秒。

41

5.0.0-1

对于不应该受到磁盘IO延迟影响的监视资源进行了改进,使得如果监视进程在磁盘等待休眠状态(D状态)超时,则判断为警告而不是异常。

42

5.0.0-1

clpstat命令可以二重启动。

43

5.0.0-1

添加了Node Manager服务。

44

5.0.0-1

添加了心跳统计信息功能。

45

5.0.0-1

HTTP NP解决资源中,即使在不使用Witness心跳资源时,也可以使用Proxy服务器。

46

5.0.0-1

支持SELinux的Enforcing模式。

47

5.0.0-1

HTTP监视资源支持Digest认证。

48

5.0.0-1

可以在FTP监视资源中监视使用FTPS的FTP服务器。

49

5.0.0-1

JVM监视资源的JBoss EAP域模式可以在Java 9 及更高版本上进行监视。

50

5.0.2-1

JVM监视资源支持了JBoss Enterprise Application Platform 7.4。

51

5.0.2-1

JVM监视资源支持了Apache Tomcat 10.0。

52

5.1.0-1

支持Ubuntu 22.04.1 LTS。

53

5.1.0-1

支持Ubuntu 20.04.5 LTS。

54

5.1.0-1

支持SUSE LINUX Enterprise Server 15 SP3。

55

5.1.0-1

邮件通知功能支持SMTPS以及STARTTLS。

56

5.1.0-1

在强制停止资源中添加了Azure环境的强制停止功能。

57

5.1.0-1

vCenter 强制停止资源中添加了使用 vSphere Automation API 的强制停止功能。

58

5.1.0-1

可以设置保存日志文件的期限。

59

5.1.0-1

当反映配置信息时,创建了集群配置信息文件的备份。

60

5.1.0-1

扩展了集群配置信息检查功能的检查项。

61

5.1.0-1

可以更改浮动IP资源的送信源IP地址。

62

5.1.0-1

可以将以下监视资源注册到多目标监视资源中。
- AWS Elastic IP监视资源
- AWS虚拟IP监视资源
- AWS辅助IP监视资源
- AWS AZ监视资源
- AWS DNS监视资源
- Azure探头端口监视资源
- Azure负载均衡器监视资源
- Azure DNS监视资源
- Google Cloud 虚拟 IP监视资源
- Google Cloud 负载均衡监视资源
- Google Cloud DNS监视资源
- Oracle Cloud虚拟IP监视资源
- Oracle Cloud负载均衡监视资源

63

5.1.0-1

在自定义监视资源中,添加了将设置的脚本的返回值设为警告的功能。

64

5.1.0-1

SQL Server监视资源支持SQL Server 2022。

65

5.1.0-1

PostgreSQL监视资源支持PostgreSQL 15.1。

66

5.1.0-1

MySQL监视资源支持MariaDB 8.0.31。

67

5.1.0-1

MySQL监视资源支持MariaDB 10.10。

68

5.1.0-1

在 AWS 环境中仅使用 AWS 虚拟 IP 资源和 AWS 虚拟 IP 监视资源的配置不再需要 Python。

69

5.1.0-1

为了访问在AWS相关功能中执行的AWS CLI和实例元数据而指定环境变量的功能,可以从 Cluster WebUI中进行设置。

70

5.1.0-1

添加了在AWS相关功能中执行的AWS CLI中指定命令行选项的功能。

71

5.1.0-1

JVM监视资源支持WebSAM SVF PDF Enterprise 10.1。

72

5.1.0-1

JVM监视资源支持 WebSAM RDE SUITE 10.1。

73

5.1.0-1

JVM监视资源支持 WebSAM SVF Connect SUITE Standard 10.1。

74

5.1.0-1

添加了输出进程资源统计信息的功能。

75

5.1.0-1

在系统监视资源中添加了监视i-node使用率的功能。

76

5.1.0-1

HTTP监视资源支持客户端认证。

77

5.1.0-1

FTP监视资源和HTTP监视资源支持OpenSSL3.0 。

78

5.1.0-1

在JVM监视资源中向操作日志输出重试次数相关的信息。

79

5.1.0-1

JVM监视资源支持Java17。

80

5.1.0-1

JVM监视资源不支持Java7。

81

5.1.0-1

在clpbackup.sh 和 clprestore.sh 命令中添加了一个不关闭或不重新启动服务器的选项。

82

5.1.0-1

在 clpcfadm.py 命令中添加了更改前创建集群配置信息备份文件的选项。

83

5.1.0-1

Cluster WebUI 的操作日志可以显示在Cluster WebUI 上。

84

5.1.0-1

Cluster WebUI 支持OpenSSL 3.0。

85

5.1.0-1

Cluster WebUI 的 HTTPS 连接禁用了 TLS 1.1。

86

5.1.0-1

添加了一项功能,仅针对可以通信的服务器在Cluster WebUI 上反映集群配置信息。

87

5.1.0-1

在用户空间监视资源和关机监视设置的[监视方法]中选择"ipmi"时,[超时发生时的动作]可以设置为"NMI"。

88

5.1.0-1

添加了可在Cluster WebUI的状态画面上显示禁用集群操作的设置列表的功能。

89

5.1.0-1

在 Cluster WebUI 的设置模式中添加了显示/隐藏和排序以下项目的功能。
- [组的属性] 的组资源列表
- [监视资源一般属性]的监视资源列表

90

5.1.0-1

将集群属性的 [可连接的客户端台数] 的名称更改为 [同时连接会话数] ,并更改了下限值。

91

5.1.0-1

Cluster WebUI 的警报日志中的 [接受时间] 默认为隐藏。

92

5.1.0-1

将Cluster WebUI 状态画面中[重新启动管理器] 按钮的说明更改为[重新启动WebManager服务]。

93

5.1.0-1

从 Cluster WebUI 的设置模式执行 [复制组] 时,可以复制各个组资源的依赖关系。

94

5.1.0-1

在 Cluster WebUI 中,防止错误的 AWS DNS 资源设置。

95

5.1.0-1

在Cluster WebUI中,防止自定义监视资源的[监视方式]设置为[异步]的设置错误。

96

5.1.0-1

在Cluster WebUI中,防止错误的Ping NP解决资源设置。

97

5.1.0-1

在集群统计信息中,可以区分是手动操作的失效切换还是检测到异常后自动进行的失效切换。

5.3. 修改信息

各版本做了以下修改。

No.
修改版本
/ 发生版本
修改项目
重要性
发生条件
发生频率

1

5.0.0-1
/ 1.0.0-1~4.3.2-1
组资源单体启动成功时,同组内的其他组资源会执行恢复操作。

在存在启动异常状态的组资源的状态下,同组内的其他组资源单体启动时会发生。

2

5.0.0-1
/ 4.1.0-1~4.3.2-1

Cluster WebUI 的设定模式下修改组资源的"注释"时,修改内容可能会没有被更新。

在修改组资源的"注释"并按下[适用]按钮后,如将"注释"返回到修改前的状态并点击[OK]按钮时会有修改内容没有被更新的情况。

3

5.0.0-1
/ 4.1.0-1~4.3.2-1

Cluster WebUI 的设定模式下修改监视资源的"注释"时,修改内容可能会没有被更新。

在修改监视资源的"注释"并按下[适用]按钮后,如将"注释"返回到修改前的状态并点击[OK]按钮时会有修改内容没有被更新的情况。

4

5.0.0-1
/ 4.0.0-1~4.3.2-1

在 Cluster WebUI 的状态画面上执行集群操作时,如果发生通信超时,则会再次发出相同的请求。

如果Cluster WebUI和集群服务器之间发生通信超时,则一定会发生该情况。

5

5.0.0-1
/ 4.1.0-1~4.3.2-1

Cluster WebUI 的设定模式下设置依赖关系时,Cluster WebUI 可能会冻结。

2个组资源互相依赖时发生。

6

5.0.0-1
/ 4.2.0-1~4.3.2-1

Clpstat命令的应答可能会延迟。

和其他服务器的通信切断时会发生。

7

5.0.0-1
/ 3.1.0-1~4.3.2-1

集群服务可能不会停止。

在执行集群服务停止时极小可能会发生。

8

5.0.0-1
/ 4.0.0-1~4.3.2-1

监视资源可能会错误地检测到监视超时。

在执行监视资源的监视处理时极小可能会发生。

9

5.0.0-1
/ 4.2.0-1~4.3.2-1

如果使用 clpcfchk 命令通过"-o"选项指定上一次检查结果文件所在的目录,则上一次检查结果将与当前检查结果混合在一起。

在 clpcfchk 命令的"-o"选项中指定上一个检查结果文件 (cfchk_result.csv) 所在的目录时发生。

10

5.0.0-1
/ 4.3.0-1~4.3.2-1

与集群配置检查的 fstab 相关的检查处理可能会失败。

当/etc/fstab的设备名和mount point的路径以"/"结尾时发生。

11

5.0.0-1
/ 4.3.0-1~4.3.2-1

clpcfset 命令可能会异常终止。

属性值中指定了空字符串时会发生。

12

5.0.0-1
/ 4.0.0-1~4.3.2-1

在AWS环境中,强制停止的脚本可能会超时。

在AWS环境中执行强制停止脚本时会发生。

13

5.0.0-1
/ 4.2.0-1~4.3.2-1

HTTP方式的NP解决资源中,当目标响应为状态编码301时会异常。

响应为状态编码301时才会发生。

14

5.0.0-1
/ 4.0.0-1~4.3.2-1

"客户端会话超时"可能在 WebManager 服务中不起作用。

在"客户端会话超时"过去之前未发出下一个请求时会发生。

15

5.0.0-1
/ 4.0.0-1~4.3.2-1

使用共享型(hybrid)镜像磁盘资源时,Cluster WebUI 的状态画面和镜像磁盘画面的服务器显示顺序不一致。

状态画面的服务器显示顺序是优先顺序,镜像磁盘画面的服务器显示顺序是按照所属服务器组的服务器组名的升序排列的,因此当依赖服务器组名时判断时会发生。

16

5.0.0-1
/ 4.0.0-1~4.3.2-1

监视资源的监视处理超时时,可能需要花费一段时间才能检测到监视异常。

监视资源的监视处理超时时极少情况下会发生。

17

5.0.0-1
/ 1.0.0-1~4.3.2-1

当设置了IP监视资源和PING NP解决资源时,可能会发送大量的ICMP包。

在 ICMP 通信处理期间收到意外数据包时发生。

18

5.0.0-1
/ 4.0.0-1~4.3.2-1

将进程资源监视资源的[内存使用量监视]的[持续时间(分)]的表述修改为[最大更新次数(次)]。

在使用 Cluster Web UI 或 clpstat 命令显示属性时发生。

19

5.0.0-1
/ 3.3.2-1~4.3.2-1

当镜像磁盘连接为断开状态时,镜像磁盘相关命令的响应可能会慢。

在多个镜像磁盘连接中,优先度高的为断线状态时会发生。

20

5.0.0-1
/ 1.0.0-1~4.3.2-1

磁盘类型为"raw"的磁盘资源停止可能会失败。

当磁盘资源的磁盘类型为"raw",且资源停止时有进程访问设备时会发生。

21

5.0.0-1
/ 1.0.0-1~4.3.2-1

当镜像磁盘连接断开时,OS可能会间歇性停止响应。

如果镜像磁盘资源或者共享型镜像磁盘资源的模式为"非同步",且发生断开连接时 I/O 负载较高,则可能会发生。

22

5.0.0-1
/ 4.2.0-1~4.3.2-1

EXPRESSCLUSTER Information Base服务可能会异常终止。

当执行以下任一操作时,极小概率会发生发生。
- 集群启动
- 集群停止
- 集群挂起
- 集群恢复

23

5.0.1-1
/ 5.0.0-1

Ubuntu环境下集群配置信息文件转换命令clpcfconv.sh会失败。

在Ubuntu环境下会发生。

24

5.0.1-1
/ 5.0.0-1

当EXPRESSCLUSTER X 3.3 for Linux创建的集群配置信息文件被集群配置信息文件转换命令转换并应用于集群时,镜像代理无法启动。

从 EXPRESSCLUSTER X 3.3 for Linux 升级时使用磁盘镜像资源/共享型镜像磁盘资源时发生。

25

5.0.1-1
/ 5.0.0-1

clprexec 命令的 --script 选项无效。

指定 --script 选项,执行 clprexec 命令时发生。

26

5.0.1-1
/ 5.0.0-1

使用 clpcfset 命令添加强制停止资源时,集群启动失败。

使用clpcfset命令,启动添加了强制停止资源的集群配置信息的集群时发生。

27

5.0.1-1
/ 5.0.0-1

在Amazon Linux 2 环境中无法正常启动内核模式LAN心跳。

在 Amazon Linux 2 环境中发生。

28

5.0.1-1
/ 4.3.0-1~4.3.2-1,5.0.0-1

在使用了ext4文件系统的镜像磁盘资源以及共享型镜像磁盘资源中,通过完全复制进行镜像恢复时,可能无法将正确数据复制到复制目标中。

在使用了ext4文件系统的镜像磁盘资源以及共享型镜像磁盘资源中,通过完全复制进行镜像恢复时发生。

29

5.0.1-1
/ 4.3.2-1,5.0.0-1

在 Oracle 监视资源中,发生监视超时时,重试处理可能无法正常工作。

在 Oracle 监视资源中的监视处理超时时发生。

30

5.0.2-1
/ 5.0.0-1 ~ 5.0.1-1

Amazon CloudWatch联动功能可能不起作用。

在设置Amazon CloudWatch联动功能时极小概率会发生。

31

5.0.2-1
/ 5.0.0-1 ~ 5.0.1-1

从失效切换组的[可以启动组的服务器]列表中删除服务器后,应用配置信息设置时,不会请求组停止。

从失效切换组的[可以启动组的服务器]列表中删除服务器后,应用配置信息设置时会发生。

32

5.0.2-1
/ 4.3.2-1 ~ 5.0.1-1

在镜像磁盘资源或者共享型镜像磁盘资源的文件系统中使用XFS时,启动资源时极小概率会失败。

当在Red Hat Enterprise Linux 8.4 或更高版本中的镜像磁盘资源或共享型镜像磁盘资源的文件系统中使用XFS时会发生。

33

5.0.2-1
/ 5.0.0-1 ~ 5.0.1-1

监视资源可能会误检测到监视超时。

在执行监视资源的监视处理时极小概率会发生。

34

5.0.2-1
/ 1.0.0-1 ~ 5.0.1-1

Keepalive reset以及keepalive panic可能不起作用。

如果Keepalive驱动程序使用的主要编号(10)和次要编号(241)被其他驱动程序使用,则Keepalive reset和Keepalive panic会失败。

35

5.0.2-1
/ 4.3.0-1 ~ 5.0.1-1

可能会发生Tuxedo 监视资源的监视进程异常终止,导致监视异常的情况。

视时机而定发生。

36

5.0.2-1
/ 5.0.0-1 ~ 5.0.1-1

可能会发生对多个服务器执行强制停止失败的情况。

在 拥有3 台以上服务器的集群配置中,从一台服务器到多台服务器执行强制停止时,小概率发生这种情况。

37

5.0.2-1
/ 1.0.0-1 ~ 5.0.1-1

可能会发生clpstat 命令异常终止的情况。

在一个组资源都没注册的失效切换组的环境中发生。

38

5.0.2-1
/ 5.0.0-1 ~ 5.0.1-1

在集群挂起状态下,Cluster WebUI 和 clpstat命令的服务器状态可能会显示为停止。

在集群挂起状态下,重启以下服务时会发生。
- expresscluster_nm
- expresscluster_ib

39

5.0.2-1
/ 5.0.0-1 ~ 5.0.1-1

可能会有组资源和监视资源的状态显示不正确的情况。

当OS启动时集群服务的内部处理出现问题时会发生。

40

5.0.2-1
/ 5.0.0-1 ~ 5.0.1-1

未通过 Cluster Web UI 和 clpstat 命令使用强制停止资源的服务器的状态无法正确显示。

在 3 台以上服务器的集群配置中存在设置为不使用强制停止的服务器时发生。

41

5.0.2-1
/ 5.0.0-1 ~ 5.0.1-1

EXPRESSCLUSTER X 5.0 支持的运行环境OS中,高速 SSD 相关的无效设置项目会显示在Cluster Web UI 中。

始终在镜像磁盘资源以及共享型镜像磁盘资源的高级属性中显示。

42

5.0.2-1
/ 4.3.0-1 ~ 5.0.1-1

可能会发生clpwebmc 进程异常终止的情况。

在集群运行期间极小概率会发生。

43

5.0.2-1
/ 4.3.0-1 ~ 5.0.1-1

如果磁盘资源、镜像磁盘资源、共享型镜像磁盘资源的挂载点中包含空格,则无法正常进行集群配置信息检查功能的 /etc/fstab的入口检查。

在设置包含空格的挂载点并执行集群配置信息检查时发生。

44

5.1.0-1
/ 4.2.0-1 ~ 5.0.2-1

EXPRESSCLUSTER Information Base服务可能会异常终止。

执行集群关闭时极小概率会发生。

45

5.1.0-1
/ 4.2.0-1 ~ 5.0.2-1

有时EXPRESSCLUSTER API服务会异常结束。

特定时间会发生。

46

5.1.0-1
/ 4.0.0-1 ~ 5.0.2-1

期间定制版License到期后,期间定制版License可能优先于产品版License并成为有效的License。

期间定制版License到期后,在注册没有使用的期间定制版License和产品版License时会发生。

47

5.1.0-1
/ 5.0.0-1 ~ 5.0.2-1

BMC强制停止资源的状态异常。

启用 iLO 共享网络端口时发生。

48

5.1.0-1
/ 1.0.0-1 ~ 5.0.2-1

集群恢复可能会失败,集群可能会异常终止。

在存在单一字符名的监视资源、注册了多个同种监视资源的环境中,重复执行集群暂停/恢复时会发生该错误。

49

5.1.0-1
/ 1.0.0-1 ~ 5.0.2-1

当更改集群配置信息时,可能不需要适当的反映方法。

当反映集群配置信息时极小概率会发生。

50

5.1.0-1
/ 3.1.0-1 ~ 5.0.2-1

镜像磁盘相关监视器或共享型镜像磁盘相关监视器的状态可能会变得异常。

在反映更改互连 IP 地址的集群配置信息之后可能会发生。

51

5.1.0-1
/ 1.0.0-1 ~ 5.0.2-1

通过异步镜像中断镜像时,服务器可能处于高负载状态。

镜像磁盘的连接断开,大量未发送数据队列残留时,可能会发生。

52

5.1.0-1
/ 1.0.0-1 ~ 5.0.2-1

当前服务器非法宕机后,按照复旧步骤,可能会出现当前服务器和待机服务器中的数据不一致的情况。

当前服务器非法宕机后,在不启动镜像磁盘资源的情况下执行完全复制镜像复归时可能会发生。

53

5.1.0-1
/ 4.1.0-1 ~ 5.0.2-1

监视资源恢复脚本可能没有执行。

在Cluster WebUI 中开启[复归动作前执行脚本] 后,未编辑脚本或同时进行脚本和其他更改时发生。

54

5.1.0-1
/ 1.0.0-1 ~ 5.0.2-1

设置为不间断监视的监视资源可能不起作用。

将"監监视时间"设置为"启动时"的监视资源的设置更改为"不间断监视"时会发生此错误。

55

5.1.0-1
/ 1.0.0-1 ~ 5.0.2-1

当自定义监视资源停止时,向用户应用程序发出强制终止信号。

停止启用日志轮询的自定义监视资源时就会发生。

56

5.1.0-1
/ 1.0.0-1 ~ 5.0.1-1

HTTP 监视资源的可连接主机名的名称解析可能会失败。

当为连接目的地指定主机名而不是 IP 地址时,可能会发生这种情况。

57

5.1.0-1
/ 4.1.0-1 ~ 5.0.2-1

无法在 [JVM监视资源的调整属性]中设置[Metaspace]的使用量阈值。

经常发生。

58

5.1.0-1
/ 3.1.0-1 ~ 5.0.1-1

执行集群暂停/恢复时,JVM 监视资源的监视可能会失败。

在集群暂停时 ,JVM 监视资源在停止完成之前执行集群恢复时发生。

59

5.1.0-1
/ 3.1.0-1 ~ 5.0.1-1

发生超过JVM监视资源的阈值的异常后,在连续测量达到错误判定阈值的次数后,监视状态可能会恢复正常。

发生超过阈值的异常后,在下一次监视中达到正常值时会发生。

60

5.1.0-1
/ 4.2.0-1 ~ 5.0.2-1

clpstat 命令的显示可能因每个执行服务器而异。

在停止集群服务的服务器上执行命令时会发生。

61

5.1.0-1
/ 3.0.0-1 ~ 5.0.2-1

执行clprexec命令可能会失败。

执行大量命令时会发生。

62

5.1.0-1
/ 4.3.0-1 ~ 5.0.2-1

clpcfset 命令创建的集群配置信息的 XML 属性值可能不正确。

使用 clpcfset 命令添加 id 属性节点时会发生。

63

5.1.0-1
/ 5.0.0-1 ~ 5.0.2-1

clpcfset 命令创建的集群配置信息中的对象数可能不正确。

当使用clpcfset 命令添加/删除包含强制停止资源的集群配置信息时,会发生。

64

5.1.0-1
/ 5.0.0-1 ~ 5.0.2-1

clpcfadm.py 命令可能无法正确执行。

当使用Cluster WebUI对已删除所有失效切换组的集群配置信息执行 clpcfadm.py 命令时,会发生。

65

5.1.0-1
/ 5.0.0-1 ~ 5.0.2-1

通过clpcfadm.py 命令可能会设置不正确的监视资源。

如果在使用 clpcfadm.py 命令添加监视资源时将监视资源类型指定为 jra ,则会发生。

66

5.1.0-1
/ 5.0.0-1 ~ 5.0.2-1

clpcfadm.py 命令创建的集群配置信息中的资源启动/停止超时值可能不正确。

当使用 clpcfadm.py 命令更改需要计算资源启用/停止超时值的参数时,会出现此错误。

67

5.1.0-1
/ 4.2.0-1 ~ 5.0.2-1

使用 RESTful API 获取集群状态可能会失败。

重启 EXPRESSCLUSTER Information Base服务时可能会发生。

68

5.1.0-1
/ 4.2.0-1 ~ 5.0.2-1

RESTful API 获取的集群状态可能与实际状态不一致。

当在与其他服务器的通信断开时获取状态则可能会发生。

69

5.1.0-1
/ 4.2.0-1 ~ 5.0.2-1

通过RESTful API可能无法获取信息。

在执行操作API后立即执行信息获取API时极小概率会发生。

70

5.1.0-1
/ 4.2.2-1 ~ 5.0.2-1

RESTful API 的组信息获取发生异常时的响应不正确。

当集群服务器发生内部错误时会发生这种情况。

71

5.1.0-1
/ 3.1.0-1 ~ 5.0.2-1

可能无法连接Cluster WebUI 。

启用FIPS模式的环境下会发生这种情况。

72

5.1.0-1
/ 4.0.0-1 ~ 5.0.2-1

在注册了多个镜像磁盘资源或共享型镜像磁盘资源的配置中,Cluster WebUI 的显示可能会延迟。

当对多个资源执行镜像复归时,可能会发生这种情况。

73

5.1.0-1
/ 4.0.0-1 ~ 5.0.2-1

使用Cluster WebUI中断镜像复归可能会失败。

从执行镜像复归的 Cluster WebUI 以外的浏览器连接而后中断连接时,或在镜像复归中重新加载浏览器该页面时,会发生这种情况。

74

5.1.0-1
/ 4.1.0-1 ~ 5.0.2-1

使用Cluster WebUI的集群创建向导创建集群时,不会自动注册[管理IP地址]对应的浮动IP监视资源。

通过集群创建向导注册了 [管理IP地址] 时会发生。

75

5.1.0-1
/ 4.1.0-1 ~ 5.0.2-1

在Cluster WebUI中,磁盘资源的启动时超时和停止时超时的设置值可能无法更改。

仅在更改磁盘资源的[磁盘类型]或者[文件系统]时发生。

76

5.1.0-1
/ 4.3.0-1 ~ 5.0.2-1

通过Cluster WebUI获取云环境信息可能会失败。

通过Proxy服务器连接到 Cluster WebUI 时发生。

77

5.1.0-1
/ 4.0.0-1 ~ 5.0.2-1

在Cluster WebUI的设置模式下更改 Azure DNS 资源的 [TTL]也不会反映在记录中。

经常发生。

78

5.1.0-1
/ 4.2.1-1 ~ 5.0.2-1

在Cluster WebUI中,进程名监视资源或进程资源监视资源的进程名设置可能会意外更改。

进程名监视资源或进程资源监视资源的进程名有2字节以上的连续空格时,变更集群配置信息时会发生该错误。

79

5.1.0-1
/ 4.1.0-1 ~ 5.0.2-1

在Cluster WebUI添加Ping NP解决资源组时,组列表显示内容可能不正确。

当在 Ping NP 解决资源的组列表中注册了多个组时,可能会发生。

6. 注意限制事项

本章将阐述注意事项,现有问题及其避免方法。

本章阐述事项如下。

6.1. 研究系统配置时

下文将阐述准备HW,可选产品License,构筑系统和配置共享磁盘时的注意事项。

6.1.1. 功能列表与所需License

下述可选产品需要同服务器个数相当的license。

没有进行License登录的资源,监视器资源不会显示在Cluster WebUI的一览表中。

想要使用的功能

所需License

镜像磁盘资源

EXPRESSCLUSTER X Replicator 5.1 4

共享型镜像磁盘资源

EXPRESSCLUSTER X Replicator DR 5.1 5

Oracle监视器资源

EXPRESSCLUSTER X Database Agent 5.1

DB2监视器资源

EXPRESSCLUSTER X Database Agent 5.1

PostgreSQL监视器资源

EXPRESSCLUSTER X Database Agent 5.1

MySQL监视器资源

EXPRESSCLUSTER X Database Agent 5.1

SQL Server监视器资源

EXPRESSCLUSTER X Database Agent 5.1

ODBC监视器资源

EXPRESSCLUSTER X Database Agent 5.1

Samba监视器资源

EXPRESSCLUSTER X File Server Agent 5.1

nfs监视器资源

EXPRESSCLUSTER X File Server Agent 5.1

http监视器资源

EXPRESSCLUSTER X Internet Server Agent 5.1

smtp监视器资源

EXPRESSCLUSTER X Internet Server Agent 5.1

pop3监视器资源

EXPRESSCLUSTER X Internet Server Agent 5.1

imap4监视器资源

EXPRESSCLUSTER X Internet Server Agent 5.1

ftp监视器资源

EXPRESSCLUSTER X Internet Server Agent 5.1

Tuxedo监视器资源

EXPRESSCLUSTER X Application Server Agent 5.1

WebLogic监视器资源

EXPRESSCLUSTER X Application Server Agent 5.1

WebSphere监视器资源

EXPRESSCLUSTER X Application Server Agent 5.1

WebOTX监视器资源

EXPRESSCLUSTER X Application Server Agent 5.1

JVM监视器资源

EXPRESSCLUSTER X Java Resource Agent 5.1

系统监视器资源

EXPRESSCLUSTER X System Resource Agent 5.1

进程资源监视资源

EXPRESSCLUSTER X System Resource Agent 5.1

邮件通报功能

EXPRESSCLUSTER X Alert Service 5.1

网络警告灯

EXPRESSCLUSTER X Alert Service 5.1

4

配置数据镜像型时,需购买产品"Replicator"。

5

配置共享型镜像磁盘型时,需购买产品"Replicator DR"。

6.1.2. 关于镜像磁盘的需求

  • 通过Linux的md设定的等量磁盘组,卷组,镜像链接,带奇偶校验的等量磁盘组,不能作为镜像磁盘资源的集群分区或数据分区来使用。

  • 通过Linux的 LVM,可将卷作为集群分区或数据分区来使用。
    但是,在SuSE上不能通过LVM或MultiPath将卷作为集群分区或数据分区来使用。(这是因为在SuSE上,针对这些卷,EXPRESSCLUSTER无法进行ReadOnly,ReadWrite的控制。)
  • 作为镜像磁盘资源使用的磁盘不支持基于Linux的md的Stripe Set,Volume Set,磁盘镜像建立,带校验的Stripe Set的功能。

  • 使用镜像磁盘资源时需要镜像用的分区(数据分区和集群分区)。

  • 确保镜像用分区有以下2个方法:

    • 和OS(root分区或swap分区)在同一磁盘上确保镜像用的分区(集群分区和数据分区)

    • 和OS准备(添加)其他磁盘(或者LUN)确保镜像用的分区

  • 可以参考以下条目来选择上面的某种方法。

    • 重视故障维护,性能时
      - 建议在OS之外另外准备镜像用磁盘。
    • 受H/W Raid规格的限制无法添加LUN时
      用H/W Raid的预装模式难于更改LUN的配置时
      - 在同一OS上确保磁盘的镜像用分区。
  • 使用多个镜像磁盘资源时,建议为每个镜像磁盘资源准备(添加)磁盘。
    在同一磁盘上确保使用多个镜像磁盘资源时,可执行出现性能低下或镜像恢复时间较长现象。这与访问Linux OS磁盘的性能相关。
  • 将磁盘作为镜像用磁盘使用时,需要在各服务器间使用相同磁盘。

  • 磁盘接口

    请统一用于确保双方服务器镜像磁盘或镜像用分区的磁盘的接口。

    例)

    组合

    服务器1

    服务器2

    OK

    SCSI

    SCSI

    OK

    IDE

    IDE

    NG

    IDE

    SCSI

  • 磁盘类型

    请统一用于确保双方服务器镜像磁盘或镜像用分区的磁盘的类型。

    例)

    组合

    服务器1

    服务器2

    OK

    HDD

    HDD

    OK

    SSD

    SSD

    NG

    HDD

    SSD

  • 磁盘的扇区大小

    请统一用于确保双方服务器镜像磁盘或镜像用分区的磁盘的逻辑扇区大小。

    例)

    组合

    服务器1

    服务器2

    OK

    逻辑扇区512B

    逻辑扇区512B

    OK

    逻辑扇区4KB

    逻辑扇区4KB

    NG

    逻辑扇区512B

    逻辑扇区4KB

  • 各服务器间作为镜像用磁盘使用的磁盘几何数据不同时,请注意以下事项:

    用fdisk等命令确保的分区容量按照柱面附近的块(单元)数分配。
    请确保数据分区,以使数据分区容量和初始镜像构筑方向形成如下关系。

    复制来源服务器 ≦ 复制目标服务器

    复制来源服务器是指镜像磁盘资源所属的失效切换组中失效切换原则较高的服务器。复制目标服务器是指镜像磁盘资源所属的失效切换组中失效切换原则较低的服务器。

    另外,数据分区的大小在复制源和复制目标处差别较大时,有时会出现初始镜像构筑失败。请确保数据分区为相同程度的大小。

    另外,请注意数据分区的大小在复制来源端和复制目标端上不要超过32GiB, 64GiB, 96GiB, ... (32GiB的倍数)。若数据分区的大小超过32GiB的倍数时,构建初始镜像时有可执行会失败。请确保数据分区的大小为相同程度。

    例)

    组合

    数据分区的大小

    说明

    服务器1侧

    服务器2侧

    OK

    30GiB

    31GiB

    由于双方均在0~32GiB不足的范围内,因此OK

    OK

    50GiB

    60GiB

    由于双方均在2GiB以上~64GiB不足的范围内,因此OK

    NG

    30GiB

    39GiB

    由于超过了32GiB,因此NG

    NG

    60GiB

    70GiB

    由于超过了64GiB,因此NG

6.1.3. 关于共享磁盘的需求

  • 在共享磁盘中使用基于Linux的LVM的Stripe Set,Volume Set,镜像化,带校验的Stripe Set的功能时,磁盘资源中所设分区的ReadOnly,ReadWrite无法由EXPRESSCLUSTER进行控制。

  • 使用LVM功能时,请使用磁盘资源(磁盘类型"lvm")与卷管理资源。

6.1.4. 关于作为共享型镜像磁盘使用的磁盘的需求

  • 作为共享型镜像磁盘资源使用的磁盘不支持基于Linux的md的Stripe Set,Volume Set,镜像化,带校验的Stripe Set的功能。

  • 通过Linux的 LVM,可将卷作为集群分区或数据分区来使用。
    但是,在SuSE上不能通过LVM或MultiPath将卷作为集群分区或数据分区来使用。(这是因为在SuSE上,针对这些卷,EXPRESSCLUSTER无法进行ReadOnly,ReadWrite的控制。)
  • 使用共享型镜像磁盘资源时需要共享型镜像磁盘用的分区(数据分区和集群分区)。

  • 使用共享磁盘装置确保共享型镜像磁盘用的磁盘时,需要有通用共享磁盘装置的服务器之间的磁盘心跳资源用的分区。

  • 从非共享磁盘装置确保共享型镜像磁盘用的磁盘时,分区的确保方法有以下2种。

    • 在同一OS(root分区或swap分区)中的磁盘上确保共享型镜像磁盘用分区(集群分区和数据分区)

    • 准备(添加)不在同一OS上的磁盘(或者LUN),确保共享型镜像磁盘用的分区

  • 可以参考以下条目来选择上面的某种方法。

    • 重视故障维护,性能时
      - 建议在OS之外另外准备共享型镜像磁盘用磁盘。
    • 受H/W Raid规格的限制无法添加LUN时
      用H/W Raid的预装模式难于更改LUN的配置时
      - 在同一OS上确保磁盘的共享型镜像磁盘用分区。

    确保共享型镜像磁盘资源的装置

    必要的分区的种类

    共享磁盘装置

    非共享型磁盘装置

    数据分区

    必要

    必要

    集群分区

    必要

    必要

    磁盘心跳用分区

    必要

    不要

    确保和OS同一磁盘(LUN)

    -

    可执行

  • 使用多个共享型镜像磁盘资源时,建议为每个共享型镜像磁盘资源单独准备(添加)LUN。
    在同一磁盘上确保使用多个共享型镜像磁盘资源时,可执行出现性能低下或镜像恢复时间较长的现象。这与访问Linux OS磁盘的性能相关。
  • 各服务器间作为共享型镜像磁盘用磁盘所使用的磁盘的种类及几何数据不同时,请注意以下事项:

    请确保数据分区的容量和初始镜像构筑方向形成如下关系

    复制来源服务器 ≦ 复制目标服务器

    复制来源服务器是指共享型镜像磁盘资源所属的失效切换组中失效切换原则较高的服务器。复制目标服务器是指共享型镜像磁盘资源所属的失效切换组中失效切换原则较低的服务器

    另外,数据分区的大小在复制源和复制目标处差别较大时,有时会出现初始镜像构筑失败。请确保数据分区为相同程度的大小。

    另外,请注意数据分区的大小在复制来源端和复制目标端上不要超过32GiB, 64GiB, 96GiB, ... (32GiB的倍数)。若数据分区的大小超过32GiB的倍数时,构建初始镜像时有可执行会失败。请确保数据分区的大小为相同程度。

    例)

    组合

    数据分区的大小

    说明

    服务器1侧

    服务器2侧

    OK

    30GiB

    31GiB

    由于双方均在0~32GiB不足的范围内,因此OK

    OK

    50GiB

    60GiB

    由于双方均在2GiB以上~64GiB不足的范围内,因此OK

    NG

    30GiB

    39GiB

    由于超过了32GiB,因此NG

    NG

    60GiB

    70GiB

    由于超过了64GiB,因此NG

6.1.5. 关于IPv6环境

在IPv6环境下,不能使用以下功能。

  • AWS Elastic IP 资源

  • AWS 虚拟 IP资源

  • AWS 辅助 IP资源

  • AWS DNS资源

  • Azure 探头端口资源

  • Azure DNS资源

  • Google Cloud 虚拟 IP 资源

  • Google Cloud DNS 资源

  • Oracle Cloud 虚拟 IP 资源

  • AWS Elastic IP 监视资源

  • AWS 虚拟 IP监视资源

  • AWS 辅助 IP监视资源

  • AWS AZ监视资源

  • AWS DNS监视资源

  • Azure 探头端口监视资源

  • Azure 负载均衡监视资源

  • Azure DNS监视资源

  • Google Cloud 虚拟 IP 监视资源

  • Google Cloud 负载均衡监视资源

  • Google Cloud DNS 监视资源

  • Oracle Cloud 虚拟 IP 监视资源

  • Oracle Cloud 负载均衡监视资源

以下功能不能使用本地链路地址。

  • LAN心跳资源

  • 内核模式LAN心跳资源

  • 镜像磁盘连接

  • PING网络分区解决资源

  • FIP资源

  • VIP资源

6.1.6. 关于网络设置

在NAT环境等自身服务器的IP地址和对方服务器的IP地址在不同服务器上形成不同的配置时,不能构筑/运用集群。

下图显示的是通过NAT设备连接不同网络的2台服务器。
在此,将NAT设备设置为“从External network发往 10.0.0.2的数据包,转发到Internal network”。
但是,考虑到在此环境中使用Server 1和 Server 2配置集群,在各个服务器中要指定不同的网络IP地址。
像这样,各服务器位于不同子网的环境中,则集群无法正确构建/运行。
跨NAT设备连接的2台服务器

图 6.1 无法配置集群的环境的示例

  • Server 1中的集群设置

    • 自身服务器: 10.0.0.1

    • 对方服务器: 10.0.0.2

  • Server 2中的集群设置

    • 自身服务器: 192.168.0.1

    • 对方服务器: 10.0.0.1

6.1.7. 关于监视器资源恢复工作的"最终工作前执行脚本"

3.1.0-1以上版本,重新启动前和失效切换前也可执行脚本。
重新启动前和失效切换前均执行同一脚本。因此,如果3.1.0-1之前的旧版本上设定为"执行最终工作前脚本"时,需要对脚本文件进行编辑。
追加重新启动前,失效切换前的执行脚本的设定时,需要对脚本进行编辑,根据恢复工作进行特定处理的记载。
关于复归操作的特定内容,请参考《参考指南》的"监视资源的详细信息"中记载的"关于复归脚本,复归操作前的脚本"。

6.1.9. 关于镜像磁盘资源,共享型镜像磁盘资源的write性能

镜像磁盘资源/共享型镜像磁盘资源的磁盘镜像建立有同步镜像和非同步镜像2种方式。

同步镜像时,每当向镜像化对象的数据分区发出写入请求,都会向两台服务器的磁盘执行写入,并等待其结束。虽然向各服务器的写入是同时执行的,但向其它服务器的磁盘写入是通过网络进行的,所以与不进行镜像化的普通本地磁盘相比写入性能会降低。特别是网络通信速度慢,延迟时间长的远程集群结构,性能会大幅下降。

非同步镜像时,向自身服务器写出是立即执行的,而向其它服务器的写出会先保存到本地队列中,在后台写出。是即使是非同步镜像时,也会在每次发出写入请求时将更新数据保存在队列中,与不建立镜像的普通本地磁盘和共享磁盘相比,写入性能会有降低。因此,向磁盘的写入处理需要较高吞吐量的系统(更新服务器较多的数据库系统等) ,推荐使用共享磁盘。

此外,非同步镜像时,虽然保证写入顺序,但运行服务器如宕机,可执行会丢失最新的更新内容。因此,如想在故障发生前一刻保证此刻信息切实被交接,需要使用同步镜像或者共享磁盘。

6.1.10. 关于非同步镜像的历史文件

在非同步模式的镜像磁盘/共享型镜像磁盘中,内存上的队列里记录不下的写入数据,会临时作为历史文件记录到被指定为历史文件夹的目录下。没有设置该历史文件的大小限制时,可以不受限制地写出到所指定的文件夹内。因此在这种设置的情况下,如果线路速度比业务应用程序的磁盘更新量低很多,则向远程服务器的写入处理赶不上磁盘更新的速度,磁盘里就会充斥历史文件。因此,远程集群结构也需要根据业务AP的磁盘更新量保证通信线路的速度。

另外,如果由于长时间的通信延迟或持续的磁盘更新导致历史文件存储目录溢出,需要确保指定的目录中有足够的可用空间来写入历史文件,设置历史文件的大小限制,或指定与系统磁盘不同的磁盘上的目录。

6.1.11. 勿将镜像磁盘资源,共享型镜像磁盘资源作为syslog的输出目的地

请不要将挂载了镜像磁盘资源和共享型镜像磁盘资源的目标或子目录,文件设为syslog的输出目的地。
镜像磁盘连接被切断时,在检测到无法通信之前,可执行会停止对镜像磁盘分区的I/O。此时syslog可执行会停止输出,系统变为异常。
若需要对镜像磁盘资源,共享型磁盘资源输出syslog,请考虑以下方法。
  • 使用bonding作为镜像磁盘连接的路径二重化方法。

  • 调整用户空间监视的超时值和镜像相关的超时值。

6.1.12. 镜像磁盘资源,共享型镜像磁盘资源终止时的注意事项

  • 若有对加载了镜像磁盘资源和共享型磁盘资源的目录和子目录,文件进行访问的进程,在关机或失效切换等各磁盘资源处于停止状态时,请使用结束脚本等终止对各磁盘资源的访问。
    根据各磁盘资源的设置,有时会发生当卸载时查出异常而进行的操作(强行终止访问了磁盘资源的进程),卸载失败停止异常时的复归操作(OS关机等)。
  • 若对加载了镜像磁盘资源和共享型磁盘资源的目录和子目录,文件进行了大量访问,当对磁盘资源执行停止卸载时,将文件系统缓存写入磁盘时可执行耗费很长时间。
    此时,为了保证对磁盘的写能正常终止,在设置卸载超时时间时,请留出足够的富余。
  • 关于上述设置,
    请参考《参考指南》的"组资源的详细信息"的"理解镜像磁盘资源","理解共享型镜像磁盘资源"的[复归操作]标签页,[详细]标签页的[调整]属性[卸载]标签页。

6.1.13. 多个异步镜像之间的数据一致性

异步模式的镜像磁盘/共享型镜像磁盘中,运行服务器的数据分区的写入,以相同顺序在待机服务器中也进行实施。
镜像磁盘的初始构成中或者镜像化中断后的复原中(复制)之外的情况下,由于保证了写入的顺序,因此能够保证待机服务器数据分区中的文件之间数据的一致性。
但是,在多个镜像磁盘/共享型镜像磁盘资源之间无法保证写入的顺序,例如像数据库的数据库文件和日志文件,一方的文件比另一方文件旧的时候,无法保证数据一致性的文件分散配置到多个异步镜像磁盘中,那么由于服务器宕机等原因引起失效切换时,可执行会发生业务应用程序无法正常运行。
因此,这类型的文件必须配置在同一个异步镜像磁盘/共享型镜像磁盘上。

6.1.14. 关于中断了镜像同步时的参照同步方的镜像数据

针对镜像同步中状态的镜像磁盘或共享型磁盘,通过镜像磁盘列表或clpmdctrl / clphdctrl 命令(带--break / -b / --nosync 参数)中断镜像同步时,即使对镜像同步方侧(复制方侧)的服务器的镜像磁盘进行强制启动(访问限制解除)或强制镜像复归,使其变为可以访问状态,此文件系统或应用程序数据也有可执行发生异常。
这是因为,在镜像同步源侧(资源被启动的一侧)的服务器上,正处于应用程序写入镜像磁盘区域的途中,或处于OS的缓存等(内存上)上的数据等的一部分被保持的状态下写入或实际上尚未写入镜像磁盘的状态,或处于写入途中的状态等,尚未与同步方实现同步的部分和已实现同步的部分混在一起,而无法确保数据一致的状态下,会定时发生中断镜像同步。
针对镜像同步方侧(备用侧)的镜像磁盘,想在无法确保数据一致的状态下访问时,请在镜像同步源侧(运行侧,资源已0启动的一侧)确保静止点之后,再中断镜像的同步。或者,一旦将其设为停止状态来确保静止点。(通过结束应用程序来结束向镜像区域的访问,通过镜像磁盘的unmount将OS的缓存等全部写入镜像磁盘。)
同样,针对镜像复归途中(镜像再同步途中)的镜像磁盘或共享型磁盘,想中断镜像复归时,即使对镜像同步方侧的镜像磁盘进行强制启动(访问限制解除)或强制镜像复归,使其变为可以访问状态,此文件系统或应用程序数据也有可执行发生异常。
这也因为,同样会存在尚未实现同步的部分和已实现同步的部分混在一起混在,而无法确保数据一致的状态下,会发生中断镜像复归。

6.1.15. 关于O_DIRECT在镜像磁盘,共享型镜像磁盘资源上的使用

请勿将open()系统调用的O_DIRECT插件用于镜像磁盘资源,共享型镜像磁盘资源的镜像分区设备(/dev/NMPx)。
例如Oracle的设置参数filesystemio_options = setall等就属此类参数。
此外,请勿将镜像磁盘资源,共享型镜像磁盘资源的镜像分区设备(/dev/NMPx)设置为磁盘监视资源的O_DIRECT方式。

6.1.16. 关于镜像磁盘,共享型镜像磁盘初始化构筑的时间

在ext2/ext3/ext4/xfs与其他文件系统中,初始化镜像以及全面镜像所需的时间各异。

注解

xfs时,资源停止时所需的时间将更短。

6.1.17. 关于镜像磁盘,共享型镜像磁盘连接

  • 对镜像磁盘,共享型镜像磁盘连接进行冗余化处理时,需要两个IP地址使用同一版本。

  • 请将所有镜像磁盘连接的IP地址设置为IPv4或者IPv6的其中一方。

6.1.18. 关于JVM监视资源

  • 可同时进行监视的Java VM最多是25个。可同时监视的Java VM指,通过Cluster WebUI ([监视(固有)]标签->[识别名])可进行唯一识别的Java VM的数量。

  • Java VM和Java Resource Agent之间的回收不支持SSL。

  • 有时可执行不能检测出线程死锁。这是已经确认的来自JavaVM的缺陷。详细内容请参考Oracle的Bug Database的"Bug ID: 6380127 "。(2011年10月现在)。

  • JVM监视资源可监视的Java VM需与JVM监视器资源工作时的服务器在同一服务器内。

  • JVM监视资源可监视的JBoss的服务器实例1个服务器上最多只有一个实例。

  • 通过Cluster WebUI (集群属性->[JVM监视]标签页->[Java安装路径])进行设定的Java安装路径在集群内的服务器内属于共通设定。关于JVM监视中使用的Java VM的版本以及升级版本,请在集群内服务器上使用同一版本。

  • 通过Cluster WebUI (集群属性->[JVM监视]标签页->[连接设定]对话框->[管理端口号])进行设定的管理端口号在集群内的服务器内属于共通设定。

  • x86_64版OS上运行IA32版的监视对象的应用程序时,不能进行监视。

  • 如果将通过Cluster WebUI (集群属性->[JVM监视]标签页->[最大Java堆大小])设置的最大Java堆大小值设置为3000等大数值,则JVM监视资源会启动失败。由于依赖于系统环境,请根据系统的内存搭载容量来决定。

  • 在监视对象Java VM的启动选项添加了「-XX:+UseG1GC」时,在Java 7以前则不能监视JVM监视资源的[属性]-[监视(固有)]标签页-[调整]属性-[内存]标签内的设置项目。
    在Java 8以上则可通过在JVM监视资源的[属性]-[监视(固有)]标签页- [JVM类型]选择[Oracle Java(usage monitoring)]来进行监视。

6.1.19. 关于网络警告灯的要求

  • 使用"DN-1000S","DN-1500GL"时,请勿设置警告灯密码。

  • 因回放音频文件而出现警告时,应将音频文件重新登录到"音频文件回放对应的网络警告灯"上。
    有关音频文件登录,请参阅"各网络警告灯"使用说明书。
  • 在网络警告灯里请设置允许来自集群内的服务器的rsh命令执行。

6.2. 安装OS前,安装OS时

请在安装OS时注意即将决定的参数,资源确保,命名规则等。

6.2.1. 关于镜像用磁盘

  • 磁盘分区

    例)在双方服务器上增加1个SCSI磁盘,创建1个镜像磁盘Pair时

    图中的2台服务器中都添加了SCSI磁盘。
    磁盘被分为集群分区(Cluster partition)和数据分区(Data partition)。这个分区的组是镜像磁盘资源的失效切换单位,被称为镜像分区设备。
    2台服务器,每台服务器都连接1个磁盘

    图 6.2 磁盘和分区配置(添加SCSI磁盘时)

    例)使用存储双方服务器OS的IDE磁盘剩余容量创建镜像磁盘Pair时

    在该图中,内置磁盘的OS未使用的区域被用作镜像分区设备(集群分区,数据分区)。

    内置磁盘的2台服务器

    图 6.3 磁盘和分区配置(使用现有磁盘的可用空间时)

  • 镜像分区设备是EXPRESSCLUSTER磁盘镜像驱动程序向上层提供的设备。

  • 确保集群分区和数据分区的2个分区为Pair。

  • 可以在处于和OS(root分区或swap分区)相同的磁盘上确保镜像分区(集群分区,数据分区)。

    • 重视故障维护,性能时
      建议准备OS(root分区或swap分区)之外的镜像用磁盘。
    • 受H/W Raid规格的限制无法添加LUN时
      用H/W Raid的预装模式难于更改LUN的配置时

    可以在处于OS(root分区或swap分区)内的磁盘上确保镜像分区(集群分区,数据分区)。

  • 磁盘配置

    可以将多个磁盘用作镜像磁盘。

    另外,可以在1个磁盘中分配多个镜像分区设备加以利用。

    例)在双方服务器上增设2个SCSI磁盘,创建2个镜像磁盘Pair时。

    2台服务器,每台服务器都连接2个SCSI磁盘

    图 6.4 多个磁盘被用作镜像分区

    • 请在1个磁盘上用Pair确保集群分区和数据分区。

    • 不能将数据分区作为第1个磁盘,集群分区作为第2个磁盘使用。

    例)在双方服务器上增设1个SCSI磁盘,创建2个镜像分区时

    该图显示了在1个磁盘内保留2个镜像分区时的情况。

    2台服务器,每台服务器都连接1个SCSI磁盘

    图 6.5 将磁盘内的多个区域用作镜像分区

    • 磁盘不支持基于Linux的md的Stripe Set,Volume Set,磁盘镜像建立,带校验的Stripe Set的功能。

6.2.2. 关于共享型镜像磁盘资源用磁盘

  • 磁盘分区

    可以使用共享磁盘或非共享型磁盘(服务器内置,服务器间不共享的外置型磁盘机箱等)。

例)在2台服务器上使用共享磁盘,并在第3台服务器上使用服务器的内置磁盘时

该图显示的是,将Server 3的内置磁盘用作镜像分区设备。

连接共享磁盘的2台服务器和没有连接共享磁盘的1台服务器

图 6.6 磁盘和分区配置(使用共享磁盘和内置磁盘时)

  • 镜像分区设备是EXPRESSCLUSTER磁盘镜像驱动程序向上层提供的设备。

  • 确保集群分区和数据分区的2个分区为Pair。

  • 使用非共享型磁盘(服务器内置,服务器间不共享的外置型磁盘机箱等)时,可以在处于OS(root分区或swap分区)内的磁盘上确保镜像分区(集群分区,数据分区)。

    • 重视故障维护,性能时
      建议准备OS(root分区或swap分区)之外的镜像用磁盘。
    • 受H/W Raid规格的限制无法添加LUN时
      用H/W Raid的预装模式难于更改LUN的配置时

    可以在OS(root分区或swap分区)所在的磁盘上确保镜像分区(集群分区,数据分区)。

  • 使用共享磁盘装置确保共享型镜像磁盘用的磁盘时,需要有通用共享磁盘装置的服务器之间的磁盘心跳资源用的分区。

  • 不支持基于Linux的md的Stripe Set,Volume Set,磁盘镜像建立,带校验的Stripe Set的功能。

6.2.3. 依存库

  • libxml2

    请在安装OS时安装libxml2。

6.2.4. 依存驱动程序

  • softdog

    • 在用户空间监视资源的监视方法softdog时,需要该驱动程序。

    • 请构筑Loadable模块。不能在静态驱动程序上运行。

6.2.5. 所需的数据包

安装OS时请安装以下数据包。

  • tar

  • NetworkManager-config-server

6.2.6. 镜像驱动程序的主编号

使用镜像驱动的主编号218。
请不要在其他设备驱动程序上使用主编号218。

6.2.7. 内核模式LAN心跳驱动程序,KeepAlive驱动程序的主编号

  • 内核模式LAN心跳驱动程序使用主编号10,副编号253。

  • KeepAlive驱动程序使用主编号10,副编号254。

请确保不要在其他驱动程序上使用上述主,副编号。

6.2.8. 确保磁盘监视资源用于RAW监视的分区

  • 请在设置磁盘监视资源的RAW监视时准备监视专用的分区。请确保分区大小为10MB。

6.2.9. 设置SELinux

6.2.10. 设置NetworkManager

  • 在Red Hat Enterprise Linux 6环境中运行NetworkManager服务的情况下,网络切断时会出现意外动作(通信径路迂回,网络接口消失等),建议进行停止NetworkManager 的设置。

6.2.11. LVM 元数据服务的配置

  • 在Red Hat Enterprise Linux 7以后的环境中,卷管理资源以及卷管理监视资源执行LVM的控制/监视时,需要将LVM元数据服务设定为无效。
    将元数据服务变为无效的步骤如下。
    1. 通过以下的命令,请停止LVM元数据服务。

      # systemctl stop lvm2-lvmetad.service
    2. 编辑/etc/lvm/lvm.conf,将use_lvmetad的值设定为0。

6.2.12. 设置安全启动

  • 禁用安全启动设置。

6.3. 安装OS后,安装EXPRESSCLUSTER前

OS安装结束后,请注意OS和磁盘的设置。

6.3.1. 通信端口号

EXPRESSCLUSTER使用以下端口号。该端口号可以在Cluster WebUI上更改。
请不要在EXPRESSCLUSTER以外的程序上访问如下端口号。
在服务器上设置防火墙时,请将如下端口号设置为能访问。

安装EXPRESSCLUSTER后可以通过clpfwctrl命令设置防火墙。详细内容请参考《参考指南》的"EXPRESSCLUSTER命令参考"的"添加防火墙规则(clpfwctrl命令)"。 此外,关于clpfwctrl命令设置的端口,是下表clpfwctrl列中打✓ 的端口。

在Cloud环境的情况下,不仅可以在实例侧的防火墙设置中访问以下端口号,还可以在Cloud基盘侧的安全设置中访问以下端口号

  • [服务器/服务器间] [服务器内循环]

    From

    To

    备注

    clpfwctrl

    服务器

    自动分配 6

    服务器

    29001/TCP

    内部通信

    服务器

    自动分配

    服务器

    29002/TCP

    数据发送

    服务器

    自动分配

    服务器

    29002/UDP

    心跳

    服务器

    自动分配

    服务器

    29003/UDP

    警告同步

    服务器

    自动分配

    服务器

    29004/TCP

    镜像代理间通信

    服务器

    自动分配

    服务器

    29006/UDP

    心跳(内核模式)

    服务器

    自动分配

    服务器

    29008/TCP

    集群信息管理

    服务器

    自动分配

    服务器

    29010/TCP

    Restful API 内部通信

    服务器

    自动分配

    服务器

    XXXX 7 /TCP

    镜像磁盘资源数据同步

    服务器

    自动分配

    服务器

    XXXX 8 /TCP

    镜像驱动程序间通信

    服务器

    自动分配

    服务器

    XXXX 9 /TCP

    镜像驱动程序间通信

    服务器
    icmp
    服务器
    icmp
    镜像驱动程序间KeepAlive
    FIP/VIP资源的重复确认
    镜像代理

    服务器

    自动分配

    服务器

    XXXX 10 /UDP

    内部日志用通信

  • [服务器・客户端之间]

    From

    To

    备注

    clpfwctrl

    Restful API 客户端

    自动分配

    服务器

    29009/TCP

    http通信

  • [服务器・Cluster WebUI之间]

    From

    To

    备注

    clpfwctrl

    Cluster WebUI

    自动分配

    服务器

    29003/TCP

    http通信

  • [其他]

    From

    To

    备注

    clpfwctrl

    服务器

    自动分配

    网络警告灯

    请参照各产品的手册

    控制网络警告灯

    服务器

    自动分配

    服务器的BMC的管理LAN

    623/UDP

    控制BMC (强制停止)

    服务器

    自动分配

    Witness 服务器

    通过Cluster WebUI中设定的通信端口号

    Witness 心跳资源的连接目标主机

    服务器

    icmp

    监视对象

    icmp

    IP监视

    服务器

    icmp

    监视对象

    icmp

    Ping方式网络分区解决资源的监视对象

    服务器

    自动分配

    监视目标

    通过Cluster WebUI 设定的通信端口号

    HTTP 方式网络分区解决资源的监视目标

    服务器

    自动分配

    服务器

    通过Cluster WebUI设定的管理端口号 11

    JVM监视器

    服务器

    自动分配

    监视对象

    通过Cluster WebUI设定的管理端口号 11

    JVM监视器

    服务器

    自动分配

    服务器

    通过Cluster WebUI设定的Probe端口 12

    Azure 探头端口资源

    服务器
    自动分配
    AWS区域端点
    443/tcp 13
    AWS Elastic IP资源
    AWS虚拟IP资源
    AWS辅助IP资源
    AWS DNS资源
    AWS Elastic IP监视资源
    AWS虚拟IP监视资源
    AWS辅助IP监视资源
    AWS AZ监视资源
    AWS DNS监视资源
    AWS 强制停止资源

    服务器

    自动分配

    Azure端点

    443/tcp 14

    Azure DNS资源

    服务器

    自动分配

    Azure的权威DNS服务器

    53/udp

    Azure DNS监视资源

    服务器

    自动分配

    服务器

    在Cluster WebUI中设置的端口号 12

    Google Cloud 虚拟 IP 资源

    服务器

    自动分配

    服务器

    在Cluster WebUI中设置的端口号 12

    Oracle Cloud 虚拟 IP 资源

6

自动分配是指该时刻未使用的端口号将被分配。

7

即每个镜像磁盘资源,共享型镜像磁盘资源使用的端口号。在创建镜像磁盘资源,共享型镜像磁盘资源时设置。初始值设置为29051。此外,每添加1个镜像磁盘资源,共享型镜像磁盘资源,值就会自动加1。更改时,用Cluster WebUI的 [镜像磁盘资源属性]-[详细],[共享型镜像磁盘资源属性]-[详细]标签页设置。详细内容请参考《参考指南》的"组资源的详细信息"。

8

即每个镜像磁盘资源,共享型镜像磁盘资源使用的端口号。在创建镜像磁盘资源,共享型镜像磁盘资源时设置。初始值设置为29031。此外,每添加1个镜像磁盘资源,共享型镜像磁盘资源,值就会自动加1。更改时,用Cluster WebUI的 [镜像磁盘资源属性]-[详细],[共享型镜像磁盘资源属性]-[详细]标签页设置。详细内容请参考《参考指南》的"组资源的详细信息"。

9

即每个镜像磁盘资源,共享型镜像磁盘资源使用的端口号。在创建镜像磁盘资源,共享型镜像磁盘资源时设置。初始值设置为29071。此外,每添加1个镜像磁盘资源,共享型镜像磁盘资源,值就会自动加1。更改时,用Cluster WebUI的 [镜像磁盘资源属性]-[详细],[共享型镜像磁盘资源属性]-[详细]标签页设置。详细内容请参考《参考指南》的"组资源的详细信息"。

10

在集群属性, 端口号(日志)的标签中,将[日志的通信方式]选为 [UDP],使用在端口号中设定的端口号。日志的通信方法[UNIX Domain] 默认为不使用通信端口。

11(1,2)

JVM监视资源使用以下的2个端口号。

  • 管理端口号为JVM监视资源内部用的端口号。可在Cluster WebUI的[集群属性]-[JVM监视]标签页[连接设置] 对话框上进行设置。有关详情,请参阅《参考指南》的"参数的详细信息"。

  • 连接端口号为与监视目标(WebLogic Server, WebOTX)的Java VM建立连接的端口号。可在Cluster WebUI的相应的JVM监视资源名的[属性]-[监视(固有)]标签页上进行设置。有关详情,请参阅《参考指南》的"监视资源的详细信息"。

12(1,2,3)

负载均衡器进行各服务器的死活监视时所使用的端口号。

13

以下的AWS相关资源执行AWS CLI。AWS CLI使用上述端口号。

  • AWS Elastic IP 资源

  • AWS 虚拟 IP资源

  • AWS 辅助 IP资源

  • AWS DNS资源

  • AWS Elastic IP 监视资源

  • AWS 虚拟 IP监视资源

  • AWS 辅助 IP监视资源

  • AWS AZ监视资源

  • AWS DNS监视资源

  • AWS 强制停止资源

14

对于Azure DNS 资源,执行Azure CLI。Azure CLI中使用上述端口。

6.3.2. 更改通信端口号的自动分配的范围

  • OS所管理的通信端口号的自动分配的范围有可执行与EXPRESSCLUSTER所使用的通信端口号重复。

  • 通信端口号的自动分配的范围与EXPRESSCLUSTER所使用的通信端口号重复时,请更改OS的设置使通信端口号不重复。

OS的设置状态的确认例/显示例

通信端口号的自动分配的范围需依靠Distribution。

# cat /proc/sys/net/ipv4/ip_local_port_range
1024 65000

如上是应用程序向OS请求通信端口号的自动分配时,被分配到1024~65000的范围内的状态。

# cat /proc/sys/net/ipv4/ip_local_port_range
32768 61000

如上是应用程序向OS请求通信端口号的自动分配时,被分配到32768~61000的范围内的状态。

更改OS设置例

在/etc/sysctl.conf 增加如下所示的一行。(更改为30000~65000时)

net.ipv4.ip_local_port_range = 30000 65000

此设置要在OS重启后才能变为有效。

修改/etc/sysctl.conf之后,通过执行以下的命令可以实现即时反映。

# sysctl -p

6.3.3. 关于避免端口数不足的设置

EXPRESSCLUSTER的构成中使用了多个服务器,多个资源时,EXPRESSCLUSTER的内部通信所使用的临时端口不足,作为集群服务器可执行不能正常运行。
必要时请调整临时端口的可用范围和释放临时端口所需的时间。

6.3.4. 时钟同步的设置

建议在集群系统上定期进行多个服务器的时钟同步。请使用ntp等同步服务器的时间。

6.3.5. 关于NIC设备名

根据ifconfig命令的规则,若NIC设备名被缩短,则EXPRESSCLUSTER所处理的NIC设备名的长短也需要相应变更。

6.3.6. 关于共享磁盘

  • 重新安装服务器等,继续使用共享磁盘上的数据时,请不要进行确保分区和创建文件系统。

  • 如果进行分区确保和文件系统的创建,共享磁盘上的数据将被删除。

  • 共享磁盘上的文件系统由EXPRESSCLUSTER控制。请不要将共享磁盘的文件系统登录到OS的/etc/fstab中。
    (需要登录/etc/fstab时,请不要使用ignore参数,而是使用noauto参数)
  • 请为用于磁盘心跳的分区至少保留10MB (10*1024*1024 字节) 。此外,无需为用于磁盘心跳的分区构筑文件系统。

  • 共享磁盘的设置步骤请参考《安装&设置指南》。

6.3.7. 关于镜像用磁盘

  • 设置镜像磁盘资源管理用分区(集群分区)和镜像磁盘资源使用的分区(数据分区)。

  • 镜像磁盘上的文件系统由EXPRESSCLUSTER控制。请不要将镜像磁盘的文件系统登录到OS的/etc/fstab中。
    (请不要将镜像分区设备以及镜像的mount point,镜像分区以及数据分区登录到OS 的/etc/fstab。)
    (也不要登录到带ignore参数的 /etc/fstab中。
    在ignore登录时,mount的执行时登录会被忽视,在fsck执行时有可执行发生错误。)

    (此外,在noauto 参数登录到/etc/fstab时,也有可执行错误地进行手动mount,或不能排除因某种应用程序而进行mount的可执行性,因此不推荐这种操作方法。)

  • 请为集群分区至少保留1024MiB。(即使精确指定1024MB,由于磁盘的几何数据差异,实际上将保留大于1024BM的大小,但这并不是问题)。此外,请勿在集群分区上构筑文件系统。

  • 镜像磁盘的设置步骤请参考《安装&设置指南》。

6.3.8. 关于共享型镜像磁盘资源用磁盘

  • 设置共享型镜像磁盘资源管理用分区(集群分区)和共享型镜像磁盘资源使用的分区(数据分区)。

  • 使用共享磁盘装置确保共享型镜像磁盘时,确保通用共享磁盘装置的服务器间的磁盘心跳资源用分区。

  • 共享型镜像磁盘上的文件系统由EXPRESSCLUSTER控制。请不要将共享型镜像磁盘的文件系统登录到OS的/etc/fstab中。
    (请不要将镜像分区设备以及镜像的mount point,镜像分区以及数据分区登录到OS 的/etc/fstab。)
    (也不要登录到带ignore参数的 /etc/fstab中。
    在ignore登录时,mount的执行时登录会被忽视,在fsck执行时有可执行发生错误。)
    (此外,在noauto 参数登录到/etc/fstab时,也有可执行错误地进行手动mount,或不能排除因某种应用程序而进行mount的可执行性,因此不推荐这种操作方法。)
  • 请为集群分区至少保留1024MiB。(即使精确指定1024MB,由于磁盘的几何数据差异,实际上将保留大于1024BM的大小,但这并不是问题)。此外,请勿在集群分区上构筑文件系统。

  • 共享型镜像磁盘用磁盘的设置步骤请参考《安装&设置指南》。

  • 在本系统内,必须手动在共享型镜像磁盘所使用的数据分区上设置文件系统。忘记设置时,请参照《安装&设置指南》的"确定系统配置 配置硬件后的设置"。

6.3.9. 在镜像磁盘资源,共享型磁盘资源使用ext3或者ext4时

6.3.9.1. 关于Block size

对于镜像磁盘资源或者共享性磁盘资源的数据分区,手动执行mkfs命令,构建ext3或者ext4文件系统时,请不要将Block size指定为1024。

镜像磁盘资源以及共享型磁盘资源不支持Block size 1024。要明确指定Block size时,请指定2048或者4096。

6.3.10. OS启动时间的调整

请将从开启电源到OS启动为止的时间,调整为超过如下2种时间的长度。

  • 使用共享磁盘时,从接通磁盘的电源到可以使用的时间

  • 心跳超时时间

    设置步骤请参考《安装&设置指南》。

6.3.11. 网络的确认

  • 用心跳线和镜像数据传输线确认要使用的网络。请在集群内的所有服务器上确认。

  • 设置步骤请参考《安装&设置指南

6.3.12. 关于OpenIPMI

  • 在以下功能中使用OpenIPMI。

  • 组资源启动异常时/停止异常时的最终运行

  • 监视资源异常时的运行

  • 用户空间监视资源

  • 关机监视

  • 物理机的强制停止功能

  • 在EXPRESSCLUSTER中没有附加OpenIPMI。用户请另行自行安装OpenIPMI的 rpm 文件。

  • 对于能否支持已经预定要使用的服务器(硬件)的OpenIPMI的问题,请用户提前进行确认。

  • 即使在作为硬件依据IPMI规格标准时,由于实际上OpenIPMI有时不运行,因此请多加注意。

  • 使用服务器厂商所提供的服务器监视软件时,请不要选择IPMI作为用户空间监视资源和Shutdownstall监视的监视方法。
    由于这些服务器监视软件和OpenIPMI共同使用服务器上的BMC(Baseboard Management Controller),因此会发生冲突,令监视无法正常进行。

6.3.13. 关于用户空间监视资源,关机监视(监视方法softdog)

  • 监视方法中设置为softdog时,请使用softdog驱动。
    在EXPRESSCLUSTER以外使用softdog驱动的功能请设置为不运行。
    例如:确认了相应的以下那样的功能。
    • OS标准附带的heartbeat

    • i8xx_tco驱动

    • iTCO_WDT驱动

    • systemd 的watchdog功能,关机监视功能。

  • 监视方法中设置为softdog时,请设置为不运行OS标准附带的heartbeat。

  • 在SUSE LINUX 11中,监视方法设为softdog时,无法与i8xx_tco驱动同时使用。不使用i8xx_tco驱动时,请设置为不装载i8xx_tco。

  • Red Hat Enterprise Linux 6时,监视方法里设置了softdog的场合,不能同时使用iTCO_WDT驱动。不使用iTCO_WDT时,请设定为不Load iTCO_WDT。

6.3.14. 关于收集日志

  • 在SUSE LINUX 10/11中,使用EXPRESSCLUSTER的日志收集功能获取OS的syslog时,由于被rotate了的syslog(message)文件的suffiies不同,因此syslog的世代的指定功能无法运行。若要指定日志收集功能的syslog的世代,则需要将syslog的rotate的设置作如下修改在进行应用。

  • 注释掉 /etc/logrotate.d/syslog文件的compress和dateext

  • 各服务器中日志的总大小超出2GB时,有时会导致日志收集失败。

6.3.15. 关于nsupdate,nslookup

  • 下列功能使用nsupdate和nslookup。

    • 组资源的动态域名解析资源 (ddns)

    • 监视资源的动态域名解析监视资源 (ddnsw)

  • EXPRESSCLUSTER中未附带nsupdate及nslookup。请用户另行自行安装nsupdate及nslookup的 rpm 文件。

  • 本公司不负责与nsupdate,nslookup相关的以下事项。请用户在自行判断,自负责任的基础上再予以使用。

    • 对nsupdate,nslookup 本身的相关咨询

    • nsupdate,nslookup的运行保证

    • nsupdate,nslookup的问题解决及由此引发的故障

    • 对各服务器的nsupdate,nslookup的支持情况的咨询

6.3.16. 关于FTP监视资源

  • FTP服务器上登录的横幅通知,连接时的通知的文字列过长或者为复数行时,有可执行出现监视异常。使用FTP监视资源监视时,请不要登录横幅通知,连接时的通知。

6.3.17. 使用Red Hat Enterprise Linux 7时的注意事项

  • 邮件通报功能使用操作系统提供的[mail]命令。最小构成中由于未安装[mail]命令,请执行以下任意一项

    • 集群属性的[Alert服务]页中,[邮件发送方法]项设置为[SMTP]。

    • 安装mailx

6.3.18. 使用Ubuntu时的注意事项

  • 执行EXPRESSCLUSTER相关命令时,请由root用户执行。

  • Application Server Agent只支持WebSphere监视。因为其他应用服务器不支持Ubuntu

  • 邮件通报功能使用操作系统提供的[mail]命令。最小构成中由于未安装[mail]命令,请执行以下任意一项

    • 集群属性的[Alert服务]页中,[邮件发送方法]项设置为[SMTP]。

    • 安装mailx

  • 不执行根据SNMP取得信息功能

6.3.19. AWS环境中的时刻同步

以下的AWS相关资源在启动时/停止时/监视时执行AWS CLI。
AWS Elastic IP 资源
AWS 虚拟 IP资源
AWS 辅助 IP资源
AWS DNS资源
AWS Elastic IP监视资源
AWS 虚拟 IP监视资源
AWS 辅助 IP监视资源
AWS AZ监视资源
AWS DNS监视资源
AWS 强制停止资源
实例的日期和时间设置不正确时,可能会执行AWS CLI失败。这是AWS的式样。
这时,请正确设置实例的日期和时间,根据NTP等取得时刻同步。关于具体内容请参考「Linux实例的时刻设置」

6.3.20. 关于AWS环境中IAM的设置

说明关于AWS环境中IAM (Identity & Access Management)的设置。
EXPRESSCLUSTER的一部分功能,由于这些处理,会在内部运行AWS CLI。为了能正常执行AWS CLI,需要事先对IAM进行设置。
作为可访问AWS CLI的方法,存在使用IAM角色的方针和使用IAM用户的方针2种。基本上由于在各实例上不需要保存AWS Access Key ID,和AWS Secret Key,从安全性提高上推荐使用前者的IAM角色的方针。

IAM的设置步骤如下所示。

  1. 首先请创建IAM policy。请参考后面的"IAM policy的创建"。

  2. 接下来进行实例设置。
    使用IAM角色时,请参考后面的“实例的设置-使用IAM角色”。
    使用IAM用户时,请参考后面的“实例的设置-使用IAM用户”。

IAM policy的创建

创建policy,该policy记载了针对AWS的EC2和S3等的服务的动作的访问许可。EXPRESSCLUSTER的AWS关联资源以及监视资源执行AWS CLI所允许的必要的动作如下所示。

必要的policy有可执行将来被变更。

  • AWS虚拟IP资源/AWS虚拟IP监视资源

    动作

    说明

    ec2:DescribeNetworkInterfaces
    ec2:DescribeVpcs
    ec2:DescribeRouteTables

    取得VPC,路由表,网络接口的信息时必需。

    ec2:ReplaceRoute

    更新路由表时必需。

  • AWS Elastic IP资源/AWS Elastic IP监视资源

    动作

    说明

    ec2:DescribeNetworkInterfaces
    ec2:DescribeAddresses

    取得EIP,网络接口的信息时必需。

    ec2:AssociateAddress

    将EIP分配到ENI时必需。

    ec2:DisassociateAddress

    将EIP从ENI分离时必需。

  • AWS辅助IP资源/AWS辅助IP监视资源

    动作

    说明

    ec2:DescribeNetworkInterfaces
    ec2:DescribeSubnets

    取得网络接口和子网的信息时必需。

    ec2:AssignPrivateIpAddresses

    分配辅助IP地址时必需。

    ec2:UnassignPrivateIpAddresses

    取消分配辅助IP地址时必需。

  • AWS AZ监视资源

    动作

    说明

    ec2:DescribeAvailabilityZones

    取得可用区的信息时必需。

  • AWS DNS资源/AWS DNS监视资源

    动作

    说明

    route53:ChangeResourceRecordSets

    追加,删除资源记录集,更新设置内容时必需。

    route53:GetChange

    添加资源记录集、更新设置内容时必需。

    route53:ListResourceRecordSets

    取得资源记录集信息时必需。

  • AWS 强制停止资源

    Action

    Description

    ec2:DescribeInstances

    取得实例的信息时必需。

    ec2:StopInstances

    停止实例时必需。

    ec2:RebootInstances

    重启实例时必需。

    ec2:DescribeInstanceAttribute

    获取实例属性时必需。

  • 向Amazon CloudWatch发送监视资源的监视处理时间的功能

    动作

    说明

    cloudwatch:PutMetricData

    发送自定义指标时所需。

  • 向 Amazon SNS发送警报服务消息的功能

    动作

    说明

    sns:Publish

    发送消息时所需。

以下的自定义policy的例子是许可全部AWS关联资源以及监视资源所使用的动作。

{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Action": [
                "ec2:Describe*",
                "ec2:ReplaceRoute",
                "ec2:AssociateAddress",
                "ec2:DisassociateAddress",
                "ec2:AssignPrivateIpAddresses",
                "ec2:UnassignPrivateIpAddresses",
                "ec2:StopInstances",
                "ec2:RebootInstances",
                "route53:ChangeResourceRecordSets",
                "route53:GetChange",
                "route53:ListResourceRecordSets"
            ],
            "Effect": "Allow",
            "Resource": "*"
        }
    ]
}

通过IAM Management Console的[Policies] - [Create Policy]可创建自定义policy。

实例的设置-使用IAM角色

通过创建IAM角色并赋给实例从而使AWS CLI可执行的方法。

IAM和EC2实例

图 6.7 设置使用IAM角色的实例

  1. 创建IAM角色。在创建的角色上附加IAM policy。

    通过IAM Management Console的[Roles] - [Create New Role]可创建IAM角色。

  2. 创建实例时,指定[IAM Role]上做成的IAM角色。

  3. 登录实例。

  4. 安装Python。
    安装EXPRESSCLUSTER必需的Python。首先确认是否已安装Python。未安装时,通过yum命令等安装。Python命令的安装路径需要设定成以下的任意一个。环境变量PATH中,使用首次发现的python命令。

    /sbin,/bin,/usr/sbin,/usr/bin

    只安装了Python3, /usr/bin/python 不存在时,请对于/usr/bin/python3.x (x为版本)或者 /usr/bin/python3 创建 /usr/bin/python 的符号链接。
  5. 安装AWS CLI。

    AWS CLI的安装路径必须为以下之一。
    /sbin,/bin,/usr/sbin,/usr/bin,/usr/local/bin
    关于AWS CLI的更新方法详情请参考如下。

    (安装Python或AWS CLI时已经安装了EXPRESSCLUSTER时,请重启OS再执行EXPRESSCLUSTER的操作。)

  6. 从shell执行以下的命令。

    $ sudo aws configure
    

    针对提问输入执行AWS CLI所必需的信息。请注意不要输入AWS Access ID,AWS Secret Access Key。

    AWS Access Key ID [None]: (只按Enter键)
    AWS Secret Access Key [None]: (只按Enter键)
    Default region name [None]: <默认的区域名>
    Default output format [None]: text
"Default output format"可以指定为"text"之外的格式。
如果内容设置错误时,删除/root/.aws目录后,再重新执行上述操作。

实例的设置-使用IAM用户

创建IAM用户,通过将Access ID,Secret Access Key保存在实例内部使AWS CLI能够执行的方法。实例创建时不需要IAM角色的授予。

IAM和EC2实例

图 6.8 设置使用IAM用户的实例

  1. 创建IAM用户。在创建的用户上附加IAM policy。
    通过IAM Management Console的[Users] - [Create New Users] 可创建IAM用户。
  2. 登录实例。

  3. 安装Python。
    安装EXPRESSCLUSTER必需的Python。首先确认是否已安装Python。如果没有安装,通过yum命令等进行安装。
    python命令的安装路径需要是以下的任意一个。环境变量PATH中,使用首次发现的python命令。

    /sbin,/bin,/usr/sbin,/usr/bin

    只安装了Python3, /usr/bin/python 不存在时,请对于/usr/bin/python3.x (x为版本)或者 /usr/bin/python3 创建 /usr/bin/python 的符号链接。
  4. 安装AWS CLI。

    AWS CLI的安装路径必须为以下之一。
    /sbin,/bin,/usr/sbin,/usr/bin,/usr/local/bin
    关于AWS CLI 的安装方法,详情请参考下述。

    (安装Python或AWS CLI时已经安装了EXPRESSCLUSTER时,请重启OS再执行EXPRESSCLUSTER的操作。)

  5. 从shell执行以下的命令。

    $ sudo aws configure
    

    针对提问输入执行AWS CLI所必需的信息。AWS Access ID,AWS Secret Access Key处输入从已创建的IAM用户的详细信息画面取得的内容。

    AWS Access Key ID [None]: <AWS Access Key >
    AWS Secret Access Key [None]: <AWS Secret Access Key >
    Default region name [None]: <默认的区域名>
    Default output format [None]: text
    "Default output format"可以指定为"text"之外的格式。
    如果内容设置错误时,请将/root/.aws目录删除后再重新执行上述操作。

6.3.21. 关于Azure DNS资源

  • 安装Azure CLI,服务主体创建的步骤请参考《EXPRESSCLUSTER X Microsoft Azure HA 集群构筑指南 (Linux 版)》。

  • 为了利用Azure DNS资源,需要安装Azure CLI和Python。Python与Redhat Enterprise Linux/Cent OS等操作系统是捆绑在一起的。关于Azure CLI的具体内容,请参考以下Web站点。

    Microsoft Azure的文档:
  • 为了利用Azure DNS资源,需要Azure DNS的服务。关于Azure DNS的具体内容,请参考以下Web站点。

  • EXPRESSCLUSTER为了和Microsoft Azure联动,需要Microsoft Azure的组织账户。组织账户以外的账户在Azure CLI运行时需要对话形式的登录,因此不能使用。

  • 使用Azure CLI,需要创建服务主体。
    Azure DNS资源是登录到Microsoft Azure,执行对DNS区域的登记。登录到Microsoft Azure时,利用通过服务主体的Azure登录。
    关于服务主体和具体步骤,请参考以下的Web站点。
    创建出服务主体的角色由默认的Contributor(共同创造者)改为别的角色时,作为Actions 属性,请选择拥有以下的全部操作的访问权的角色。
    如果改变为不满足该条件的角色时,启动Azure DNS 资源就会发生错误而失败。

    Azure CLI 1.0时

    Microsoft.Network/dnsZones/read
    Microsoft.Network/dnsZones/A/write
    Microsoft.Network/dnsZones/A/read
    Microsoft.Network/dnsZones/A/delete
    Microsoft.Network/dnsZones/NS/read

    Azure CLI 2.0 时

    Microsoft.Network/dnsZones/A/write
    Microsoft.Network/dnsZones/A/delete
    Microsoft.Network/dnsZones/NS/read
  • 不支持Azure私有DNS。

6.3.22. 关于Google Cloud DNS资源

  • 使用Google Cloud的Cloud DNS。关于Cloud DNS的详细信息,请参考以下Web网站。

  • 要使用Cloud DNS操作,需要安装Cloud SDK。关于Cloud SDK的详细信息,请参考以下网站。

  • 需要用具有以下权限的帐户批准Cloud SDK。

    dns.changes.create
    dns.changes.get
    dns.managedZones.get
    dns.resourceRecordSets.create
    dns.resourceRecordSets.delete
    dns.resourceRecordSets.list
    dns.resourceRecordSets.update

    关于批准Cloud SDK,请参考以下Web网站。

6.3.23. 关于Samba监视资源

  • Samba监视资源为了支持SMB协议版本2.0以上的版本,支持NTLM认证,支持SMB署名,使用内部版本4.1.0-1共享库的libsmbclient.so.0。由于libsmbclient.so.0包含在libsmbclient 包中,所以请确认是否已安装。

  • Libsmbclient的版本为3以下时(例.捆绑在RHEL 6中的libsmbclient.so),[端口号]只能指定139或者445。请指定包含在smb.conf的smb ports中的端口号。

  • Samba监视资源支持的SMB协议的版本依赖于已安装的libsmbclient中。可以尝试用各Distributor提供的smbclient命令连接共享监视对象,来确认libsmbclient是否支持。

6.3.24. 关于HTTP网络分区解决资源,Witness心跳资源

  • 在HTTP 网络分区解决资源,Witness 心跳资源中使用SSL时,使用OpenSSL 1.0/1.1。默认使用的库如下。
    • libssl.so.10 (安装ExpressCluster rpm数据包时)

    • libssl.so.1.0.0 (安装EXPRESSCLUSTER deb数据包后)

    要更改要使用的库时,请在集群属性的加密标签页中设置[SSL库]和[Crypto库]。

6.3.25. 关于OCI环境中CLI的设置

说明关于OCI环境中CLI的设置。
EXPRESSCLUSTER的一部分功能,由于这些处理,会在内部运行OCI CLI。
为了能正常执行OCI CLI,需要事先对进行设置。
关于批准OCI CLI,请参考以下Web网站。
Oracle Cloud Infrastructure Documentation - Command Line Interface (CLI)

6.3.26. 关于OCI强制停止资源的设置

使用OCI强制停止资源时,根据OCI CLI命令的安装目录和OCI配置文件(config file)的位置,
需要更改下面脚本中描述的参数值。
<EXPRESSCLUSTER 安装路径>/cloud/oci/clpociforcestop.sh

・根据 OCI CLI 命令的安装目录更改的参数
 export PATH=$PATH:[OCI CLI 命令安装目录 ]
 <例> export PATH=$PATH:/root/bin

・根据 OCI 配置文件的存储位置更改的参数
 OCI_Path="[OCI配置文件路径]"
 <例> OCI_Path="/root/.oci/config"

6.4. 创建EXPRESSCLUSTER的信息时

下文将阐述设计和创建EXPRESSCLUSTER构筑信息之前,需要依照系统构筑确认和注意的事项。

6.4.1. 有关EXPRESSCLUSTER安装路径下的目录,文件

除了EXPRESSCLUSTER本身外,请不要对EXPRESSCLUSTER安装路径下的目录或文件进行操作(编辑/创建/添加/删除等)。
EXPRESSCLUSTER以外对目录或文件进行操作时的影响不在售后支持范围内。

6.4.2. 环境变量

在环境变量被设为大于256个的环境中,无法执行下列处理。若使用下列功能或资源,请将环境变量设为小于255个。

  • 组启动/停止处理

  • Exec资源启动/停止时执行的开始/停止脚本

  • 自定义监视器资源在监视时执行的脚本

  • 组资源,监视器资源异常被查出时最终操作执行前脚本

  • 组资源的启动/停止前后执行的脚本

  • 强制停止脚本

注解

请将系统设定的环境变量和EXPRESSCLUSTER设定的环境变量之总和设定在255个以下。EXPRESSCLUSTER设定的环境变量约为30个。

6.4.3. 关于关机监视

对于 Red Hat Enterprise Linux 8 系列OS或更高版本,无论监视方法如何,都将 [Enable SIGTERM] 设置为 ON。

6.4.4. 服务器的Reset,Panic,Power off

EXPRESSCLUSTER执行"Server reset"或"Server panic"或"Server power off"时,服务器不能被正常关闭。所以会有以下风险。

  • 对mount中的文件系统造成损坏

  • 丢失未保存的数据

  • OS dump 收集中断

发生"Server reset"或"Server panic"的设置如下。

  • 组资源启动时/停止时异常的处理

    • sysrq panic

    • keepalive reset

    • keepalive panic

    • BMC reset

    • BMC poweroff

    • BMC cycle

    • BMC NMI

  • 监视资源查出异常的最终运行

    • sysrq panic

    • keepalive reset

    • keepalive panic

    • BMC reset

    • BMC poweroff

    • BMC cycle

    • BMC NMI

  • 用户空间监视查出超时的处理

    • 监视方法 softdog

    • 监视方法 ipmi

    • 监视方法 keepalive

    注解

    "Server panic"仅在监视方法为KeepAlive时才可以设置。

  • Shutdown stall监视

    • 监视方法 softdog

    • 监视方法 ipmi

    • 监视方法 keepalive

    注解

    "Server panic"仅在监视方法为keepalive时才可以设置。

  • 强制停止功能的操作

    • BMC reset

    • BMC poweroff

    • BMC cycle

    • BMC NMI

    • VMware vSphere poweroff

6.4.5. 组资源停止异常时的最终运行

查出停止异常时,对最终运行选择[无操作],则组将在启动失败的状态下停止。在正式的运行环境下,请不要设置为[无操作]。

6.4.6. 关于镜像磁盘的文件系统的选择

当前,运行确认完毕的文件系统如下。

  • ext3

  • ext4

  • xfs

  • reiserfs

  • jfs

  • vxfs

  • none(无文件系统)

6.4.7. 关于共享型镜像磁盘的文件系统的选择

当前,运行确认完毕的文件系统如下。

  • ext3

  • ext4

  • xfs

  • reiserfs

  • none(无文件系统)

6.4.8. 关于多定义镜像磁盘时的单体服务器的启动时间

多定义镜像磁盘资源的个数,将「启动服务器时等待其他服务器启动的时间」设置的比较短时,如果启动单体服务器,启动镜像代理就可执行花费较多的时间,且镜像磁盘资源,镜像磁盘服务器的监视资源等可执行不能正常启动。

如果启动单体服务器时进入上述的状态,请将同步等待监视([集群属性] - [超时] 标签页 - [同步等待时间] 中设置)的值替换为较大的值进行设置变更。

6.4.9. 关于磁盘监视资源的RAW监视

  • 设置磁盘监视资源的RAW监视时,无法监视已经mount的分区或可以mount的分区。另外,不能将设备名设置为已经mount的分区或可以mount的分区的whole device(显示磁盘整体的设备)进行监视。

  • 请准备监视专用的分区,将其设置到磁盘监视资源的RAW监视内。

6.4.10. 迟延警告比例

将迟延警告比例设置为0或100时,可以进行如下操作。

  • 将迟延警告比例设置为0时
    每次执行监视都会通报迟延警告。
    可利用该功能计算出服务器在高负荷状态下监视资源的监视时间,从而决定监视资源的监视超时时间。
  • 将迟延警告比例设置为100时
    迟延警告将不发出通报。

除了测试运行以外,请不要将值设置为诸如0%之类的低值。

6.4.11. 关于磁盘监视资源的监视方法TUR

  • 不能在不支持SCSI的Test Unit Ready命令或SG_IO命令的磁盘,磁盘接口(HBA)上使用。
    有时硬件支持但驱动程序不支持,所以请结合驱动程序的规格进行确认。
  • 根据磁盘控制器的类型或使用版本的不同,OS可执行将S-ATA接口磁盘视为IDE接口的磁盘(hd),也可执行视为SCSI接口的磁盘(sd)。
    被视为IDE接口时,所有TUR方式将无法使用。
    被视为SCSI接口时,TUR(legacy)和TUR(generic)不能使用。
  • 与read方式相比,对OS和磁盘的负荷较小。

  • 有时用Test Unit Ready不能查出物理媒介的I/O错误。

6.4.12. 关于LAN 心跳设置/内核模式 LAN 心跳设置

  • 对于优先级最高的私网,请设置允许所有服务器之间通信的LAN心跳或者内核模式LAN心跳。

  • 建议设置两个以上内核模式LAN心跳资源(除非是在很难添加网络时,例如Cloud环境或远程集群环境中)。

  • 建议将私网专用的LAN注册为LAN心跳资源,同时,将公网LAN也注册为LAN心跳资源。

  • 建议对内核模式LAN心跳可用版本的内核并用内核模式LAN心跳。

6.4.13. 关于能用于脚本注释等的2字节系字符编码

  • 在EXPRESSCLUSTER中,Linux环境下编辑的脚本作为EUC使用,而Windows环境下编辑的脚本则作为Shift-JIS使用。如使用其他字符编码,可执行因环境不同而出现乱码的情况。

6.4.14. 关于脚本字符代码和换行代码

  • 使用 clpcfctrl 命令设置反映用非 Cluster WebUI 创建的脚本时,请确保配置信息文件 (clp.conf) 和脚本的字符代码和换行代码在设置反映之前相同。如果字符代码或换行代码不同,脚本可能无法正常工作。

6.4.15. 关于系统监视器资源的设置

  • 资源监视器的监测模式
    System Resource Agent通过「最多次数」和「监视持续时间」两个参数的组合进行检测。
    通过继续收集各系统资源(打开文件数,用户访问数,线程数,内存使用量,CPU 使用率,虚拟内存使用量),当一定时间内(指定为持续时间的时间)超过最多次数时,就会检测出异常。

6.4.16. 关于消息接收监视器资源的设定

  • 向消息接收监视器资源通知异常时有3个方法。使用[clprexec] 命令的方法,和使用服务器管理平台整合功能的方法。

  • 使用[clprexec]命令时,请使用与EXPRESSCLUSTER CD同箱捆包的文件。请根据通知源的服务器的OS和架构来适当使用。并且,通知源服务器和通知目标服务器要处于可通信状态。

  • 关于服务器管理平台整合功能,请参考《硬件整合指南》的"与服务器管理基础设施的整合"。

6.4.17. 关于JVM监视器的设定

  • 监视目标为WebLogic Server时,对于JVM监视器资源的设定值,由于系统环境(内存搭载量等)的原因,设定范围的上限值可执行会受到限制。

    • [监视Work Manager的要求]-[要求数]

    • [监视Work Manager的要求]-[平均值]

    • [监视线程Pool的要求]-[待机要求 要求数]

    • [监视线程Pool的要求]-[待机要求 平均值]

    • [监视线程Pool的要求]-[执行要求 要求数]

    • [监视线程Pool的要求]-[执行要求 平均值]

  • 监视目标的JRockit JVM 为64bit 版时,从JRockit JVM获取的各最大储存量会减少,致使不能计算出使用率,因此不能对以下的参数进行监视。

    • [监视堆使用率]- [领域整体]

    • [监视堆使用率]- [Nursery Space]

    • [监视堆使用率]- [Old Space]

    • [监视非堆使用率]- [领域整体]

    • [监视非堆使用率]- [ClassMemory]

  • 要使用JVM监视资源,请安装"4. EXPRESSCLUSTER的运行环境"的"JVM监视的运行环境"中记载的JRE(Java Runtime Environment)。可与使用监视对象(WebLogic Server和WebOTX)的JRE在相同的项目中使用,也可使用在其他项目。

  • 监视资源名中不要含空白字符。

6.4.18. 关于使用卷管理器资源时的EXPRESSCLUSTER的启动处理

  • EXPRESSCLUSTER启动时,卷管理器为lvm时通过vgchange命令进行停止处理,因此系统的启动有可执行比较费时。如有问题时,可按照如下对EXPRESSCLUSTER本体的启动/停止脚本进行编辑。

    • init.d环境时,请将/etc/init.d/clusterpro按照如下进行编辑。

      #!/bin/sh
      #
      # Startup script for the EXPRESSCLUSTER daemon
      #
                                :
                                :
      # See how we were called.
      case "$1" in
        start)
                                :
                                :
              # export all volmgr resource
      #        clp_logwrite "$1" "clpvolmgrc start." init_main
      #        ./clpvolmgrc -d > /dev/null 2>&1
      #        retvolmgrc=$?
      #        clp_logwrite "$1" "clpvolmgrc end.("$retvolmgrc")" init_main
                                :
                                :
      
    • systemd环境时,请将/opt/nec/clusterpro/etc/systemd/clusterpro.sh按照如下进行编辑。

      #!/bin/sh
      #
      # Startup script for the EXPRESSCLUSTER daemon
      #
                                :
                                :
      # See how we were called.
      case "$1" in
        start)
                                :
                                :
              # export all volmgr resource
      #        clp_logwrite "$1" "clpvolmgrc start." init_main
      #        ./clpvolmgrc -d > /dev/null 2>&1
      #        retvolmgrc=$?
      #        clp_logwrite "$1" "clpvolmgrc end.("$retvolmgrc")" init_main
      

6.4.19. AWS CLI命令行选项

AWS相关功能执行AWS CLI。

通过在集群属性的云标签页上设置[AWS CLI命令行选项],可以指定反映在这些处理中的命令行选项。
在指定执行AWSCLI时发送请求的终端节点的URL时启用。

指定多个命令行选项时,请用空格隔开指定。

可以在每个AWS服务中指定命令行选项。
启用[AWS CLI命令行选项]设置的功能如下。

aws cloudwatch

  • Amazon CloudWatch 联动

aws ec2

  • AWS Elastic IP 资源

  • AWS 虚拟 IP资源

  • AWS 辅助 IP资源

  • AWS Elastic IP监视资源

  • AWS 虚拟 IP监视资源

  • AWS 辅助 IP监视资源

  • AWS AZ监视资源

  • AWS 强制停止资源

  • 通过Cluster WebUI获取云环境信息

aws route53

  • AWS DNS资源

  • AWS DNS监视资源

aws sns

  • Amazon SNS 联动

关于AWS CLI命令行选项的详细内容请参考AWS文档。

注解

如果指定特殊字符“;” “&&” “||” “`” ,则AWS CLI命令行选项无效。
指定--output选项,则AWS CLI命令行选项无效。

6.4.20. 执行AWS相关功能时的环境变量

通过AWS相关功能访问AWS CLI和实例数据。

通过在集群属性的云标签页上设置[执行 AWS 相关功能时的环境变量],可以指定反映在这些处理中的环境变量。 在AWS环境中使用代理服务器时,或者指定AWS CLI设置文件和验证信息文件时启用。

启用[执行 AWS 相关功能时的环境变量]设置的功能如下。

  • AWS Elastic IP 资源

  • AWS 虚拟 IP资源

  • AWS 辅助 IP资源

  • AWS DNS资源

  • AWS Elastic IP监视资源

  • AWS 虚拟 IP监视资源

  • AWS 辅助 IP监视资源

  • AWS AZ监视资源

  • AWS DNS监视资源

  • AWS 强制停止资源

  • Amazon SNS 联动

  • Amazon CloudWatch 联动

  • 通过Cluster WebUI获取云环境信息

此外,还可以通过使用环境变量设置文件来指定环境变量。 这种情况下,请不要设置[执行 AWS 相关功能时的环境变量]。如果设置了[执行 AWS 相关功能时的环境变量]时,则无法使用环境变量设置文件。

注解

环境变量设置文件是保持与旧版本兼容的功能。 在设置环境变量时推荐使用[执行 AWS 相关功能时的环境变量]。

环境变量设置文件的配置如下所示。

<EXPRESSCLUSTER安装路径>/cloud/aws/clpaws_setting.conf

环境变量设置文件的格式如下所示。

环境变量名 = 值

指定例)

[ENVIRONMENT]
HTTP_PROXY = http://10.0.0.1:3128
HTTPS_PROXY = http://10.0.0.1:3128
NO_PROXY = 169.254.169.254,ec2.ap-northeast-1.amazonaws.com

环境变量设置文件的式样如下所示。

  • 第一行请务必指定为[ENVIRONMENT]。如果没有描述,可能没有设置环境变量。

  • 环境变量设置文件不存在时,以及没有读取权限时忽略。不会导致启动异常和监视异常。

  • 已设置了同名的环境变量时,会覆盖原有的值。

  • 环境变量名的前面带有空格或制表符的情况,或者=两侧有制表符的情况,有可能出现设置不能反映到系统的问题。

  • 环境变量区分大小写。

  • 值中含有空格时,不需要使用""(双引号)括起来。

  • 环境变量不会反映在组资源和监视资源的公共脚本中(例.最终动作前脚本、启动/停止前后脚本)。

6.4.21. 关于执行AWS相关功能时使用的设置文件和验证信息文件

从AWS相关功能执行的AWS CLI使用保存在以下文件夹中的设置文件和验证信息文件。

/root/.aws
如果要使用保存在上述文件夹之外的设置文件和验证信息文件,则需要指定环境变量。
为AWS相关功能执行的AWS CLI指定环境变量时,请参阅"注意限制事项" - "创建EXPRESSCLUSTER的信息时"- "执行AWS相关功能时的环境变量"。
指定设置文件和验证信息文件的环境变量如下。
请将设置文件和验证信息文件的路径指定为环境变量。
AWS_CONFIG_FILE
AWS_SHARED_CREDENTIALS_FILE

关于AWS CLI的环境变量的详细内容请参考AWS的文档。

6.4.22. 关于AWS Elastic IP资源的设置

  • 不支持IPv6。

  • 在AWS环境下,不能利用浮动IP资源、浮动IP监视资源、虚拟IP资源和虚拟IP监视资源。

  • AWS Elastic IP资源不支持ASCII字符以外的字符。请确认以下命令的执行结果中不包含ASCII字符以外的字符。

    aws ec2 describe-addresses --allocation-ids <EIP ALLOCATION ID>
  • AWS Elastic IP 资源将 EIP 与 ENI 的主专用 IP 地址相关联。它不能与辅助专用 IP 地址相关联。

6.4.23. 关于AWS虚拟IP资源的设置

  • 不支持IPv6。

  • 在AWS环境下,不能利用浮动IP资源、浮动IP监视资源、虚拟IP资源和虚拟IP监视资源。

  • AWS虚拟IP资源和AWS辅助IP资源不能组合使用。

  • AWS虚拟IP资源不支持ASCII字符以外的字符。请确认以下命令的执行结果中不包含ASCII字符以外的字符。

    aws ec2 describe-vpcs --vpc-ids <VPC ID>
    aws ec2 describe-route-tables --filters Name=vpc-id,Values=<VPC ID>
    aws ec2 describe-network-interfaces --network-interface-ids <ENI ID>
  • 在需要经由VPC-Peering连接的访问时,不能利用AWS虚拟IP资源。这是因为作为VIP使用的IP地址是在VPC范围之外的前提,这样的IP地址在VPC-Peering连接中被视为无效。需要经由VPC-Peering连接的访问时,请使用利用了Amazon Route 53的AWS DNS资源。

  • 即使实例使用的路由表中不存在虚拟IP使用的IP地址的路由,AWS虚拟IP资源也能正常启动。这是规定好的。在启动AWS虚拟IP资源时,仅更新存在指定IP地址条目的路由表内容。即使没有找到任何一个路由表,也会因为没有更新目标而被判断为正常。由于该条目是否必须要存在于哪个路由表,是由系统配置决定的,因此,不作为检查AWS虚拟IP资源正常性的目标。

6.4.24. 关于AWS辅助IP资源的设置

  • 不支持IPv6。

  • 在AWS环境下,不能利用浮动IP资源,浮动IP监视资源,虚拟IP资源和虚拟IP监视资源。

  • AWS虚拟IP资源和AWS辅助IP资源不能组合使用。

  • AWS辅助IP资源不支持ASCII字符以外的字符。请确认以下命令的执行结果中不包含ASCII字符以外的字符。

    aws ec2 describe-network-interfaces --network-interface-ids <ENI ID>
    aws ec2 describe-subnets --subnet-ids <SUBNET_ID>
  • AWS 辅助 IP 资源不可以在具有不同子网的配置中使用。

  • AWS 辅助 IP 资源分配的辅助 IP 地址对每种实例类型都有限制。
    详细内容请参考以下所记。

6.4.25. 关于AWS DNS资源的设置

  • 不支持IPv6。

  • 在AWS 环境下,不能利用浮动 IP 资源,浮动IP监视资源,虚拟IP资源,虚拟IP监视资源。

  • 如果[资源记录集名称]中包含转义码,则为监视异常。请设置不含转义码的[资源记录集名称]。

  • 启动AWS DNS资源后,它不会等待DNS配置更改传播到所有Amazon Route 53 DNS服务器。 这是因为,根据Route 53的规范,将资源记录集更改应用于整个过程需要花费时间。请参考"关于AWS DNS监视资源的设置"。

  • 由于AWS DNS资源绑定在一个账户上,因此,无法使用多个帐户,AWS访问ID,AWS秘密访问密钥。在这种情况下,请考虑使用通过EXEC资源执行AWS CLI的脚本。

6.4.26. 关于AWS DNS监视资源的设置

  • AWS DNS监视资源在监视时执行AWS CLI。执行AWS CLI的超时是利用在AWS DNS资源上设置的[AWS CLI超时]。

  • AWS DNS资源的启动后,根据以下的情况,AWS DNS监视资源的监视可执行会失败。这时,请将AWS DNS监视资源的 [开始监视等待时间] 设置为比Amazon Route 53中DNS设定改变反映的时间更长的时间(https://aws.amazon.com/jp/route53/faqs/)。

    1. 启动AWS DNS 资源时,追加和更新记录集合。

    2. 反映Amazon Route 53中的DNS设置改变前,监视AWS DNS监视资源时就会由于不能进行域名解析而失败。在DNS解析器缓存有效的期间内,之后,监视AWS DNS监视资源也会失败。

    3. 反映Amazon Route 53中的DNS设置改变。

    4. 经过AWS DNS资源的 [TTL] 有效期,由于域名解析成功,监视AWS DNS监视资源成功。

6.4.27. 关于Azure 探头端口资源的设置

  • 不支持IPv6。

  • 在Microsoft Azure环境下,不能利用浮动IP资源,浮动IP监视资源,虚拟IP资源和虚拟IP监视资源。

6.4.28. 关于Azure负载均衡监视资源的设置

  • Azure负载均衡监视资源检测出异常时,Azure的负载均衡器的主服务器和备份服务器转换可执行不能正确被执行。因此,建议设置Azure负载均衡监视资源的[最终动作]为[停止集群服务并关闭操作系统]。

6.4.29. 关于Azure DNS资源的设置

  • 不支持IPv6。

  • 在Microsoft Azure 环境下,不能利用浮动 IP 资源,浮动IP监视资源,虚拟IP资源,虚拟IP监视资源。

6.4.30. 关于Google Cloud 虚拟 IP 资源的设置

  • 不支持IPv6。

6.4.31. 关于Google Cloud 负载均衡监视资源的设置

  • 如果Google Cloud负载均衡监视资源检测到异常,则可执行无法正确地从负载均衡器在运行系统和待机系统之间进行切换。因此,建议在Google Cloud负载均衡监视资源的[最终动作]中选择[停止集群服务停止和关闭操作系统]。

6.4.32. 关于Google Cloud DNS资源的设置

  • 不支持IPv6。

  • 在Google Cloud Platform 环境下,不能利用浮动 IP 资源,浮动IP监视资源,虚拟IP资源,虚拟IP监视资源。

  • 如果同时执行多个Google Cloud DNS资源的启动/停止处理,可执行会发生错误。因此,在集群中使用多个Google Cloud DNS资源时,需要进行设置,以便由于资源的依赖关系和组的启动/停止等待而不能同时执行启动/停止处理。

6.4.33. 关于Oracle Cloud 虚拟 IP 资源的设置

  • 不支持IPv6。

6.4.34. 关于Oracle Cloud 负载均衡监视资源的设置

  • 如果Oracle Cloud负载均衡监视资源检测到异常,则可执行无法正确地从负载均衡器在运行系统和待机系统之间进行切换。因此,建议在Oracle Cloud负载均衡监视资源的[最终动作]中选择[停止集群服务停止和关闭操作系统]。

6.4.35. 关于在资源添加向导画面上显示的资源类型列表

组资源和监视资源添加向导画面的资源类型列表,在初始状态下,会根据EXPRESSCLUSTER的安装环境缩小范围显示。
要添加没有显示出来的资源时,请点击[显示所有类型]按钮。

6.4.36. 关于镜像磁盘资源与共享型镜像磁盘资源共存

  • 镜像磁盘资源和共享型镜像磁盘资源不能混在同一失效切换组内。

6.5. 操作EXPRESSCLUSTER后

请注意集群操作开始后的现象。

6.5.1. 关于udev等环境下的镜像驱动程序加载时的错误信息

在udev环境下加载镜像驱动程序时,messages文件有时会登入以下日志。

kernel: [I] <type: liscal><event: 141> NMP1 device does not exist. (liscal_make_request)
kernel: [I] <type: liscal><event: 141> - This message can be recorded on udev environment when liscal is initializing NMPx.
kernel: [I] <type: liscal><event: 141> - Ignore this and following messages 'Buffer I/O error on device NMPx' on udev environment.
kernel: Buffer I/O error on device NMP1, logical block 0
kernel: <liscal liscal_make_request> NMP1 device does not exist.
kernel: Buffer I/O error on device NMP1, logical block 112
此现象不属于异常。
udev等环境下如欲避免此出错信息输出时,请在/etc/udev/rules.d/目录下添加以下的设定文件。
但是,在Red Hat Enterprise Linux 7,Asianux Server 7等上,即使添加了设置文件,也有可执行不能抑制出错信息的输出。

文件名:50-liscal-udev.rules

ACTION=="add", DEVPATH=="/block/NMP*",OPTIONS+="ignore_device"
ACTION=="add", DEVPATH=="/devices/virtual/block/NMP*", OPTIONS+="ignore_device"

6.5.2. 关于针对镜像分区设备的缓存I/O错误的日志

镜像磁盘资源或共享磁盘资源处于停止的状态时,若访问镜像分区设备,则如下所示的日志会被记录到messages文件。

kernel: [W] <type: liscal><event: 144> NMPx I/O port has been closed, mount(0), io(0). (PID=xxxxx)
kernel: [I] <type: liscal><event: 144> - This message can be recorded on hotplug service starting when NMPx is not active.
kernel: [I] <type: liscal><event: 144> - This message can be recorded by fsck command when NMPx becomes active.
kernel: [I] <type: liscal><event: 144> - Ignore this and following messages 'Buffer I/O error on device NMPx' on such environment.

:

kernel: Buffer I/O error on device /dev/NMPx, logical block xxxx
kernel: [W] <type: liscal><event: 144> NMPx I/O port has been closed, mount(0), io(0). (PID=xxxxx)

:

kernel: [W] <type: liscal><event: 144> NMPx I/O port has been closed, mount(0), io(0). (PID=xxxxx)
kernel: <liscal liscal_make_request> NMPx I/O port is close, mount(0), io(0).
kernel: Buffer I/O error on device /dev/NMPx, logical block xxxx

(xxxxx中填入字符串)

其原因可想象为有以下的情形。
(之后,共享磁盘资源时,请将共享磁盘资源改读为共享型磁盘资源。)
  • 因udev环境而导致的

    • 在这种情况下,在镜像驱动程序加载时,与"kernel: Buffer I/O error on device /dev/NMPx, logical block xxxx"的消息一起,"kernel: [I] <type: liscal><event: 141>"的消息也会被记录。

    • 本消息并不表示属于异常,也不会影响到EXPRESSCLUSTER的运作。

    • 有关详情,请参阅本章的"关于udev等环境下的镜像驱动程序加载时的错误信息"。

  • 运行OS的信息收集命令(sosreport, sysreport, blkid 命令等)时

    • 在这种情况下,本消息并不表示属于异常,也不会影响到EXPRESSCLUSTER的运作。

    • 若运行OS所提供的信息收集命令,则访问OS所识别的设备。此时,也会访问停止状态的镜像磁盘,其结果,上述的消息也会被记录。

    • 没有通过EXPRESSCLUSTER的设置等抑制此消息的方法。

  • 镜像磁盘的Unmount超时时

    • 在这种情况下,与提示镜像磁盘资源的Unmount超时的消息一起,此消息也会被记录。

    • EXPRESSCLUSTER会进行镜像磁盘资源的"查出停止异常的恢复动作"。此外,文件系统有可执行发生不一致。

    • 有关详情,请参阅本章的"因大量I/O而导致的缓存增大"。

  • 在镜像磁盘停止食变为被Mount的状态的情况下

    • 在这种情况下,在以下的流程后,上述的消息会被记录。

      1. 镜像磁盘资源变为启动状态后,可通过用户或应用程序(NFS等),针对镜像分区的设备(/dev/NMPx)或镜像磁盘资源的Mount point内,会添加进行Mount。

      2. 之后,保持不Unmount在(1)所添加的Mount point的状态,将镜像磁盘资源置为停止。

    • 虽不影响到EXPRESSCLUSTER的运作,但文件系统有可执行发生不一致。

    • 有关详情,请参阅本章的"在镜像磁盘资源等进行复数的Mount时"。

  • 设置复数个镜像磁盘资源时

    • 设置2个以上的镜像磁盘资源时,因启动时的一部分分配的fsck的行为的不同,有可执行输出上述的消息。

    • 有关详情,请参阅本章的"关于使用复数个镜像磁盘资源,共享型磁盘资源时的syslog消息"。

  • 其他,因被某种应用程序访问时

    • 上述以外的情形时,可想象某种应用程序想访问停止状态的镜像磁盘资源。

    • 镜像磁盘资源处于未启动的状态下,不会影响到EXPRESSCLUSTER的运作。

6.5.3. 因大量I/O而导致的缓存增大

  • 若针对镜像磁盘资源或共享型磁盘资源进行超过磁盘性能的大量写入工作,即使镜像的通信尚未被切断等,但不能控制从写入工作中返回,或有可执行发生不能确保内存的错误。
    有大量超过处理性能的I/O要求时,文件系统需确保大量的缓存,若缓存或用户空间用的内存(HIGHMEM区)不足,则也有可执行使用内核空间用的内存(NORMAL区)。
    在这种情况下,请更改下述的内核参数,来抑制内核空间用的内存被利用为缓存。使用sysctl 命令等,设置在OS启动时可以更改参数。
    /proc/sys/vm/lowmem_reserve_ratio
    
  • 针对镜像磁盘资源或共享型磁盘资源进行大量的访问时,在磁盘资源停止时的Unmount,文件系统的缓存的内容写入到磁盘有可执行需要花费较长的时间。
    此时,若在从文件系统写入磁盘的工作结束之前,发生Unmount超时,则如下述所示的I/O错误的消息,Unmount失败的消息有可执行会被记录。
    在这种情况下,为了保证写入到磁盘的工作能够正常结束,请将相应磁盘资源的Unmount的超时时间设置为留有余力的值。

    ≪例1≫

    clusterpro: [I] <type: rc><event: 40> Stopping mdx resource has started.
    kernel: [I] <type: liscal><event: 193> NMPx close I/O port OK.
    kernel: [I] <type: liscal><event: 195> NMPx close mount port OK.
    kernel: [I] <type: liscal><event: 144> NMPx I/O port has been closed, mount(0), io(0).
    kernel: [I] <type: liscal><event: 144> - This message can be recorded on hotplug service starting when NMPx is not active.
    kernel: [I] <type: liscal><event: 144> - This message can be recorded by fsck command when NMPx becomes active.
    kernel: [I] <type: liscal><event: 144> - Ignore this and following messages 'Buffer I/O error on device NMPx' on such environment.
    kernel: Buffer I/O error on device NMPx, logical block xxxx
    kernel: [I] <type: liscal><event: 144> NMPx I/O port has been closed, mount(0), io(0).
    kernel: Buffer I/O error on device NMPx, logical block xxxx
    
    :

    ≪例2≫

    clusterpro: [I] <type: rc><event: 40> Stopping mdx resource has started.
    kernel: [I] <type: liscal><event: 148> NMPx holder 1. (before umount)
    clusterpro: [E] <type: md><event: 46> umount timeout. Make sure that the length of Unmount Timeout is appropriate. (Device:mdx)
    
    :
    
    clusterpro: [E] <type: md><event: 4> Failed to deactivate mirror disk. Umount operation failed.(Device:mdx)
    kernel: [I] <type: liscal><event: 148> NMPx holder 1. (after umount)
    clusterpro: [E] <type: rc><event: 42> Stopping mdx resource has failed.(83 : System command timeout (umount, timeout=xxx))
    
    :

6.5.4. 在镜像磁盘资源等进行复数的Mount时

  • 在镜像磁盘资源或共享型磁盘资源启动后,针对镜像分区设备(/dev/NMPx)或Mount point(的文件阶层的一部分),想通过mount 命令添加到其他的位置,也进行Mount时,在磁盘资源变为停止之前,请务必将添加的Mount point进行Unmount。
    如果,不对添加的Mount point进行Unmount而进行停止,则内存上所残留的文件系统的数据有可执行不能完全写入到磁盘,因此磁盘上的数据保持为不完全的状态,向磁盘的I/O被切断,从而结束停止。
    此外,在这种情况下,由于停止后也想继续进行从文件系统写入到磁盘的工作,因此如下述所示的I/O错误的消息有可执行被记录。
    此外,在之后的服务器停止时等情况下,停止镜像Agent之际有可执行因无法结束镜像驱动程序,而导致停止镜像Agent失败,服务器重启。

    ≪例≫

    clusterpro: [I] <type: rc><event: 40> Stopping mdx resource has started.
    kernel: [I] <type: liscal><event: 148> NMP1 holder 1. (before umount)
    kernel: [I] <type: liscal><event: 148> NMP1 holder 1. (after umount)
    kernel: [I] <type: liscal><event: 193> NMPx close I/O port OK.
    kernel: [I] <type: liscal><event: 195> NMPx close mount port OK.
    clusterpro: [I] <type: rc><event: 41> Stopping mdx resource has completed.
    kernel: [I] <type: liscal><event: 144> NMPx I/O port has been closed, mount(0), io(0).
    kernel: [I] <type: liscal><event: 144> - This message can be recorded on hotplug service starting when NMPx is not active.
    kernel: [I] <type: liscal><event: 144> - This message can be recorded by fsck command when NMPx becomes active.
    kernel: [I] <type: liscal><event: 144> - Ignore this and following messages 'Buffer I/O error on device NMPx' on such environment.
    kernel: Buffer I/O error on device NMPx, logical block xxxxx
    kernel: lost page write due to I/O error on NMPx
    kernel: [I] <type: liscal><event: 144> NMPx I/O port has been closed, mount(0), io(0).
    kernel: Buffer I/O error on device NMPx, logical block xxxxx
    kernel: lost page write due to I/O error on NMPx

6.5.5. 关于使用复数个镜像磁盘资源,共享型磁盘资源时的syslog消息

设置2个以上的镜像磁盘资源,共享型磁盘资源时,在镜像磁盘资源,共享型磁盘资源的启动时,则以下的消息有可执行会被登录到OS的messages文件。

这种现象,有可执行是因为一部分的分配的fsck命令的行为 (访问原来不属于fsck对象的块设备的行为)而导致的。

kernel: [I] <type: liscal><event: 144> NMPx I/O port has been closed, mount(0), io(0).
kernel: [I] <type: liscal><event: 144> - This message can be recorded by fsck command when NMPx becomes active.
kernel: [I] <type: liscal><event: 144> - This message can be recorded on hotplug service starting when NMPx is not active.
kernel: [I] <type: liscal><event: 144> - Ignore this and following messages 'Buffer I/O error on device NMPx' on such environment.
kernel: Buffer I/O error on device /dev/NMPx, logical block xxxx
kernel: <liscal liscal_make_request> NMPx I/O port is close, mount(0), io(0).
kernel: Buffer I/O error on device /dev/NMPx, logical block xxxx

相对EXPRESSCLUSTER而言并不存在问题。但若发生压迫messages文件等问题时,请更改镜像磁盘资源,共享型磁盘资源的以下设置。

  • 将执行Mount前的fsck动作更改为「不执行」

  • 将Mount失败时的fsck动作更改为「执行」

6.5.6. 关于驱动程序加载时的消息

加载镜像驱动程序时,如下消息有时显示在控制台和syslog上,此现象不属于异常。

kernel: liscal: no version for "xxxxx" found: kernel tainted.
kernel: liscal: module license 'unspecified' taints kernel.

(xxxxx 中填入字符串)

除了加载clpka驱动程序和clpkhb驱动程序外,控制台和syslog上将可执行显示下述消息,此现象不属于异常。

kernel: clpkhb: no version for "xxxxx" found: kernel tainted.
kernel: clpkhb: module license 'unspecified' taints kernel.
kernel: clpka: no version for "xxxxx" found: kernel tainted.
kernel: clpka: module license 'unspecified' taints kernel.

(xxxxx 中填入字符串)

6.5.7. 关于使用多个镜像磁盘资源,共享型镜像磁盘资源时的最初I/O信息

Mount镜像磁盘资源,共享型镜像磁盘资源后的最初read/write时,Consol将会出现以下信息,Syslog中也会出现。此现象非异常情况。

kernel: JBD: barrier-based sync failed on NMPx - disabling barriers

(xxxxx 中填入字符串)

6.5.8. 关于ipmi的消息

在用户空间监视资源中使用IPMI时,将向syslog输出许多下述kernel模块警告日志。

modprobe: modprobe: Can't locate module char-major-10-173

要避免该日志的输出,请为/dev/ipmikcs重命名。

6.5.9. 恢复运行中的操作限制

使用查出监视资源异常时的设置,为复归对象指定组资源(磁盘资源,EXEC资源......),请不要在查出监视资源异常,正在恢复运行时(重新启动 -> 失效切换 -> 最终运行),控制如下命令或者来源于Cluster WebUI的集群和组。

  • 集群的停止/挂起

  • 组的开始/停止/移动

如果在监视资源异常,正在恢复运行时执行上述控制,该组的其他组资源可执行不会停止。然而,监视资源异常时,如果执行了最终运行,则可以进行上述的控制。

6.5.10. 关于命令篇里没有记载的可执行文件和脚本文件

请不要在EXPRESSCLUSTER以外执行在安装目录下存在,但在命令篇里没有记载的可执行文件和脚本文件。

不支持执行后的影响。

6.5.11. 关于执行fsck

  • 启动磁盘资源/镜像磁盘资源/共享型磁盘资源时设定为执行fsck的情况下,将ext2/ext3/ext4文件系统进行Mount时,根据设定来执行fsck。然而,根据文件系统大小,使用量,实际状况fsck会比较费时,超出fsck超时时,则认为Mount失败。
    此处,fsck运行时会出下以下各种情况。
    1. 只对整体的简易检查。
      短时间内完成。
    2. 运行对文件系统全体的联动性检查。
      检查符合OS保存的信息[180天以上的不检查]或[30回(前后的)mount后执行]的场合。
      根据文件系统的大小和使用量等信息,所花费时间较长。

      此时为了不发生超时,设置磁盘资源的fsck超时时间时请留出足够的富余。

  • 启动磁盘资源/镜像磁盘资源/共享型磁盘资源时设定为不执行fsck的情况下, ext2/ext3/ext4文件系统进行Mount时,超出OS保持的fsck实行mount次数时,系统日志或Console输出以下警告信息。

    EXT3-fs warning: xxxxx, running e2fsck is recommended
    
    (注)xxxxx 中填入字符串。

    出现该警告的场合,建议针对文件系统执行fsck。

    手动执行fsck时,请按照以下指南执行。
    并且,以下指南必须在该磁盘资源启动的服务器上执行。
    1. 通过clpgrp等命令,将该磁盘资源所属的组失效。

    2. 磁盘为被mount时,使用mount或者fd等命令来确认。

    3. 根据磁盘资源种类,通过执行以下命令将磁盘装从Read Only改为Read Write。

      (磁盘资源的场合) 磁盘名为/dev/sdb5时

      # clproset -w -d /dev/sdb5
      /dev/sdb5 : success

      (镜像磁盘资源的场合) 资源名为md1时

      # clpmdctrl --active -nomount md1
      <md1@server1>: active successfully

      (共享型镜像磁盘资源的场合) 资源名为hd1时

      # clphdctrl --active -nomount hd1
      <hd1@server1>: active successfully
    4. 执行fsck。
      (镜像磁盘资源或共享磁盘资源的情况下,在fsck指定设备名时,请指定对应其资源的镜像分区设备名(/dev/NMPx))
    5. 根据磁盘资源种类,通过执行以下命令将磁盘装从Read Only改为Read Write。

      (磁盘资源的场合) 磁盘名为/dev/sdb5时

      # clproset -o -d /dev/sdb5
      /dev/sdb5 : success

      (镜像磁盘资源的场合) 资源名为md1时

      # clpmdctrl --deactive md1
      <md1@server1>: deactive successfully

      (共享型镜像磁盘资源的场合) 资源名为hd1时

      # clphdctrl --deactive hd1
      <hd1@server1>: deactive successfully
    6. 通过clpgrp等命令,将该磁盘资源所属的组启动。

    如没有执行fsck而不期望出现警告信息时,ext2/ext3/ext4的情况下,通过tune2fs命令变更最大mount次数,请在该磁盘资源被启动的服务器上执行。

    1. 请执行以下命令。

      (磁盘资源的场合)磁盘名为/dev/sdb5时

      # tune2fs -c -1 /dev/sdb5
      tune2fs 1.42.9 (28-Dec-2013)
      Setting maximal mount count to -1

      (镜像磁盘资源的场合) 镜像分区设备名为/dev/NMP1时

      # tune2fs -c -1 /dev/NMP1
      tune2fs 1.42.9 (28-Dec-2013)
      Setting maximal mount count to -1

      (共享型镜像磁盘资源的场合)镜像分区设备名为/dev/NMP1时

      # tune2fs -c -1 /dev/NMP1
      tune2fs 1.42.9 (28-Dec-2013)
      Setting maximal mount count to -1
    2. 请确认最大mount回数被更改。
      (例) 设备名为/dev/sdb5时
      # tune2fs -l /dev/sdb5
      tune2fs 1.42.9 (28-Dec-2013)
      Filesystem volume name: <none>
      :
      Maximum mount count: -1
      :

6.5.12. 关于执行xfs_repair

如果在启动使用xfs的磁盘资源/镜像磁盘资源/共享型镜像磁盘资源时向控制台输出有关xfs的警告,建议执行xfs_repair修复文件系统。

请按照以下步骤执行xfs_repiar。

  1. 请确认资源是否未启动。 如果处于启动状态,请使用Cluster WebUI等将其停用。

  2. 使设备可写入。

    (磁盘资源示例)设备名称为/ dev / sdb1时

    # clproset -w -d /dev/sdb1
    /dev/sdb1 : success

    (镜像磁盘示例) 资源名为md1时

    # clpmdctrl --active -nomount md1
    <md1@server1>: active successfully

    (共享型磁盘资源示例) 资源名为hd1时

    # clphdctrl --active -nomount hd1
    <hd1@server1>: active successfully
  3. mount设备。

    (磁盘资源示例) 设备名为 /dev/sdb1时

    # mount /dev/sdb1 /mnt

    (镜像磁盘资源/共享型镜像磁盘资源的示例) 镜像分区设备名为 /dev/NMP1 时

    # mount /dev/NMP1 /mnt
  4. umount设备。

    # umount /mnt

    注解

    xfs_repair实用程序无法修复带有脏日志的文件系统。 为了清除日志,有必要mount和unmount一次。

  5. 执行xfs_repair 。

    (磁盘资源示例) 设备名为 /dev/sdb1时

    # xfs_repair /dev/sdb1

    (镜像磁盘资源/共享型镜像磁盘资源的示例) 镜像分区设备名为 /dev/NMP1 时

    # xfs_repair /dev/NMP1
  6. 禁止写入设备。

    (磁盘资源示例) 设备名为 /dev/sdb1时

    # clproset -o -d /dev/sdb1
    /dev/sdb1 : success

    (镜像磁盘示例) 资源名为md1时

    # clpmdctrl --deactive md1
    <md1@server1>: deactive successfully

    (共享型磁盘资源示例) 资源名为hd1时

    # clphdctrl --deactive hd1
    <hd1@server1>: deactive successfully

这样就完成了xfs文件系统的修复。

6.5.13. 收集日志时的消息

执行日志收集时,控制台上可执行显示下列消息,不属于异常。日志在正常收集。

hd#: bad special flag: 0x03
ip_tables: (C) 2000-2002 Netfilter core team

(在hd#内有存在于服务器IDE的设备名)

kernel: Warning: /proc/ide/hd?/settings interface is obsolete, and will be removed soon!

6.5.14. 关于镜像恢复中的失效切换或启动

  • 镜像磁盘资源或共享磁盘资源处于镜像恢复状态下,不能启动停止状态下的镜像磁盘资源或共享磁盘资源。
    镜像恢复状态下,不能移动含有此磁盘资源的失效切换组。
    镜像恢复状态下,发生失效切换时,失效切换将失败。
    镜像恢复状态下,因复制目标服务器不能保持最新状态,对复制目标服务器或复制目标服务器组的失效切换将失败。
    另外,因检测出监视资源异常时的操作等,共享磁盘资源向同一服务器组执行失效转换的情况下,没有移动当前全值却失效切换失败。
    但是,失效切换,移动或启动中,恰好镜像恢复结束时,失效切换就会成功。
  • 登录构成信息后第一次启动镜像时,或由于发生故障等更换镜像用的磁盘后第一次启动镜像时,会进行初期镜像构建。
    初期镜像构建时,会从镜像启动后的运行服务器侧开始,然后到备用服务器侧的镜像用磁盘,最后进行磁盘的复制(全面镜像恢复)。
    到此初期镜像构建(全面镜像恢复)结束,镜像处于正常的同步状态为止,请不要失效切换到备用,或向备用移动组。
    若在磁盘的复制途中进行失效切换或组移动,备用的镜像磁盘会保持不完全的状态下而启动备用,未复制到备用的数据有可执行会丢失,文件系统有可执行会发生数据不一致。

6.5.15. 集群关机,集群重启(镜像磁盘资源,共享磁盘资源)

若使用镜像磁盘资源,共享型镜像磁盘资源,请不要在处理组启动时从clpstdn命令或者Cluster WebUI执行集群关机和集群重启。
在组的启动处理时不能进行组的停止。因此,在镜像磁盘,共享型镜像磁盘资源被正常停止时,OS将可执行出现如关机,生成镜像中断等现象。

6.5.16. 特定服务器的关机,特定服务器的重启(镜像磁盘资源,共享型磁盘资源)

使用镜像磁盘资源,共享型镜像磁盘资源时,请不要在处理组启动时,用clpdown命令或Cluster WebUI执行服务器的关机和重启命令。
在处理组启动时,不能进行组停止。因此,镜像磁盘资源,共享型镜像磁盘资源被正常停止时,OS将可执行会出现如关机,生成镜像中断等现象。

6.5.17. 关于服务启动/停止用脚本

init.d环境中,在下列情况下,服务器启动/停止脚本中输出错误。systemd环境中不输出错误。

  • 构筑集群前
    启动OS时下列服务启动脚本中输出错误。由于出错原因为集群尚未构筑,因此没有问题。
    • clusterpro_md

  • 下列情况下,服务的停止脚本执行的顺序有误。
    关闭禁用服务后的OS
    EXPRESSCLUSTER的服务设置为无效后关闭OS时,EXPRESSCLUSTER的服务由于顺序错误而停止。这是由于关闭OS时失效的EXPRESSCLUSTER服务没有被停止所造成的。
    从Cluster WebUI执行的集群关闭或使用clpstdn命令等EXPRESSCLUSTER命令关闭集群时,即使由于错误顺序造成服务停止也没有问题。

6.5.18. 关于服务启动时间

根据启动时有无等待处理的不同,EXPRESSCLUSTER的各服务器有时需要耗费较长的时间。

  • clusterpro _evt
    除主服务器以外,其他服务器下载主服务器配置信息的处理过程最长需要等待2分钟。如主服务器已启动,则通常只需几秒钟即可完成。主服务器无需等待此项处理。
  • clusterpro_nm
    无特别的等待处理。通常只需几秒钟即可完成。
  • clusterpro _trn
    无特别的等待处理。通常只需几秒钟即可完成。
  • clusterpro_ib
    无特别的等待处理。通常只需几秒钟即可完成。
  • clusterpro_api
    无特别的等待处理。通常只需几秒钟即可完成。
  • clusterpro _md
    只有存在镜像磁盘资源或共享型镜像磁盘资源时,本服务才会启动。
    镜像代理正常启动最长需要等待1分钟。通常只需几秒钟即可完成。
  • clusterpro
    无特别的等待处理,但是EXPRESSCLUSTER的启动耗时有时需要数十秒钟。通常只需几秒钟即可完成。
  • clusterpro _webmgr
    无特别的等待处理。通常只需几秒钟即可完成。
  • clusterpro _alertsync
    无特别的等待处理。通常只需几秒钟即可完成。

此外,EXPRESSCLUSTER Daemon启动后,需要进行集群同步启动等待处理,默认设置的等待时间为5分钟。

此项内容的相关信息请参考《维护指南》的"维护信息"的"集群启动同步等待时间"。

6.5.19. 关于systemd环境中的服务状态确认

在systemd环境中,存在利用systemctl命令显示的服务状态和实际的集群状态不一致的情况。
为了确认集群的实际状态,请使用clpstat命令,Cluster WebUI。

6.5.20. 关于在EXEC资源中使用的脚本文件

在EXEC资源中使用的脚本文件保存于各服务器的以下路径中。

/安装路径/scripts/组名/EXEC资源名/

更改集群配置时进行以下更改的情况下,更改前的脚本文件不会从服务器上删除。

  • 删除EXEC资源时或更改EXEC资源名时

  • EXEC资源所在的组被删除或组名被更改时

若不需要更改前的脚本文件时,可以删除。

6.5.21. 关于启动时监视设置的监视资源

启动时监视设置的监视资源的暂停/继续有以下限制事项。

  • 暂停监视资源后,停止了监视对象资源时,监视器资源变为停止状态。因此无法重启监视。

  • 暂停监视资源后,停止/启动了监视对象资源时,在监视对象资源启动时,启动基于监视器资源的监视。

6.5.22. 关于Cluster WebUI

  • 如果不能与访问地址通信,需要等待控制恢复。

  • 需要通过Proxy服务器时,请将Proxy服务器设置为可以继续使用Cluster WebUI端口号的状态。

  • 经由Reverse Proxy服务器时,Cluster WebUI不能正常运行。

  • 已经执行EXPRESSCLUSTER升级后,请关掉所有启动的浏览器。
    清除浏览器侧的缓存,启动浏览器。
  • 使用比本产品更新的版本创建的集群配置信息,不能在本产品中使用。

  • 关掉Web浏览器(窗口框的[X]等),有时会显示确认对话框。
    想要继续设置时,点击[留在此页]。
  • 重新加载Web浏览器(菜单的[刷新]和工具条的[重新读取现有的网页]等),有时会显示确认对话框。
    想要继续设置时,点击[留在此页]。
  • 有关上记以外的Cluster WebUI的注意限制事项请参考在线版手册。

6.5.23. 关于镜像磁盘,共享型镜像磁盘资源的分区大小变化

如果想要在开始运行之后更改镜像分区的容量,请参考《维护指南》的"维护信息"的"更改镜像磁盘资源分区的位移或大小"。

6.5.24. 关于更改内核转储设置

  • 在Red Hat Enterprise Linux 6等环境中,运行集群状态下,更改[内核转储设置] (system-config-kdump)的kdump设置并使其[应用]时,会出现以下错误信息。
    在这种情况下,请停止集群(正在使用镜像磁盘资源或共享型磁盘时,停止集群和镜像代理)后,执行内核转储设置。
    ※ 下面的{驱动器名}部分可以是clpka, clpkhb和liscal中的任何一个。
    No module {驱动器名} found for kernel {内核版}, aborting

6.5.25. 关于浮动 IP,虚拟 IP 资源

  • 设置了浮动 IP 资源或者虚拟 IP 资源时,请不要在这些资源启动的服务器上执行网络的重新启动。如果重新启动网络,各资源添加的 IP 地址就会被删除。

6.5.26. 关于系统监视资源,进程资源监视资源

  • 改变设定内容时,需要进行集群的挂起。

  • 不对应监视资源的延迟警告。

  • 若运行中改变OS的日期/时间,则每隔10分钟执行的解析处理仅在日期或时间更改后的最初时序出现一次错位。出现以下两种问题时,请根据需要执行集群挂起·复归。

    • 即使异常检测时间间隔经过之后,也不执行异常检测。

    • 异常检测时间间隔经过之前,执行异常检测。

    • 在系统监视资源的磁盘资源监视功能中可以同时监视的最大磁盘数为64台。

6.5.27. 关于JVM监视资源

  • 需要重新启动监视对象的Java VM时,请进行集群挂起后或停止集群后再进行。

  • 改变设定内容时,请进行集群的挂起。

  • 不对应监视资源的延迟警告。

6.5.28. 关于HTTP监视资源

  • HTTP监视资源使用了以下其中的一个OpenSSL共享库的符号链接。

    • libssl.so

    • libssl.so.1.1 (OpenSSL 1.1.1 的共享库)

    • libssl.so.10 (OpenSSL 1.0的共享库)

    • libssl.so.6 (OpenSSL 0.9的共享库)

    根据OS的发布,版本以及软件包的安装状况,上述的符号链接可执行不存在。
    HTTP监视资源找不到上述的符号链接时会发生以下错误。
    Detected an error in monitoring <Monitor Resource Name>. (1 :Can not found library. (libpath=libssl.so, errno=2))
    
    因此,发生上述错误时,请确认/usr/lib或者/usr/lib64等目录下是否存在上诉的符号链接。
    另外,上诉的符号链接不存在时,请像下面的命令例那样做成符号链接libssl.so。
    命令例:
    cd /usr/lib64                       #/usr/lib64目录移动
    ln -s libssl.so.1.0.1e libssl.so     #符号链接作成
    

6.5.29. 关于AWS环境的AMI的恢复

  • 在AWS虚拟IP资源,AWS Elastic IP资源,AWS辅助IP资源的ENI ID中设定为主网卡的[ENI ID]时,从AMI等恢复时,需要变更AWS虚拟IP资源,AWS Elastic IP资源,AWS辅助IP资源的设定。此外,设定为备用网卡的ENI ID时,从AMI等恢复时根据分离/连接处理,由于同一个ENI ID可执行被继续使用,不需要变更AWS虚拟IP资源,AWS Elastic IP资源,AWS辅助IP资源的设定。

6.6. 更改EXPRESSCLUSTER的配置时

开始集群运行后,如果对配置进行更改时,需要对发生的事项留意。

6.6.1. 关于组共通属性的互斥规则

变更互斥规则的互斥属性时,通过对集群挂起,复原就可反映其更改内容。
互斥属性设置为"完全互斥"的互斥规则中,新追加互斥对象的组时,根据挂起前的组的启动状态,完全互斥的组有可执行处于同一服务器上复数个启动的状态。
下一次组启动时会正常执行互斥控制。

6.6.2. 关于资源属性的依存关系

资源依存关系变化时,根据集群挂起,恢复,反映变化。
作为资源依赖关系和反映方法,资源停止做必要的设置时,恢复后的资源启动状态存在没有考虑依存关系的情况。
下一次组启动时会正常执行对依存关系的控制。

6.6.3. 关于磁盘资源的删除

删除了磁盘资源时,当前设备变为Read Only状态。

请使用clproset命令,设置当前设备为Read Write状态。

6.6.4. 关于消息接收监视资源的集群统计信息的设置

在更改监视资源的集群统计信息设置时,即使执行了挂起/复原,也无法使集群统计信息的设置在消息接收监视资源中生效。如果要使集群统计信息的设置在消息接收监视资源中生效,请重启OS。

6.6.5. 关于端口号的更改

启用服务器的防火墙,更改端口号时需要更改防火墙的设置。使用clpfwctrl命令可以进行防火墙的设置。详细内容请参考《参考指南》的"EXPRESSCLUSTER命令参考"的"添加防火墙规则(clpfwctrl命令)"。

6.7. EXPRESSCLUSTER版本升级时

作为集群开始操作后,进行EXPRESSCLUSTER 的版本升级(升级或更新)时需要注意的事项。

6.7.1. 功能更改一览

各版本中更改的功能如下所示。

内部版本 4.0.0-1

  • 关于管理工具
    默认的管理工具更改为Cluster WebUI。使用以前的WebManager时,在Web浏览器上请指定http://管理组的管理IP地址或者安装了EXPRESSCLUSTER Server的服务器的实际IP地址:端口号(默认值29003)/main.htm。
  • 关于镜像磁盘资源/共享型镜像磁盘
    最小集群分区为1 GiB。请在升级之前准备足够大小的集群分区。

内部版本 4.1.0-1

  • 关于设置工具
    默认的设置工具更改为Cluster WebUI。可以通过Cluster WebUI 管理及设置集群。
  • 关于集群统计信息采集功能
    统计信息文件通过集群统计信息采集功能,默认保存在安装路径下。由于磁盘容量的问题不想保存统计信息文件时,请关闭集群统计信息采集功能。关于本功能的设定值,请参考《参考指南》的"参数的详细信息"。
  • 关于异步模式的镜像磁盘资源/共享型镜像磁盘资源
    在异步模式下,即使发送队列溢出,它也不会处于镜像中断状态,但溢出的部分将暂时写为历史文件。
    使用此增强功能,您需要输入以下设置。
    • 历史文件存储目录

    • 历史文件大小限制

    ※更新后,这些设置立即为空白。在这种情况下,"历史文件存储目录"被视为安装了ExpressCluster的目录,"历史文件大小限制"被视为无限制。

    关于本设定值请参考《参考指南》的"组资源的详细信息"的"理解镜像磁盘资源"。

  • 关于系统监视资源
    系统监视资源内设置的"System Resource Agent 进程设置"部分已分离为新的监视资源。通过"System Resource Agent 进程设置"进行监视设置时,本监视的设置无效。升级之后,要继续本监视时,请注册新的进程监视资源进行监视设置。关于进程资源监视资源的监视设置详细信息,请参考《参考指南》的"监视资源的详细信息"的"理解进程资源监视资源"。

内部版本 4.2.0-1

  • 关于AWS AZ 监视资源
    使用AWS CLI可以获取的AZ状态为available 时是正常,information和impaired 时为警告,unavailable时则变为异常。以前使用AWS CLI可以获取的AZ状态为available以外的状态时都是视为异常。

内部版本 4.3.0-1

  • 关于WebLogic 监视资源
    添加作为新监视方式的REST API。从此版本开始REST API将作为默认的监视方式。升级版本时,请重新设置监视方式。
    更改密码的默认值。如果使用的是以前的默认值weblogic,请重新设置。

内部版本 5.0.0-1

  • 关于强制停止功能以及强制停止脚本
    根据环境类型刷新为个别的强制停止资源。
    版本升级前设置的强制停止功能和强制停止脚本将失效,请重新设置为强制停止资源。

内部版本 5.1.0-1

  • 关于AWS虚拟IP资源
    由于不再使用Python,因此一部分参数已经更改。

6.7.2. 功能删除一览

关于各版本中被删除的功能,显示如下。

内部版本 4.0.0-1

  • WebManager Mobile

  • OracleAS 监视资源

重要

从旧版本升级时,需要手动更新处理列中列出的项目的配置信息。
升级的步骤请参考《7.1.1. 从X 3.0/3.1/3.2/3.3升级到X 5.1》,处理列的执行,请按步骤中的时点进行。

内部版本 5.0.0-1

功能

处理

WebManager/Builder

COM 网络分区解决资源

  1. 打开[集群属性]-[心跳线标签页],删除显示类型为[不明]的心跳 I/F。

虚拟机组
虚拟机资源
虚拟机监视资源

包含虚拟机组的"主机集群用的配置信息"不能迁移。

BMC联动功能

  1. 请删除关联的消息接收监视资源。

CPU频率控制命令
(clpcpufreq命令)

-

资源使用量预测命令
(clpprer命令)

-

磁盘II/O阻塞设备

-

DISK心跳 Raw设备

-

IBM POWER中不能使用以下功能。
内核模式LAN心跳资源的设置
用户空间监视 - 监视方式(keepalive)
keepalive重置
keepalive panic

不支持IBM POWER,IBM POWER LE。

NAS资源

  1. 组资源的依赖关系中个别设置NAS资源时,先删除依赖关系的设置。
    关于依赖关系中设置打印机Spooler资源的组资源,请打开[资源的属性]的[依赖关系]标签页,在选择了打印机Spooler资源的状态下点击[删除]按钮,从依赖的资源中删除。
  2. 删除NAS资源时。
负载均衡器联动功能
(JVM监视资源)

-

Sybase监视资源

-

控制Sybase的静止点命令
(clpsybasestill命令)

-

VXVM連携機能

磁盘资源 - 磁盘类型(VXVM)
卷管理资源 - 卷管理(VXVM)
磁盘监视资源 - 監視方法 (READ (VXVM))
卷管理监视资源 - 卷管理(VXVM)

使用VxVM联动功能的配置信息无法迁移。

6.7.3. 参数删除一览

在通过Cluster WebUI可以设定的参数中,有关各版本中被删除的参数如下表所示。

内部版本 4.0.0-1

集群

参数

默认值

集群属性

Alert服务标签页

  • 使用Alert扩展机能

Off

Web管理器标签页

  • 允许接入WebManager Mobile

Off

WebManager Mobile用密码

  • 操作用密码

-

  • 参照用密码

-

JVM监视资源

参数

默认值

JVM监视资源属性

监视(固有)标签页

内存标签页 ([JVM类型]处选择 [Oracle Java]时)

  • 监视虚拟内存使用量

2048 [MB]

内存标签页 ([JVM类型]处选择[Oracle JRockit]时)

  • 监视虚拟内存使用量

2048 [MB]

内存标签页 ([JVM类型]处选择[Oracle Java(usage monitoring)]时)

  • 监视虚拟内存使用量

2048 [MB]

内部版本 4.1.0-1

集群

参数

默认值

集群属性

Web管理器标签页

Web管理器调整属性

动作标签页

  • 警示框最大记录数

300

  • 客户端数据更新方法

Real Time

内部版本 5.0.0-1

集群

参数

默认值

集群属性

私网标签页

[服务器]列 COM设备

扩展标签页

DISK心跳属性

Raw设备

  • 虚拟机强制停止设定 虚拟机管理工具

vCenter

  • 虚拟机强制停止设定 命令

/usr/lib/vmware-vcli/apps/vm/vmcontrol.pl

  • 运行强制停止脚本

Off

服务器属性

信息标签页

  • 虚拟机

Off

  • 种类

vSphere

BMC标签页

  • 强制停止命令

-

  • 机箱ID指示灯 闪烁 / 关灯

-

磁盘I/O阻塞标签页

  • I/F序号(添加,删除)

I/F添加顺序

  • 设备(编辑)

-

内部版本 5.0.2-1

镜像磁盘资源

参数

默认值

镜像磁盘资源属性

详细标签页

镜像磁盘资源调整属性

高速SSD标签页

  • 数据分区

Off

  • 集群分区

Off

共享型镜像磁盘资源

参数

默认值

共享型镜像磁盘资源属性

详细标签页

共享型镜像磁盘资源调整属性

高速SSD标签页

  • 数据分区

Off

  • 集群分区

Off

内部版本 5.1.0-1

虚拟IP资源

参数

默认值

虚拟IP资源属性

详细标签页

虚拟 IP 资源的调整属性

RIP 标签

  • 下一跳 IP 地址

-

6.7.4. 默认值更改一览

在通过Cluster WebUI可以设置的参数中,各版本中被更改的默认值如下表所示。

  • 版本升级后,想要继续设置[更改前的默认值]时,在版本升级后请重新设置该值。

  • 在设置了[更改前的默认值]以外的值时,版本升级后会保留之前的设定值。不需要重新设置。

内部版本 4.0.0-1

集群

参数

更改前的默认值

更改后的默认值

集群属性

监视标签页

  • 监视方法

softdog

keepalive

JVM监视 标签页

  • 最大Java堆内存大小

7 [MB]

16 [MB]

EXEC资源

参数

更改前的默认值

更改后的默认值

EXEC资源属性

依赖关系 标签页

  • 遵循原有的依赖关系

On
- 浮动IP资源
- 虚拟IP资源
- 磁盘资源
- 镜像磁盘资源
- 共享型镜像磁盘资源
- NAS资源
- 动态域名解析资源
- 卷管理资源
- AWS Elastic IP资源
- AWS虚拟IP资源
- Azure探头端口资源
On
- 浮动IP资源
- 虚拟IP资源
- 磁盘资源
- 镜像磁盘资源
- 共享型镜像磁盘资源
- NAS资源
- 动态域名解析资源
- 卷管理资源
- AWS Elastic IP资源
- AWS 虚拟IP资源
- AWS DNS资源
- Azure探头端口资源
- Azure DNS资源

磁盘资源

参数

更改前的默认值

更改后的默认值

磁盘资源属性

依赖关系 标签页

  • 遵循原有的依赖关系

On
- 浮动IP资源
- 虚拟IP资源
- 动态域名解析资源
- 卷管理资源
- AWS Elastic IP资源
- AWS虚拟IP资源
- Azure探头端口资源
On
- 浮动IP资源
- 虚拟IP资源
- 动态域名解析资源
- 卷管理资源
- AWS Elastic IP资源
- AWS虚拟IP资源
- AWS DNS资源
- Azure探头端口资源
- Azure DNS资源

详细 标签页

磁盘资源调整属性

Mount 标签页

  • 超时

60 [秒]

180 [秒]

xfs_repair 标签页([文件系统]处选择[xfs]时)

  • Mount失败时的xfs_repair操作
    执行

On

Off

NAS资源

参数

更改前的默认值

更改后的默认值

NAS资源属性

依赖关系 标签页

  • 遵循原有的依赖关系

On
- 浮动IP资源
- 虚拟IP资源
- 动态域名解析资源
- AWS Elastic IP资源
- AWS虚拟IP资源
- Azure探头端口资源
On
- 浮动IP资源
- 虚拟IP资源
- 动态域名解析资源
- AWS Elastic IP资源
- AWS虚拟IP资源
- AWS DNS资源
- Azure探头端口资源
- Azure DNS资源

镜像磁盘资源

参数

更改前的默认值

更改后的默认值

镜像磁盘资源属性

依赖关系 标签页

  • 遵循原有的依赖关系

On
- 浮动IP资源
- 虚拟IP资源
- AWS Elastic IP资源
- AWS虚拟IP资源
- Azure探头端口资源
On
- 浮动IP资源
- 虚拟IP资源
- AWS Elastic IP资源
- AWS虚拟IP资源
- AWS DNS资源
- Azure探头端口资源
- Azure DNS资源

详细 标签页

镜像磁盘资源调整属性

xfs_repair 标签页([文件系统]处选择[xfs]时)

  • Mount失败时的xfs_repair操作
    执行

On

Off

共享型镜像磁盘资源

参数

更改前的默认值

更改后的默认值

共享型镜像磁盘资源属性

依赖关系 标签页

  • 遵循原有的依赖关系

On
- 浮动IP资源
- 虚拟IP资源
- AWS Elastic IP资源
- AWS虚拟IP资源
- Azure探头端口资源
On
- 浮动IP资源
- 虚拟IP资源
- AWS Elastic IP资源
- AWS虚拟IP资源
- AWS DNS资源
- Azure探头端口资源
- Azure DNS资源

详细 标签页

共享型镜像磁盘资源调整属性

xfs_repair 标签页([文件系统]处选择[xfs]时)

  • Mount失败时的xfs_repair操作
    执行

On

Off

卷管理资源

参数

更改前的默认值

更改后的默认值

卷管理资源属性

依赖关系 标签页

  • 遵循原有的依赖关系

On
- 浮动IP资源
- 虚拟IP资源
- 动态域名解析资源
- AWS Elastic IP资源
- AWS虚拟IP资源
- Azure探头端口资源
On
- 浮动IP资源
- 虚拟IP资源
- 动态域名解析资源
- AWS Elastic IP资源
- AWS虚拟IP资源
- AWS DNS资源
- Azure探头端口资源
- Azure DNS资源

虚拟IP监视资源

参数

更改前的默认值

更改后的默认值

虚拟IP监视资源属性

监视 (共通) 标签页

  • 超时

30 [秒]

180 [秒]

PID监视资源

参数

更改前的默认值

更改后的默认值

PID监视资源属性

监视 (共通) 标签页

  • 开始监视的等待时间

0 [秒]

3 [秒]

  • 超时发生时不重试

Off

On

  • 超时发生时不做回复动作

Off

On

用户空间监视资源

参数

更改前的默认值

更改后的默认值

用户空间监视资源属性

监视 (固有) 标签页

  • 监视方法

softdog

keepalive

NIC Link Up/Down监视资源

参数

更改前的默认值

更改后的默认值

NIC Link Up/Down 监视资源属性

监视 (共通) 标签页

  • 超时

60 [秒]

180 [秒]

  • 超时发生时不重试

Off

On

  • 超时发生时不做回复动作

Off

On

ARP监视资源

参数

更改前的默认值

更改后的默认值

ARP 监视资源属性

监视 (共通) 标签页

  • 超时发生时不重试

Off

On

  • 超时发生时不做回复动作

Off

On

动态域名解析监视资源

参数

更改前的默认值

更改后的默认值

动态域名解析监视资源属性

监视 (共通) 标签页

  • 超时

100 [秒]

180 [秒]

进程名监视器资源

参数

更改前的默认值

更改后的默认值

进程名监视器资源属性

监视 (共通) 标签页

  • 开始监视的等待时间

0 [秒]

3 [秒]

  • 超时发生时不重试

Off

On

  • 超时发生时不做回复动作

Off

On

DB2监视资源

参数

更改前的默认值

更改后的默认值

DB2 监视资源属性

监视 (固有) 标签页

  • 密码

ibmdb2

-

  • Lib路径

/opt/IBM/db2/V8.2/lib/libdb2.so

/opt/ibm/db2/V11.1/lib64/libdb2.so

MySQL监视资源

参数

更改前的默认值

更改后的默认值

MySQL 监视资源属性

监视 (固有) 标签页

  • 存储引擎

MyISAM

InnoDB

  • Lib路径

/usr/lib/mysql/libmysqlclient.so.15

/usr/lib64/mysql/libmysqlclient.so.20

Oracle监视资源

参数

更改前的默认值

更改后的默认值

Oracle 监视资源属性

监视 (固有) 标签页

  • 密码

change_on_install

-

  • Lib路径

/opt/app/oracle/product/10.2.0/db_1/lib/libclntsh.so.10.1

/u01/app/oracle/product/12.2.0/dbhome_1/lib/libclntsh.so.12.1

PostgreSQL监视资源

参数

更改前的默认值

更改后的默认值

PostgreSQL 监视资源属性

监视 (固有) 标签页

  • Lib路径

/usr/lib/libpq.so.3.0

/opt/PostgreSQL/10/lib/libpq.so.5.10

Tuxedo监视资源

参数

更改前的默认值

更改后的默认值

Tuxedo 监视资源属性

监视 (固有) 标签页

  • Lib路径

/opt/bea/tuxedo8.1/lib/libtux.so

/home/Oracle/tuxedo/tuxedo12.1.3.0.0/lib/libtux.so

WebLogic监视资源

参数

更改前的默认值

更改后的默认值

WebLogic 监视资源属性

监视 (固有) 标签页

  • 域环境文件

/opt/bea/weblogic81/samples/domains/examples/setExamplesEnv.sh

home/Oracle/product/Oracle_Home/user_projects/domains/base_domain/bin/setDomainEnv.sh

JVM监视资源

参数

更改前的默认值

更改后的默认值

JVM监视资源属性

监视 (共通) 标签页

  • 超时

120 [秒]

180 [秒]

浮动IP监视资源

参数

更改前的默认值

更改后的默认值

浮动IP监视资源属性

监视 (共通) 标签页

  • 超时

60 [秒]

180 [秒]

  • 超时发生时不重试

Off

On

  • 超时发生时不做回复动作

Off

On

AWS Elastic IP监视资源

参数

更改前的默认值

更改后的默认值

AWS Elastic IP监视资源属性

监视 (共通) 标签页

  • 超时

100 [秒]

180 [秒]

  • 超时发生时不重试

Off

On

  • 超时发生时不做回复动作

Off

On

AWS虚拟IP监视资源

参数

更改前的默认值

更改后的默认值

AWS 虚拟IP监视资源属性

监视 (共通) 标签页

  • 超时

100 [秒]

180 [秒]

  • 超时发生时不重试

Off

On

  • 超时发生时不做回复动作

Off

On

AWS AZ监视资源

参数

更改前的默认值

更改后的默认值

AWS AZ监视资源属性

监视 (共通) 标签页

  • 超时

100 [秒]

180 [秒]

  • 超时发生时不重试

Off

On

  • 超时发生时不做回复动作

Off

On

Azure探头端口监视资源

参数

更改前的默认值

更改后的默认值

Azure 探头端口监视资源属性

监视 (共通) 标签页

  • 超时

100 [秒]

180 [秒]

  • 超时发生时不重试

Off

On

  • 超时发生时不做回复动作

Off

On

Azure负载均衡监视资源

参数

更改前的默认值

更改后的默认值

Azure 负载均衡监视资源属性

监视 (共通) 标签页

  • 超时

100 [秒]

180 [秒]

  • 超时发生时不重试

Off

On

  • 超时发生时不做回复动作

Off

On

内部版本 4.1.0-1

集群

参数

更改前的默认值

更改后的默认值

集群属性

监视标签页

  • 关机监视

始终执行

只在组停止处理失败时执行

内部版本 4.2.0-1

AWS Elastic IP 监视资源

参数

更改前的默认值

更改后的默认值

AWS Elastic IP监视资源的属性

监视 (固有) 标签页

  • AWS CLI命令响应获取失败操作

不运行恢复动作(显示警告)

不运行恢复动作(不显示警告)

AWS 虚拟 IP 监视资源

参数

更改前的默认值

更改后的默认值

AWS 虚拟 IP监视资源的属性

监视 (固有) 标签页

  • AWS CLI命令响应获取失败操作

不运行恢复动作(显示警告)

不运行恢复动作(不显示警告)

AWS AZ 监视资源

参数

更改前的默认值

更改后的默认值

AWS AZ监视资源的属性

监视 (固有) 标签页

  • AWS CLI命令响应获取失败操作

不运行恢复动作(显示警告)

不运行恢复动作(不显示警告)

AWS DNS 监视资源

参数

更改前的默认值

更改后的默认值

AWS DNS 监视资源的属性

监视 (固有) 标签页

  • AWS CLI命令响应获取失败操作

不运行恢复动作(显示警告)

不运行恢复动作(不显示警告)

内部版本 4.3.0-1

集群

参数

更改前的默认值

更改后的默认值

集群属性

扩展标签页

  • 最大再启动次数

0 [次]

3 [次]

  • 重置最大再启动次数的时间

0 [分]

60 [分]

API 标签页

  • 通信方式

HTTP

HTTPS

NFS 监视资源

参数

更改前的默认值

更改后的默认值

NFS 监视资源的属性

监视 (固有) 标签页

  • NFS 版本

v2

v4

WebLogic监视资源

参数

更改前的默认值

更改后的默认值

WebLogic 监视资源属性

监视 (固有) 标签页

  • 密码

weblogic

内部版本 4.3.2-1

AWS DNS资源

参数

更改前的默认值

更改后的默认值

AWS DNS资源属性

详细标签页

  • 停止时删除资源RecordSet

on

off

内部版本 5.0.0-1

集群

参数

更改前的默认值

更改后的默认值

集群属性

监视标签页

  • 将SIGTERM置为有效

Off

On

EXEC资源

参数

更改前的默认值

更改后的默认值

EXEC资源属性

依赖关系 标签页

  • 遵循原有的依赖关系

On
- 浮动IP资源
- 虚拟IP资源
- 磁盘资源
- 镜像磁盘资源
- 共享型镜像磁盘资源
- 动态域名解析资源
- 卷管理资源
- AWS Elastic IP资源
- AWS 虚拟IP资源
- AWS DNS资源
- Azure探头端口资源
- Azure DNS资源
On
- 浮动IP资源
- 虚拟IP资源
- 磁盘资源
- 镜像磁盘资源
- 共享型镜像磁盘资源
- 动态域名解析资源
- 卷管理资源
- AWS Elastic IP资源
- AWS 虚拟IP资源
- AWS 辅助IP资源
- AWS DNS资源
- Azure探头端口资源
- Azure DNS资源

磁盘资源

参数

更改前的默认值

更改后的默认值

磁盘资源属性

依赖关系 标签页

  • 遵循原有的依赖关系

On
- 浮动IP资源
- 虚拟IP资源
- 动态域名解析资源
- 卷管理资源
- AWS Elastic IP资源
- AWS虚拟IP资源
- AWS DNS资源
- Azure探头端口资源
- Azure DNS资源
On
- 浮动IP资源
- 虚拟IP资源
- 动态域名解析资源
- 卷管理资源
- AWS Elastic IP资源
- AWS 虚拟IP资源
- AWS 辅助IP资源
- AWS DNS资源
- Azure探头端口资源
- Azure DNS资源

镜像磁盘资源

参数

更改前的默认值

更改后的默认值

镜像磁盘资源属性

依赖关系 标签页

  • 遵循原有的依赖关系

On
- 浮动IP资源
- 虚拟IP资源
- AWS Elastic IP资源
- AWS 虚拟IP资源
- Azure探头端口资源
On
- 浮动IP资源
- 虚拟IP资源
- AWS Elastic IP资源
- AWS 虚拟IP资源
- AWS 辅助IP资源
- Azure探头端口资源

共享型镜像磁盘资源

参数

更改前的默认值

更改后的默认值

共享型镜像磁盘资源属性

依赖关系 标签页

  • 遵循原有的依赖关系

On
- 浮动IP资源
- 虚拟IP资源
- AWS Elastic IP资源
- AWS 虚拟IP资源
- Azure探头端口资源
On
- 浮动IP资源
- 虚拟IP资源
- AWS Elastic IP资源
- AWS 虚拟IP资源
- AWS 辅助IP资源
- Azure探头端口资源

卷管理资源

参数

更改前的默认值

更改后的默认值

卷管理资源属性

依赖关系 标签页

  • 遵循原有的依赖关系

On
- 浮动IP资源
- 虚拟IP资源
- 动态域名解析资源
- AWS Elastic IP资源
- AWS 虚拟IP资源
- AWS DNS资源
- Azure探头端口资源
- Azure DNS资源
On
- 浮动IP资源
- 虚拟IP资源
- 动态域名解析资源
- AWS Elastic IP资源
- AWS 虚拟IP资源
- AWS 辅助IP资源
- AWS DNS资源
- Azure探头端口资源
- Azure DNS资源

动态域名解析资源

参数

更改前的默认值

更改后的默认值

动态域名解析资源属性

依赖关系 标签页

  • 遵循原有的依赖关系

On
- 浮动IP资源
- 虚拟IP资源
- AWS Elastic IP资源
- AWS 虚拟IP资源
- Azure探头端口资源
On
- 浮动IP资源
- 虚拟IP资源
- AWS Elastic IP资源
- AWS 虚拟IP资源
- AWS 辅助IP资源
- Azure探头端口资源

内部版本 5.1.0-1

集群

参数

更改前的默认值

更改后的默认值

集群属性

Web管理器标签页

  • 导出Cluster WebUI的操作日志

Off

On

6.7.5. 参数移动一览

在通过Cluster WebUI可以设定的参数中,各版本设定位置存在更改的参数如下表所示

内部版本 5.0.0-1

更改前的设置位置

更改后的设置位置

[集群属性]-[扩展标签页]-[使用强制停止功能]

[集群属性]-[Fencing标签页]-[强制停止]-[类型]

[集群属性]-[扩展标签页]-[强制停止操作]

[BMC强制停止的属性]-[强制停止标签页]-[强制停止操作]

[集群属性]-[扩展标签页]-[强制停止超时]

[BMC强制停止的属性]-[强制停止标签页]-[强制停止超时]

[集群属性]-[扩展标签页]-[虚拟机强制停止设定]-[操作]

[vCenter强制停止的属性]-[强制停止标签页]-[强制停止操作]

[集群属性]-[扩展标签页]-[虚拟机强制停止设定]-[超时]

[vCenter强制停止的属性]-[强制停止标签页]-[强制停止超时]

[集群属性]-[扩展标签页]-[虚拟机强制停止设定]-[主机名]

[vCenter强制停止的属性]-[vCenter标签页]-[主机名]

[集群属性]-[扩展标签页]-[虚拟机强制停止设定]-[用户名]

[vCenter强制停止的属性]-[vCenter标签页]-[用户名]

[集群属性]-[扩展标签页]-[虚拟机强制停止设定]-[密码]

[vCenter强制停止的属性]-[vCenter标签页]-[密码]

[集群属性]-[扩展标签页]-[虚拟机强制停止设定]-[Perl路径]

[vCenter强制停止的属性]-[vCenter标签页]-[Perl路径]

[服务器属性]-[BMC标签页]-[IP地址]

[BMC强制停止的属性]-[服务器列表标签页]-[BMC输入]-[IP地址]

[服务器属性]-[BMC标签页]-[用户名]

[BMC强制停止的属性]-[服务器列表标签页]-[BMC输入]-[用户名]

[服务器属性]-[BMC标签页]-[密码]

[BMC强制停止的属性]-[服务器列表标签页]-[BMC输入]-[密码]

内部版本 5.1.0-1

更改前的设置位置

更改后的设置位置

[集群属性]-[监视标签页]-[系统资源]

[集群属性]-[统计信息标签页]-[系统资源统计信息]

[集群属性]-[镜像Agent标签页]-[收集统计信息]

[集群属性]-[统计信息标签页]-[镜像统计信息]

[集群属性]-[扩展标签页]-[集群统计信息]

[集群属性]-[统计信息标签页]-[集群统计信息]

7. 升级步骤

本章将阐述EXPRESSCLUSTER 的升级步骤。

本章将阐述的项目如下。

7.1. EXPRESSCLUSTER X的升级步骤

7.1.1. 从X 3.0/3.1/3.2/3.3升级到X 5.1

首先请确认以下注意事项。

  • 本升级步骤可以从 EXPRESSCLUSTER X 3.3 for Linux 的内部版本 3.3.5-1 或更高版本开始。

  • 从 EXPRESSCLUSTER X 4.2 for Linux 开始,添加了 EXPRESSCLUSTER X 4.2 for Linux 使用的端口号。 从 EXPRESSCLUSTER X 4.1 for Linux 或更早版本升级时,请确保您可以提前访问所需的端口号。
    EXPRESSCLUSTER 使用的端口号,请参考"6.3.1. 通信端口号"。
  • 使用镜像磁盘资源/共享型镜像磁盘资源时,集群分区空间的大小要在1024MiB以上。此外,需要镜像磁盘资源/共享型镜像磁盘资源的全复制。

  • 使用镜像磁盘资源/共享型镜像磁盘资源时,推荐事前做数据的备份。关于备份请参考《安装&设置指南》的"进行运行检查"的"确认备份步骤","确认恢复步骤"。

  • 请在root用户上升级EXPRESSCLUSTER Server。

参见

同一版本之间的升级步骤请参考《升级步骤手册》。

以下,就有关从Linux版EXPRESSCLUSTER X 3.3/4.x进行升级的步骤进行说明。

  1. 开始升级前,请使用Cluster WebUI,WebManager或命令确认正在运行集群的各服务器的状态以及所有资源的状态是否正常。

  2. 备份集群配置信息。集群配置信息除了在做成时通过Cluster WebUI,Builder保存外,通过clpcfctrl命令也可以做成备份。详细请参考《参考指南》的"EXPRESSCLUSTER命令参考"-"更改集群配置信息,备份集群配置信息,检查集群配置信息(clpcfctrl命令)"-"备份集群配置信息"。

  3. 在构成集群的所有服务器上,卸载EXPRESSCLUSTER。卸载步骤请参照《安装&设置指南》的"卸载/重装EXPRESSCLUSTER"-"卸载步骤"-"卸载EXPRESSCLUSTER Server"。

  4. 在构成集群的所有服务器上,新安装EXPRESSCLUSTER。新安装步骤请参照《安装&设置指南》的"安装EXPRESSCLUSTER"以及"注册License"。

  5. 在任意一台新安装的服务器上执行集群配置信息转换命令。

    1. 移动到执行集群配置信息转换命令的工作目录(例:/tmp等)。

    2. 将步骤2.中备份的集群配置信息复制并存放在移动后的工作目录下。
      请放置clp.conf 和scripts 目录。

      注解

      使用Cluster WebUI 进行备份时,集群配置信息会被压缩成zip文件。
      将zip文件解压缩会得到 clp.conf 和scripts目录。
    3. 执行以下命令,转换集群配置信息。

      # clpcfconv.sh -i .
    4. 将工作目录下的集群配置信息(clp.conf) 和 scripts目录压缩成zip文件。

      注解

      zip压缩包中应存放着clp.conf文件和scripts文件夹。

  6. 打开Cluster WebUI的编辑模式,点击[导入配置文件]。
    请导入在步骤5.中生成的集群配置信息(zip)。
  7. 手动更新更改集群配置信息所需的项目。
    参考《6.7.2. 功能删除一览》,如果正在使用操作栏中列出的功能时,请按照操作栏中的说明更改集群配置信息。
  8. 如果是从 X 3.3 升级,并且使用镜像磁盘资源/共享型镜像磁盘资源,请执行以下操作。

    1. 要准备1024MiB以上的分区作为集群分区。

    2. 镜像磁盘资源/共享型镜像磁盘资源使用的集群分区和配置信息不一致的场合,修改配置信息。另外,镜像磁盘资源/共享型镜像磁盘资源所属的组的[属性]的[属性]标签页的[组启动属性]是自动启动的场合,设置成手动启动。

    3. 使用镜像磁盘资源时,对各镜像磁盘资源执行以下的步骤。

      • 打开资源的[属性]的[详细]标签页,点击[调整]按钮,显示[镜像磁盘资源调整属性]对话框。

      • 打开[镜像磁盘资源调整属性]的[镜像]标签页,将[构建初始文件系统]设置为Off。

  9. 使用强制停止功能或者强制停止脚本时,请执行以下操作。

    1. 设置[集群属性] - [Fencing] 标签页 - [强制停止] - [类型] 。
      使用强制停止脚本时,请选择 [自定义]。
      如果没有使用强制停止脚本,EXPRESSCLUSTER在物理机上运行时,请选择 [BMC] ,在虚拟机上运行时请选择[vCenter] 。
    2. 请点击[属性],显示强制停止资源的属性画面,设定各参数。

  10. 点击Cluster WebUI的[应用配置文件],反映配置信息。

    使用期间定制License时,请执行以下命令。
    # clplcnsc --distribute
  11. 如果是从 X 3.3 升级,并且使用镜像磁盘资源/共享型镜像磁盘资源,请执行以下操作。

    对各镜像磁盘资源/共享型镜像磁盘资源,请在所有的服务器上执行以下的命令。
    初始化集群分区。
    (镜像磁盘资源的场合)
    # clpmdinit --create force <镜像磁盘资源名>
    (共享型镜像磁盘资源的场合)
    # clphdinit --create force <共享型镜像磁盘资源名>
  12. 打开Cluster WebUI的操作模式,启动集群。

  13. 如果是从 X 3.3 升级,并且使用镜像磁盘资源/共享型镜像磁盘资源,请执行以下操作。

    1. 从镜像磁盘列表持有最新信息的服务器作为复制源,执行全复制。

    2. 启动组,确认各资源正常启动。

    3. 步骤8中,[组启动属性]以及[构建初始文件系统]的设置变更场合,通过Cluster WebUI将设置复原,点击[应用配置文件],将集群配置信息反映到集群。

  14. 至此EXPRESSCLUSTER Server升级完毕。启动集群,通过使用Cluster WebUI 或clpstat指令,请确认各服务器作为集群是否正常运行。

8. 词汇表

心跳线
集群服务器之间的通信路径。
(相关) 私网,公网
虚拟IP地址

构筑远程集群时使用的资源(IP地址)。

管理客户端

已启动Cluster WebUI的机器。

启动属性
集群启动时,决定是自动还是手动启动失效切换组的失效切换组的属性。
可在管理客户端进行设置。
共享磁盘

可从多台服务器访问的磁盘。

共享磁盘型集群

使用共享磁盘的集群系统。

切换分区
连接到多台计算机的,可切换使用的磁盘分区。
(相关)磁盘心跳用分区
集群系统

通过LAN等连接多台计算机,并作为1个系统进行操作的系统形态。

集群关机

关闭整个集群系统(构筑集群的所有服务器)。

集群分区
设在镜像磁盘,共享型镜像磁盘上的分区。用于管理镜像磁盘,共享型镜像磁盘。
(相关)磁盘心跳用分区
运行服务器
对某一业务装置来说,正在运行业务的服务器。
(相关) 待机服务器
从服务器 (服务器)
一般使用时,失效切换组进行失效切换的目标服务器。
(相关) 主服务器
待机服务器
非运行服务器。
(相关) 运行服务器
磁盘心跳用分区

共享磁盘型集群中用于心跳通信的分区。

数据分区
可与共享磁盘的切换分区一样进行使用的本地磁盘
镜像磁盘,共享型镜像磁盘中设置的数据用的分区。
(相关) 集群分区
网络分区解决资源
指所有的心跳中断。
(相关) 心跳线,心跳
节点

在集群系统中,指构筑集群的服务器。在网络用语中,指可以传输,接收和处理信号的,包括计算机和路由器在内的设备。

心跳
指为了监视服务器而在服务器之间定期进行相互间的通信。
(相关) 心跳线,网络分区解决资源
公网
服务器/客户端之间的通信路径。
(相关) 心跳线,私网
失效切换

指由于查出故障,待机服务器继承运行服务器上的业务应用程序。

故障恢复

将某台服务器上已启动的业务应用程序通过失效切换交接给其他服务器后,再把业务返回到已启动业务应用程序的服务器。

失效切换组

执行业务所需的集群资源,属性的集合。

失效切换移动组

指用户故意将业务应用程序从运行服务器移动到待机服务器。

失效切换策略

可进行失效切换的服务器列表及其列表中具有失效切换优先顺序的属性。

私网
指仅连接构筑集群的服务器的LAN。
(相关) 心跳线,公网
主服务器 (服务器)
失效切换组中作为基准的主服务器。
(相关) 从服务器 (服务器)
浮动IP地址
发生了失效切换时,可忽视客户端的应用程序所连接服务器发生切换而使用的IP地址。
在与集群服务器所属的LAN相同的网络地址中,分配其他未使用的主机地址。
主服务器(Master Server)

Cluster WebUI的[服务器共通properties]-[Master Server]中显示在最前面的服务器。

镜像磁盘连接

镜像磁盘,共享型镜像磁盘集群中用于进行数据镜像的LAN。可通过和内部主网的通用进行设置。

镜像磁盘系统
不使用共享磁盘的集群系统。
在服务器之间镜像服务器的本地磁盘。