1. 前言

1.1. 读者对象和用途

《EXPRESSCLUSTER X开始指南》以首次使用EXPRESSCLUSTER的用户为对象,介绍了EXPRESSCLUSTER的产品概要、集群系统导入的过程、其他手册的使用方法等。同时还介绍了最新的运行环境信息以及限制事项等。

1.2. 本手册的构成

1.3. EXPRESSCLUSTER手册体系

EXPRESSCLUSTER 的手册分为以下 6 类。各指南的标题和用途如下所示。

《EXPRESSCLUSTER X 开始指南》(Getting Started Guide)

本手册的读者对象为使用EXPRESSCLUSTER的用户,对产品概要、运行环境、升级信息以及现有的问题等进行了说明。

EXPRESSCLUSTER X 安装&设置指南》(Install and Configuration Guide)

本手册的读者对象为导入使用EXPRESSCLUSTER的集群系统的系统工程师以及导入集群系统后进行维护和操作的系统管理员。对导入使用了EXPRESSCLUSTER的集群系统后到开始操作前的必备事项进行说明。本手册按照实际导入集群系统时的顺序,对使用EXPRESSCLUSTER的集群系统的设计方法、EXPRESSCLUSTER的安装设置步骤、设置后的确认以及开始操作前的测试方法进行说明。

EXPRESSCLUSTER X 参考指南》(Reference Guide)

本手册的读者对象为管理员以及导入使用了EXPRESSCLUSTER的集群系统的系统工程师。手册说明了EXPRESSCLUSTER 的操作步骤、各模块的功能以及疑难解答信息等,是对《安装&设置指南》的补充。

EXPRESSCLUSTER X 维护指南》(Maintenance Guide)

本手册的读者对象为管理员以及导入使用EXPRESSCLUSTER的集群系统后进行维护和操作的系统管理员,对EXPRESSCLUSTER的维护的相关信息进行了说明。

EXPRESSCLUSTER X 硬件整合指南》 (Hardware Feature Guide)

本手册的读者对象为管理员以及导入使用EXPRESSCLUSTER的集群系统的系统工程师,对特定的硬件以及与其整合的功能进行说明。是对《安装&设置指南》的补充。

EXPRESSCLUSTER X 兼容功能指南》(Legacy Feature Guide)

本手册的读者对象为管理员以及导入使用EXPRESSCLUSTER的集群系统的系统工程师,对EXPRESSCLUSTER X 4.0 WebManager以及Builder的相关信息等进行了说明。

1.4. 本手册的标记规则

在本手册中,需要注意的事项、重要的事项以及相关信息等用如下方法标记。

注解

表示虽然比较重要,但是并不会引起数据损失或系统以及机器的损伤的信息。

重要

表示为避免数据损失和系统、机器损坏所必需的信息。

参见

表示参考信息的位置。

另外在本手册中使用以下标记法。

标记

使用方法

[ ]方括号
在命令名的前后,
显示在画面中的字句 (对话框、菜单等) 的前后。
点击[开始]。
[属性]对话框
命令行中的[ ]方括号
表示括号内的值可以不予指定
(可省)。
clpstat -s[-h host_name]

#

表示Linux用户正以root身份登录的提示符。

# clpcl  -s -a

等宽字体
(courier)
路径名、命令行、系统输出(消息、提示等)、目录、文件名、函数、参数。
/Linux/4.2/cn/server/
等宽字体
粗体
(courier)
表示用户在命令提示符后实际输入的值。
输入以下值。
clpcl -s -a
等宽字体
斜体(courier)
用户将其替换为有效值后输入的项目。
clpstat -s[-h host_name]

1.5. 最新信息来源

关于最新的产品信息,请参考以下Web站点。

https://www.nec.com/global/prod/expresscluster/

2. 何谓集群系统

本章介绍集群系统的概要。

本章介绍以下内容。

2.1. 集群系统的概要

在今天的计算机社会中,不中断地持续提供服务是成功的关键所在。例如仅仅由于1台机器因故障或超负荷运行而宕机,从而造成向客户提供的服务全面中断。这样不仅会造成不可估量的损失,还可能失去客户的信赖。

而集群系统就是避免这种事态发生的系统。导入集群系统后,或者能够将万一发生系统运行停止时的停止时间(DownTime)缩到最短,或者能够通过分散负载的方法回避系统宕机。

所谓集群就是"群""团"的意思,顾名思义,集群系统就是"将多个计算机集合成一个群(或多个群),从而提高可靠性和处理性能的系统"。集群系统有很多种,分为以下3类。其中,EXPRESSCLUSTER属于高可用性集群。

  • HA (High Availability) 集群

    指在正常时将其中一方用作运行服务器,提供业务,运行服务器发生故障时将业务交接给待机服务器的集群形态。该集群主要目的是实现高可用性,可以交接数据。该集群包含共享磁盘型、镜像磁盘型、远程集群型。

  • 负载均衡集群

    指能够将客户端发送的请求按照合适的负载均衡原则,分配给各负载均衡主机的集群形态。该集群的主要目的实现高扩展性,一般情况不能进行数据交接。该集群包含负载均衡集群、并列数据库集群。

  • HPC(High Performance Computing)集群

    使用所有节点的CPU,实现单一业务的集群。该集群的主要目的是实现高性能,应用范围不大。
    另外,该集群是HPC的一种,将更广泛范围内的节点和计算机集群捆绑在一起的网格运算技术也成为近年来关注的焦点。

2.2. HA(High Availability)集群

为了提高系统的可用性,普遍认为将系统部件冗余化,排除Single Point of Failure是至关重要的。所谓Single Point of Failure是指因为计算机的配置要素(硬件)只有一个,在这个部件上发生故障时则会造成业务中断这一弱点。HA集群则是通过使用多台服务器使系统冗余化,从而将系统的中断时间限制在最小,提高业务可用性(availability)的集群系统。

绝对不容许系统中断的骨干业务系统自不必说,在系统中断会给业务带来巨大影响的系统中也需要导入HA集群。

HA集群可以分为共享磁盘型和数据镜像型。下面分别介绍两种类型。

2.2.1. 共享磁盘型

在集群系统中,必须在服务器之间进行数据的交接。将这些数据放在共享磁盘上,多个服务器共同使用该磁盘的系统形态称为共享磁盘型。

HA集群配置图

图 2.1 HA集群配置图

运行业务应用程序的服务器(运行服务器)发生故障时,集群系统能够查出故障,自动启动待机服务器上的业务应用程序,使业务继续进行。该功能称为失效切换。集群系统进行交接的业务由磁盘、IP地址、应用程序等资源配置。

在未进行集群化的系统中,如果在其他服务器上重新启动应用程序,客户端必须重新连接不同的IP地址。但是在多个集群系统中,会以业务为单位分配虚拟IP地址。因此,客户端不必识别现在运行的服务器是运行服务器还是待机服务器,可以完全像连接在同一台服务器上一样继续执行业务。

交接数据时必须检查文件系统的一致性。一般使用检查命令(如在Linux上会使用fsck)检查文件系统的一致性,但是文件系统越大,检查所花的时间越长,检查期间就会造成业务中断。在该系统中为了解决该问题,通过日志文件系统缩短失效切换时间。

业务应用程序需要对交接后的数据进行逻辑检查。如果是数据库,则需要进行回滚或前滚处理。通过该方法,客户端只需要重新执行未提交的SQL文,就可以使业务不中断运行。

恢复故障服务器时,只要将查出故障的服务器进行物理分离,修理之后,重新连接到集群系统上,就可以作为待机服务器恢复了。在重视业务持续性的实际运用过程中,使用这样的恢复方式就足够了。

发生故障到系统恢复的流程

图 2.2 发生故障到系统恢复的流程

如果失效切换到的服务器配置不够,担心双向待机负荷过大,希望在原来的服务器上运行业务时,可以进行故障恢复,重新在原来的服务器上运行业务。

如 "图 2.3 HA集群的运行形态" 所示,只有一个业务,在待机服务器上没有运行业务的待机形态称为单向待机。如果有两个以上业务,每个服务器既是运行服务器,又是待机服务器,这种形态称为双向待机。

HA集群的运行形态

图 2.3 HA集群的运行形态

2.2.2. 数据镜像型

之前介绍的共享磁盘型适用于大规模系统,但是由于共享磁盘大多很昂贵,所以搭建系统的成本也就随之增加。不使用共享磁盘,在各服务器之间对各服务器上的磁盘进行镜像,通过该方法用低廉的价格实现相同功能的集群系统称为数据镜像型。

但是,因为需要在服务器之间进行数据的镜像,因此不适用于需要大量数据的大规模系统。

应用程序发出write请求时,数据镜像引擎会将数据写入本地磁盘的同时,通过心跳线将write请求同时分发给待机服务器。所谓心跳线是指连接各服务器的网络,在集群系统中需要使用心跳线进行服务器的生存状态监视。在数据镜像类型中,心跳线除了用于生存状态监视,还用于数据传输。待机服务器数据镜像引擎将收到的数据写入待机服务器的本地磁盘,从而实现运行服务器和待机服务器间的数据同步。

应用程序发出Read请求时,则只需单纯从运行服务器的磁盘中读取数据即可。

数据镜像的结构

图 2.4 数据镜像的结构

作为数据镜像的一个应用示例,可以使用快照备份。数据镜像类型的集群系统由于同时在2处保存共享数据,因此只需将待机服务器从集群中分离开,无需备份,就可以将磁盘作为快照备份保存。

失效切换的机制和问题

至此,我们一口气介绍了包含失效切换集群、负载均衡集群、HPC(High Performance Computing)集群等多种多样的集群系统。我们了解了失效切换集群称为HA(High Availability)集群,其目的是通过将服务器多重化,发生故障时将运行的业务转移到其他服务器上,从而提高业务的可用性(Availability)。下面介绍集群的结构和问题。

2.3. 查出故障的原理

集群软件一旦查出影响业务继续运行的故障,就会进行业务的切换(失效切换)。在介绍失效切换处理的详细内容之前,先简单了解一下集群软件是如何检测故障的。

心跳和服务器的故障检测

在集群系统中,应该查出的最基本故障是配置集群的各服务器均停止运行。服务器故障中,包括电源故障、内存错误等硬件故障和OS的panic。要查出该故障,则需要在服务器生存状态监视中使用心跳。

心跳也可以是确认ping应答这样的简单的生存状态监视,但是使用集群软件还能够互相传送本服务器的状态信息。集群软件进行心跳信息的收发信息,没有心跳应答时则认为该服务器发生故障,开始进行失效切换处理。但是考虑到服务器也可能是因为负载较高,收发心跳信息有延迟,在做出服务器故障判断之前留有一定的缓冲时间。因此,实际发生故障的时间和集群软件查出故障的时间之间有一定时滞。

资源的故障检测

造成业务中断的原因不仅仅是配置集群服务器全部中断,还有可能是因为业务应用程序使用的磁盘设备或NIC 发生故障,亦或是业务应用程序本身发生故障造成业务中断。为了提高可用性,这些资源故障同样需要查出来并进行失效切换。

作为检测资源故障的方法,如果监视的对象资源是物理设备,则采取实际访问的方法。在应用程序的监视中,除了应用程序进程自身的生存状态监视,还考虑在不影响业务的范围内使用服务端口等手段。

2.3.1. 共享磁盘型的各种问题

在共享磁盘型的失效切换集群中,多个服务器上物理共享一个磁盘设备。一般情况下,文件系统会通过在服务器中保持数据的缓存,发挥出超过磁盘设备物理I/O性能界限的文件I/O性能。

试想一下,如果某个文件系统同时被多个服务器mount访问结果会怎样?

一般的文件系统是不考虑其他服务器磁盘上数据的更新的,所以会造成缓存和磁盘上数据的矛盾,最终导致数据被破坏。为了防止下面介绍的网络分区解决资源带来的多个服务器同时mount文件系统的问题,在失效切换集群系统中使用了磁盘设备的互斥控制。

共享磁盘类型的集群配置

图 2.5 共享磁盘类型的集群配置

2.3.2. 网络分区症状(Split-brain-syndrome)

如果断开所有各服务器之间连接的心跳线,通过心跳进行的生存状态监视就会互相查出服务器宕机,开始执行失效切换处理。结果就会造成多个服务器上同时mount文件系统,引起数据损坏。在失效切换集群系统中,发生故障时必须进行恰当的处理,这是能够理解的。

网络分区症状

图 2.6 网络分区症状

这样的问题称为"网络分区症状"或Split-brain-syndrome。现在就要考虑在失效切换集群中,如果所有的心跳线都被切断,该如何实现共享磁盘设备之间的互斥控制。

2.4. 集群资源的交接

集群管理的资源中有磁盘、IP地址、应用程序等。下面介绍失效切换集群系统中用于交接这些集群资源的功能。

2.4.1. 数据的交接

在集群系统中,服务器之间交接的数据存放在共享磁盘设备的分区中。即,所谓的交接数据无非就是将保存有应用程序所使用的文件的文件系统在正常的服务器上重新mount。共享磁盘设备与交接对象服务器物理连接,集群软件需要做的就是文件系统的mount。

数据的交接

图 2.7 数据的交接

虽然这个过程看似简单,但是在设计构建集群系统时还是有很多需要注意的地方。

首先是文件系统的恢复时间问题。要交接的文件系统在发生故障之前可能正在其他服务器上使用,或者正在更新。所以交接的文件系统一般是会有些垃圾,需要检查文件系统的一致性。文件系统越大,则一致性检查所需的时间就越长,有时甚至需要花几个小时,而这个时间将直接转嫁到失效切换时间(业务的交接时间)中,成为造成系统可用性下降的原因。

还有一个就是写入保证的问题。应用程序将重要的数据写入文件时,要利用同步写入等方法保证在磁盘中也写入该数据。因此,应用程序认为已经写入的数据在失效切换后希望该数据也能够被交接。例如,邮件服务器已经将收到的邮件写入缓冲处理区时,会向客户端或者其他邮件服务器发出收信结束的应答。这样,即使服务器发生故障,在服务器重启后,能够重新传输被缓冲处理的邮件。在集群系统中也一样,必须保证一方服务器写入缓冲处理区的邮件在失效切换后另一个服务器能够读取。

2.4.2. 应用程序的交接

集群软件在业务交接的最后工作是交接应用程序。与容错计算机(FTC)不同,在一般的失效切换集群中,不交接包含正在执行应用程序的内存内容的进程状态。即,在发生故障的服务器上运行的应用程序只能通过在正常的服务器上重新执行来完成应用程序的交接。

例如,交接数据库管理系统(DBMS)的实例时,将在启动实例时自动进行数据库的恢复(回滚/前滚等)。数据库恢复所需时间可以通过设置DBMS的Check Point Interval等进行一定的控制,但是一般都需要几分钟。

很多应用程序只要重新执行就可以重新开始运行业务,但是也有些应用程序在发生故障后需要一定的业务恢复步骤。对于这样的应用程序,集群软件将业务恢复步骤写在脚本中,在重启时将不启动应用程序,而是启动该脚本。在脚本中,记载了脚本的执行原因、执行服务器等信息,需要时还会记载尚未更新完毕的文件的整理等恢复步骤。

2.4.3. 失效切换总结

至此,大家都已经了解了以下集群软件的运行。

  • 查出故障(心跳/资源监视)

  • 网络分区状态的解决(NP解决)

  • 集群资源切换

    • 数据的交接

    • IP地址的交接

    • 应用程序的交接

失效切换时间图

图 2.8 失效切换时间图

集群软件在实现失效切换时,会在短时间内逐一切实执行这些处理,从而实现了高可用性(High Availability)。

2.5. Single Point of Failure的排除

在构建高可用性系统时,把握所追求的或者说目标的可用性级别是很重要的。即,在设计系统时,必须考虑到对于可能阻碍系统运行的各种故障应该采取的措施,如通过冗余结构保证系统持续运行,或者能够在短时间恢复到运行状态等,以及这些措施的性价比等。

Single Point of Failure(SPOF)之前已经介绍过,是指可能造成系统中断的部位。在集群系统中,实现了服务器的多重化,能够排除系统的SPOF,但是共享磁盘等在服务器之间共享的部分可能造成SPOF。设计系统时将这些共享部分多重化或者排除是构建高可用性系统的关键点。

集群系统虽然提高了可用性,但是失效切换时,还是需要几分钟的系统切换时间的。因此,失效切换时间也是造成可用性下降的原因之一。但是因为在高可用性系统中,ECC内存或冗余电源技术对于提高单体服务器的可用性原本就是很重要的,在本文中我们暂且不谈这些提高单体服务器可用性的技术,在集群系统中,我们挖掘可能造成SPOF的以下3点原因,看看对此能够采取什么对策。

  • 共享磁盘

  • 共享磁盘的访问路径

  • LAN

2.5.1. 共享磁盘

一般共享磁盘通过磁盘阵列组建RAID,因此磁盘的成对驱动器是不会造成SPOF的。但是由于RAID控制器内置,控制器可能会发生问题。很多集群系统中所使用的共享磁盘可以实现控制器二重化。

为了发挥二重化RAID控制器优势,一般需要进行共享磁盘访问路径的二重化。如果是二重化的多个控制器能够同时访问同一逻辑磁盘组(LUN)的共享磁盘,可以在每个控制器上分别连接一台服务器,发生控制器故障时可以通过节点间的失效切换实现高可用性。

共享磁盘的RAID控制器和访问路径发生SPOF时的示例(左)和RAID控制器和访问路径分离的示例

图 2.9 共享磁盘的RAID控制器和访问路径发生SPOF时的示例(左)和RAID控制器和访问路径分离的示例

另外,在不使用共享磁盘的镜像磁盘型的失效切换集群中,所有的数据都与其他服务器的磁盘镜像化,能够实现没有SPOF的理想系统配置。但是,虽然以下几点不算作缺点,但也需要考虑。

  • 通过网络进行数据镜像化对磁盘I/O性能(特别是write性能)的影响

  • 服务器故障后恢复时,镜像重新同步过程中对系统性能的影响(镜像复制在后台执行)

  • 镜像重新同步的时间(在镜像重新同步完成之前不会嵌入到集群中)

即,在数据引用多、数据容量不大的系统中,使用镜像磁盘型的失效切换集群也可以提高可用性。

2.5.2. 共享磁盘的访问路径

在普通的共享磁盘型集群结构中,共享磁盘的访问路径通过配置集群的各服务器共享。以SCSI为例,就是在一条SCSI路径上有2台服务器与共享磁盘连接。因此,共享磁盘访问路径的故障可能是造成系统整体中断的原因。

作为其对策,可以考虑准备多条共享磁盘的访问路径,配置冗余结构,而从应用程序来看,共享磁盘的访问路径仍然只有1条。实现这一技术的设备驱动程序称为路径失效切换驱动程序(路径失效切换驱动程序多由共享磁盘供应商开发发布,Linux版的路径失效切换驱动程序好像还未开发完毕,尚未发布。现阶段,如前所述,可以通过给每个共享磁盘的阵列控制器连接一个服务器,分割共享磁盘的访问路径,通过此方法可以确保Linux集群的可用性)。

路径失效切换驱动程序

图 2.10 路径失效切换驱动程序

2.5.3. LAN

不仅仅是集群系统,所有需要在网络上执行某种服务的系统,LAN故障都是阻碍系统运行的重要原因。在集群系统中,如果配置恰当,可以在NIC发生故障时在节点之间进行失效切换,从而提高可用性,但是集群系统外的网络设备如果发生故障仍然会阻碍系统的运行。

路由器发生SPOF的示例

图 2.11 路由器发生SPOF的示例

在这种情况下,可以通过LAN的冗余化提高系统的可用性。在集群系统中,也可以直接使用单体服务器上的技术提高LAN的可用性。如,一种原始方法是准备好备用的网络设备,先不打开电源,发生故障时手动切换,或者冗余配置高性能的网络设备,通过将网络路径多重化实现路径的自动切换等方法。另外,也可以考虑使用类似于因特尔公司ANS驱动程序的支持NIC冗余结构驱动程序。

负载均衡设备(Load Balance Appliance)和防火墙服务器(Firewall Appliance)都是容易发生SPOF的网络设备。这些可以通过标配或可选的软件,使其能够搭建失效切换结构。同时因为这些设备大多在系统整体中的位置非常重要,所以一般必须配置冗余结构。

2.6. 支持可用性的操作

2.6.1. 操作前测试

系统问题大多起因于配置错误或操作维护。从这一点来考虑,在实现高可用性系统时,操作前的测试和完善故障恢复手册对系统的稳定运行非常重要。作为测试观点,结合实际操作,进行以下操作可以提高可用性。

  • 筛选故障发生位置,讨论对策,进行模拟故障测试验证

  • 进行假定集群生存周期的测试,验证降级运行时的性能

  • 以这些测试为基础,完善系统操作、故障恢复手册

简化集群系统的设计,能够简化上述的验证操作和手册,提高系统的可用性。

2.6.2. 故障监视

虽然我们已经做了上述的努力,可能还是会发生故障。系统长期持续运行后,必然会发生故障,其原因可能是硬件老化、软件的内存泄漏、或者操作时超过系统当初设计的承受能力等。因此,在提高硬件、软件可用性的同时,需要进一步监视故障,在发生故障时采取恰当的处理,这一点非常重要。例如,万一服务器发生故障,可以通过搭建集群系统,只需要几分钟的切换时间就可以使系统继续运行,但是如果置之不管,系统失去冗余性,发生下一个故障时集群系统就没有任何意义了。

因此,发生故障时,系统管理员必须要采取措施防范下一故障的发生,排除新发生的SPOF。在支持系统管理业务上,远程维护、故障通知等功能非常重要。勿庸置疑,Linux在远程维护方面非常优秀,故障通告的机制也在逐渐完备。

以上介绍了使用集群系统实现高可用性时所需的周边技术以及其他的一些要点。简单总结一下,就是要注意以下几点:

  • 排除或掌握Single Point of Failure

  • 设计简洁的抵抗故障能力强的系统,在操作前测试的基础上完善操作故障恢复步骤手册

  • 及早查出发生的故障并进行恰当的处理

3. EXPRESSCLUSTER的使用方法

本章介绍EXPRESSCLUSTER各个组件的说明、从集群系统的设计到运行步骤之间的流程。

本章将介绍以下内容。

3.1. 何谓EXPRESSCLUSTER

现在大家已经了解了集群,下面开始介绍EXPRESSCLUSTER。所谓EXPRESSCLUSTER 就是通过冗余化(集群化)的系统结构,运行服务器发生故障时,自动用待机服务器交接业务的软件,该软件实现了系统可用性和扩展性的飞越性的提高。

3.2. EXPRESSCLUSTER的产品结构

EXPRESSCLUSTER大致由2个模块组成。

  • EXPRESSCLUSTER Server
    EXPRESSCLUSTER主体,包含所有服务器的高可用性功能。还包含Cluster WebUI的服务器一端的功能。
  • Cluster WebUI
    创建EXPRESSCLUSTER的配置信息或者进行操作管理的管理工具。使用Web浏览器作为用户接口。实体嵌入在EXPRESSCLUSTER Server中,通过管理终端上的Web浏览器进行操作,据此与EXPRESSCLUSTER Server主体区分。

3.3. EXPRESSCLUSTER的软件配置

EXPRESSCLUSTER的软件配置如下图所示。在Linux服务器上安装"EXPRESSCLUSTER Server(EXPRESSCLUSTER主体)"。Cluster WebUI的主体功能包括在EXPRESSCLUSTER Server内,因此无需另行安装。除了通过管理PC上的Web浏览器以外,Cluster WebUI还能通过构成集群的各服务器上的Web浏览器进行操作。

EXPRESSCLUSTER的软件配置

图 3.1 EXPRESSCLUSTER的软件配置

3.3.1. EXPRESSCLUSTER的故障监视原理

通过EXPRESSCLUSTER可以进行服务器监视、业务监视、内部监视等3种监视,从而能够迅速准确查出故障。下面详细介绍各种监视。

3.3.2. 何谓服务器监视

服务器监视是失效切换型集群系统中最基本的监视功能,用于监视配置集群的服务器是否中断。
EXPRESSCLUSTER是为了服务器监视,定期在各服务器之间进行生存确认。该生存确认称为心跳确认。心跳确认通过以下通信线路进行。
服务器监视

图 3.2 服务器监视

  • 私网
    在失效切换型集群专用的通信线路上,使用普通的Ethernet NIC。除了确认心跳,还可以用于服务器之间的信息交换。
  • 公网
    作为备用心跳线,使用与客户端进行通信的通信线路。只要是能够使用TCP/IP的NIC即可。除了确认心跳,还可以用于服务器之间的信息交换。
  • 共享磁盘
    在连接到配置失效切换型集群的所有服务器上的磁盘中,创建EXPRESSCLUSTER专用分区(Cluster分区),在Cluster分区上进行心跳确认。
  • COM端口
    通过COM端口在配置失效切换型集群的各个服务器之间进行心跳通信,确认其他服务器的生存。
  • BMC
    通过BMC在配置失效切换型集群的各个服务器之间进行心跳通信,确认其他服务器的生存。
  • Witness
    构成失效切换型集群的各服务器与运行Witness 服务器服务的外部服务器(Witness 服务器)间进行通信,通过与保持Witness 服务器的其他服务器间的通信信息确认生存。

使用这些通信路径能够大幅度提高服务器间通信的可靠性,防止网络分区状态的发生。

注解

网络分区状态:集群服务器之间所有的通信线路均发生故障,造成网络性中断的状态。在不能对应网络分区状态的集群系统中,不能区分通信线路故障和服务器故障,多个服务器同时访问同一资源,就可能造成数据损坏。

3.3.3. 何谓业务监视

业务监视用于监视业务应用程序自身或者造成陷入无法执行业务状态的故障原因。

  • 应用程序的生存状态监视
    能够使用启动资源(称为EXEC资源)启动应用程序,通过监视资源(称为PID监视资源)定期监视进程的生存。在由于业务应用程序异常退出造成业务中断时有效。

    注解

    • 如果EXPRESSCLUSTER直接启动的应用程序为启动、结束监视对象的常驻进程的应用程序,则无法查出常驻进程的异常。

    • 无法查出应用程序内部状态的异常(应用程序的停止、结果异常)。

  • 资源的监视
    通过EXPRESSCLUSTER的监视资源能够监视集群资源(磁盘分区、IP地址等)和公网的状态。在由于必须资源异常造成业务中断时有效。

3.3.4. 何谓内部监视

内部监视是EXPRESSCLUSTER内部模块之间的相互监视,用于监视EXPRESSCLUSTER的各监视功能是否正常运行。
EXPRESSCLUSTER内部进行以下监视。
  • EXPRESSCLUSTER进程的生存状态监视

3.3.5. 可监视的故障和无法监视的故障

EXPRESSCLUSTER 中有可监视的故障和无法监视的故障。在构建集群系统时,需要先了解哪些故障能够监视,而哪些不能监视。

3.3.6. 通过服务器监视可以查出的故障和无法查出的故障

监视条件:故障服务器的心跳中断

  • 可监视的故障示例

    • 硬件故障(OS不能继续运行)

    • panic

  • 无法监视的故障示例

    • OS局部功能故障(仅鼠标、键盘等出现故障等)

3.3.7. 通过业务监视可以查出的故障和无法查出的故障

监视条件:故障应用程序的消失、持续的资源异常、与某网络设备通信的路径中断

  • 可监视故障示例

    • 应用程序的异常退出

    • 共享磁盘访问故障(HBA [#s1]__的故障等)

    • 公网NIC故障

  • 无法监视故障示例

  • 应用程序的停止/结果异常
    EXPRESSCLUSTER虽无法直接监视应用程序的停止/结果异常,但是可以监视应用程序,在查出异常时能够创建退出自身的程序,通过EXEC资源启动该程序,利用PID监视资源进行监视,从而使其发生失效切换。
1

Host Bus Adapter的缩写,不是指共有磁盘一端的适配器,而是指服务器主机一端的适配器。

3.4. 网络分区解决

所谓EXPRESSCLUSTER,是指从某一服务器查出心跳中断,并对其原因进行判断:是服务器本身的故障,还是由于网络分区状态引起的故障。如果判断为服务器故障,就会执行失效切换(在正常的服务器上激活各种资源,启动业务应用程序),如果判断为网络分区状态引起的故障,因为保护数据比继续业务更重要,就会执行紧急关机等处理。
网络分区解决方式有以下方法。
  • ping方式

  • http方式

参见

关于网络分区解决方法设置的详细内容,请参考《参考指南》的 "网络分区解决资源的详细信息" 。

3.5. 失效切换的原理

EXPRESSCLUSTER查出故障时,在开始失效切换之前会判断查出的故障是服务器的故障还是网络分区状态。之后会在正常的服务器上激活各种资源,启动业务应用程序,执行失效切换。

此时,同时移动的资源集合称为失效切换组。从使用者角度来看,可以把失效切换组看作虚拟的计算机。

注解

在集群系统中,通过在正常的节点上重启应用程序来执行失效切换。因此,在应用程序的内存上保存的执行状态不能进行失效切换。

从发生故障到失效切换结束需要几分钟时间。下面是时间图。

失效切换的时间图

图 3.3 失效切换的时间图

  • 心跳确认超时

    • 正在执行业务的服务器发生故障后,到待机服务器查出该故障之间的时间。

    • 可以根据业务的负载调整集群属性的设置值。
      (出厂设置是90秒。)
  • 激活各种资源

    • 激活业务所需资源的时间。

    • 一般配置情况下,激活需要几秒,失效切换组中登录的资源种类数量不同,所需时间会相应变化。
      (具体请参考《安装&设置指南》。)
  • 开始脚本执行时间

    • 数据库的回滚/前滚等数据恢复时间和业务中使用的应用程序的启动时间。

    • 通过调整Check Point Interval时间,可以预测回滚/前滚的时间。详细内容请参考各软件产品的文档。

3.5.1. 失效切换资源

EXPRESSCLUSTER能够作为失效切换对象的主要资源如下。

  • 切换分区(磁盘资源等)

    • 保存业务应用程序应该交接的数据的磁盘分区。

  • 浮动IP地址(浮动IP资源)

    • 使用浮动IP地址连接业务,这样客户端可以不必考虑失效切换带来的业务执行位置(服务器)的变化。

    • 浮动IP地址通过向公网适配器动态分配IP地址和发送ARP包来实现。大多数网络设备都能通过浮动IP地址连接。

  • 脚本(EXEC资源)

    • 在EXPRESSCLUSTER中,从脚本启动业务应用程序。

    • 通过共享磁盘交接的文件虽然作为文件系统是正常的,但是作为数据可能是不完整的。在脚本中,除了启动应用程序,还记载了失效切换时业务特有的恢复处理。

    注解

    在集群系统中,通过在正常的节点上重启应用程序来执行失效切换。因此,在应用程序的内存上保存的执行状态不能进行失效切换。

3.5.2. 失效切换型集群的系统配置

失效切换型集群在集群服务器间共享磁盘阵列设备。服务器发生故障时,待机服务器使用共享磁盘上的数据交接业务。

系统配置

图 3.4 系统配置

失效切换型集群根据运行形态分为以下几类。

单向待机集群

其中一个服务器作为运行服务器运行业务,另外一个服务器作为待机服务器不运行业务的运行形态。这是最简单的一种运行形态,使用该形态构建的系统失效切换后性能不会降低,可用性高。

单向待机集群

图 3.5 单向待机集群

同一应用程序双向待机集群

在多个服务器上同时运行某业务应用程序,互为待机的运行形态。应用程序必须支持双向待机运行。将某业务数据分割成数份时,根据要访问的数据来更改客户端所要连接的目标服务器,可以构建以数据分割为单位的负载均衡系统。

同一应用程序双向待机集群

图 3.6 同一应用程序双向待机集群

不同应用程序双向待机集群

多种业务应用程序分别在不同服务器上运行,互为待机的运行形态。应用程序没有必要一定支持双向待机运行。能够构建以业务为单位的负载均衡系统。

不同应用程序双向待机集群

图 3.7 不同应用程序双向待机集群

N + N结构

应用前面介绍的结构,可以将系统扩展为使用更多节点的结构。在下图所示的结构中,在3台服务器上执行3种业务,一旦发生问题,将把业务交接给1台待机服务器。在单向待机中,正常时的资源浪费是1/2,在此结构中正常时的资源浪费降低到1/4,而且如果1台发生故障,不会造成系统性能下降。

N + N结构

图 3.8 N + N结构

3.5.3. 共享磁盘型的硬件配置

共享磁盘型的EXPRESSCLUSTER的HW配置如下图所示。

服务器之间的通信一般使用以下配置:

  • 2块NIC(1块用于与外部通信,1块为EXPRESSCLUSTER专用)

  • RS232C cross cable连接的COM端口

  • 共享磁盘的指定区域

与共享磁盘连接的接口可以是SCSI或FibreChannel,但是最近使用FibreChannel进行连接比较普遍。

使用共享磁盘时的集群环境示例

图 3.9 使用共享磁盘时的集群环境示例

3.5.4. 镜像磁盘型的硬件配置

镜像磁盘型的EXPRESSCLUSTER配置如下图所示。

与共享磁盘配置相比,需要配备镜像磁盘数据复制所使用的网络,但是一般是使用EXPRESSCLUSTER的内部通信用NIC代替。

另外,镜像磁盘不依存于连接接口(IDE or SCSI)。

使用镜像磁盘时的集群环境的示例(安装OS的磁盘中能够确保集群分区、数据分区时)

图 3.10 使用镜像磁盘时的集群环境的示例(安装OS的磁盘中能够确保集群分区、数据分区时)

使用镜像磁盘时的集群环境的示例(准备集群分区、数据分区用磁盘时)

图 3.11 使用镜像磁盘时的集群环境的示例(准备集群分区、数据分区用磁盘时)

3.5.5. 共享型镜像磁盘型的硬件配置

共享型配置的EXPRESSCLUSTER配置如下图所示。

与共享磁盘配置相比,需要配备复制数据所使用的网络,但是一般是使用EXPRESSCLUSTER的内部通信用NIC代替。

另外,磁盘不依存于连接接口(IDE or SCSI)。

使用共享型镜像磁盘时的集群环境的示例(在2台服务器上使用共享磁盘,向第3台服务器的普通磁盘作镜像链接时)

图 3.12 使用共享型镜像磁盘时的集群环境的示例(在2台服务器上使用共享磁盘,向第3台服务器的普通磁盘作镜像链接时)

3.5.6. 何谓集群对象

在EXPRESSCLUSTER中,使用以下结构管理各种资源。

  • 集群对象
    配置集群的单位。
  • 服务器对象
    表示实体服务器的对象,属于集群对象。
  • 服务器组对象
    捆绑服务器的对象,属于集群对象。
  • 心跳资源对象
    表示实体服务器的NW部分的对象,属于服务器对象。
  • 网络分区解决资源对象
    表示网络分区解决机构的对象,属于服务器对象。
  • 组对象
    表示虚拟服务器的对象,属于集群对象。
  • 组资源对象
    表示拥有虚拟服务器的资源 (NW、磁盘)的对象,属于组对象。
  • 监视资源对象
    表示监视机构的对象,属于集群对象。

3.6. 何谓资源

在EXPRESSCLUSTER中,监视端和被监视端的对象都称为资源,分类进行管理。这样不仅能够明确区分监视/被监视的对象,还能够使构建集群或查出故障时的对应更简便。资源分为心跳资源、网络分区解决资源、组资源和监视资源4类。以下简要介绍各类资源。

3.6.1. 心跳资源

在服务器之间互相确认生存状态所使用的资源。

现在支持的心跳资源如下所示:

  • LAN心跳资源
    使用Ethernet的通信。
  • 内核模式LAN心跳资源
    使用Ethernet的通信。
  • COM心跳资源
    使用RS232C(COM)的通信。
  • 磁盘心跳资源
    使用共享磁盘上的特定分区(磁盘心跳分区)的通信。仅限共享磁盘配置时使用。
  • BMC心跳资源
    经由BMC使用Ethernet的通信。仅限在对应BMC的硬件和固件时使用。
  • Witness 心跳资源
    表示从Witness 服务器服务运行的外部服务器中取得的与各服务器间的通信状态。

3.6.2. 网络分区解决资源

表示为了处理网络分区状态的资源。

  • PING网络分区解决资源
    使用PING方式的网络分区解决资源。
  • HTTP 网络分区解决资源
    HTTP 方式的网络分区解决资源。

3.6.3. 组资源

组成失效切换的单位——失效切换组的资源。

现在支持的组资源如下所示:

  • 浮动IP资源 (fip)
    提供虚拟IP地址。客户端可以像普通IP地址一样访问。
  • EXEC资源 (exec)
    提供启动/停止业务(DB、httpd、etc..)的机制。
  • 磁盘资源 (disk)
    提供共享磁盘上的指定分区。仅限(共享磁盘)配置时使用。
  • 镜像磁盘资源 (md)
    提供镜像磁盘上的指定分区。仅限(镜像磁盘)配置时使用。
  • 共享型镜像磁盘资源 (hd)
    提供共享磁盘或磁盘上的指定分区。仅限(共享型镜像磁盘)配置时使用。
  • 卷管理资源 (volmgr)
    将多个存储器及磁盘用作一个逻辑磁盘。
  • NAS资源 (nas)
    连接NAS服务器上的共享资源。(集群服务器并不是作为NAS的服务器端运行的资源。)
  • 虚拟IP资源 (vip)
    提供虚拟IP地址。可以像访问客户端的普通IP地址一样访问虚拟IP地址。用于配置网络地址在不同区间的远程集群。
  • 虚拟机资源 (vm)
    进行虚拟机的启动、停止及迁移。
  • 动态域名解析资源(ddns)
    将虚拟主机名及激活服务器的IP地址登录在Dynamic DNS服务器上。
  • AWS Elastic IP资源 (awseip)
    在AWS上利用EXPRESSCLUSTER时,提供可授予Elastic IP(以下称为EIP)的机能。
  • AWS虚拟IP资源 (awsvip)
    在AWS上利用EXPRESSCLUSTER时,提供可授予虚拟IP(以下称为VIP)的机能。
  • AWS DNS资源 (awsdns)
    在AWS上利用EXPRESSCLUSTER时,在Amazon Route 53上登录虚拟主机名和激活服务器的IP地址。
  • Azure 探头端口资源 (azurepp)
    在Microsoft Azure上利用EXPRESSCLUSTER时,提供可在运行业务的节点开放特定的端口的机能。
  • Azure DNS资源 (azuredns)
    Microsoft Azure上利用EXPRESSCLUSTER时,在Azure DNS上登录虚拟主机名和激活服务器的IP地址。
  • Google Cloud 虚拟 IP 资源 (gcvip)
    在Google Cloud Platform上使用ExpressCluster时,提供了一种在业务运行的节点上打开特定端口的机制。
  • Oracle Cloud 虚拟 IP 资源 (ocvip)
    在Oracle Cloud Infrastructure上使用ExpressCluster时,提供了一种在业务运行的节点上打开特定端口的机制。

3.6.4. 监视资源

是集群系统内进行监视的主体资源。

现在支持的监视资源如下所示:

  • 浮动 IP 监视资源 (fipw)
    提供浮动 IP 资源中启动的 IP 地址的监视机构。
  • IP监视资源 (ipw)
    提供外部IP地址的监视机构。
  • 磁盘监视资源 (diskw)
    提供磁盘的监视机构。也可以用于共享磁盘的监视。
  • 镜像磁盘监视资源 (mdw)
    提供镜像磁盘的监视机构。
  • 镜像磁盘接口监视资源 (mdnw)
    提供镜像磁盘接口的监视机构。
  • 共享型镜像磁盘监视资源 (hdw)
    提供共享型镜像磁盘的监视机构。
  • 共享型镜像磁盘接口监视资源 (hdnw)
    提供共享型镜像磁盘接口的监视机构。
  • PID监视资源 (pidw)
    提供EXEC资源启动的进程的生存状态监视功能。
  • 用户空间监视资源 (userw)
    提供用户空间的停止监视机构。
  • NIC Link Up/Down监视资源 (miiw)
    提供LAN线缆的链接状态的监视机构。
  • 卷管理监视资源 (volmgrw)
    提供多个存储器及磁盘的监视机构。
  • Multi-Target监视资源 (mtw)
    提供捆绑多个监视资源的状态。
  • 虚拟IP监视资源 (vipw)
    提供送出虚拟IP资源RIP包的机构。
  • ARP监视资源 (arpw)
    提供送出浮动IP或虚拟IP资源ARP包的机构。
  • 自定义监视资源 (genw)
    提供有进行监视处理的命令或脚本时,根据其动作结果监视系统的机构。
  • 虚拟机监视资源 (vmw)
    进行虚拟机的生死确认。
  • 消息接收监视资源 (mrw)
    用于实现"设置接收异常发生通知时执行的异常时动作"及"异常发生通知的Cluster WebUI显示"的监视资源。
  • 动态域名解析监视资源 (ddnsw)
    定期将虚拟主机名及激活服务器的IP地址登录在Dynamic DNS服务器上。
  • 进程名监视资源 (psw)
    通过指定进程名,提供任意的进程死活监视功能。
  • BMC监视资源 (bmcw)
    提供配备的BMC的死活监视功能。
  • DB2监视资源 (db2w)
    提供IBM DB2数据库的监视机构。
  • ftp监视资源 (ftpw)
    提供FTP服务器的监视机构。
  • http监视资源 (httpw)
    提供HTTP服务器的监视机构。
  • imap4监视资源 (imap4w)
    提供IMAP4服务器的监视机构。
  • MySQL监视资源 (mysqlw)
    提供MySQL数据库的监视机构。
  • nfs监视资源 (nfsw)
    提供nfs文件服务器的监视机构。
  • Oracle监视资源 (oraclew)
    提供Oracle数据库的监视机构。
  • Oracle Clusterware同步管理监视资源(osmw)
    提供Oracle Clusterware联动进程的监视和成员信息同步功能。
  • pop3监视资源(pop3w)
    提供POP3服务器的监视机构。
  • PostgreSQL监视资源 (psqlw)
    提供PostgreSQL数据库的监视机构。
  • samba监视资源 (sambaw)
    提供samba文件服务器的监视机构。
  • smtp监视资源 (smtpw)
    提供SMTP服务器的监视机构。
  • Sybase监视资源 (sybasew)
    提供Sybase数据库的监视机构。
  • Tuxedo监视资源 (tuxw)
    提供Tuxedo应用程序服务器的监视机构。
  • Websphere监视资源 (wasw)
    提供Websphere应用程序服务器的监视机构。
  • Weblogic监视资源 (wlsw)
    提供Weblogic应用程序服务器的监视机构。
  • WebOTX监视资源 (otxw)
    提供WebOTX应用程序服务器的监视机构。
  • JVM 监视资源 (jraw)
    提供Java VM的监视机构。
  • 系统监视资源 (sraw)
    提供系统整体资源的监视机构。
  • 进程资源监视资源(psrw)
    提供个别进程资源的监视机构。
  • AWS Elastic IP监视资源 (awseipw)
    提供在AWS Elastic IP资源所附加的EIP的监视机构。
  • AWS虚拟IP监视资源 (awsvipw)
    提供在AWS虚拟IP资源所附加的VIP的监视机构。
  • AWS AZ监视资源 (awsazw)
    提供Availability Zone(以下称为AZ)的监视机构。
  • AWS DNS监视资源 (awsdnsw)
    提供在AWS DNS资源授予的虚拟主机名和IP地址的监视机构。
  • Azure 探头端口监视资源 (azureppw)
    针对Azure探头端口资源所启动的节点提供探头端口的监视机构。
  • Azure负载均衡监视资源 (azurelbw)
    针对Azure探头端口资源所启动的节点提供与Probe端口相同的端口号是否被开放的监视机构。
  • Azure DNS监视资源 (azurednsw)
    提供在Azure DNS资源授予的虚拟主机名和IP地址的监视机构。
  • Google Cloud 虚拟 IP 监视资源 (gcvipw)
    对启动了Google Cloud虚拟IP资源的节点,提供用于进行心跳存活监视的端口的监控机制。
  • Google Cloud 负载均衡监视资源 (gclbw)
    对没有启动Google Cloud虚拟IP资源的节点,提供确认是否开放以及用于心跳存活侦测的端口相同的端口号的监控机制。
  • Oracle Cloud 虚拟 IP 监视资源 (ocvipw)
    对启动了Oracle Cloud虚拟IP资源的节点,提供用于进行心跳存活监视的端口的监控机制。
  • Oracle Cloud 负载均衡监视资源 (oclbw)
    对没有启动Oracle Cloud虚拟IP资源的节点,提供确认是否开放以及用于心跳存活侦测的端口相同的端口号的监控机制。

3.7. 开始使用EXPRESSCLUSTER吧!

至此EXPRESSCLUSTER的简单介绍就结束了。
下面我们将根据以下流程,一边阅读对应的指南,一边构建使用EXPRESSCLUSTER的集群系统。

3.7.1. 最新信息的确认

请参考本指南的"4. EXPRESSCLUSTER的运行环境"、"5. 最新版本信息"、"6. 注意限制事项"、"7. 升级步骤"。

3.7.3. 集群系统的构建

请参考《安装&设置指南》的全篇。

3.7.4. 开始操作集群系统后的故障对策

请参考《维护指南》的"维护信息"以及

参考指南》的"疑难解答"、"错误消息一览表"

4. EXPRESSCLUSTER的运行环境

本章介绍EXPRESSCLUSTER的运行环境。

本章介绍的项目如下。

4.1. 硬件

EXPRESSCLUSTER在以下架构的服务器上运行。

  • x86_64

  • IBM POWER (不支持Replicator、Replicator DR、Database Agent以外的Agent)

  • IBM POWER LE (不支持Replicator,Replicator DR、各Agent)

4.1.1. 规格

EXPRESSCLUSTER Server所需的规格如下所示。

  • RS-232C板卡 一个(构建3节点以上集群时不需要)

  • Ethernet板卡 两个以上

  • 共享磁盘

  • 镜像用磁盘或镜像用剩余分区

  • CD-ROM驱动器

4.1.2. 与Express5800/A1080a,A1040a系列整合相对应的服务器

可使用BMC心跳资源和Express5800/A1080a,A1040a系列整合功能的服务器如下所示。此功能仅限以下的服务器可利用。

服务器

备注

Express5800/A1080a-E

可能需要升级最新版的固件。

Express5800/A1080a-D

可能需要升级最新版的固件。

Express5800/A1080a-S

可能需要升级最新版的固件。

Express5800/A1040a

可能需要升级最新版的固件。

4.2. 软件

4.2.1. EXPRESSCLUSTER Server的运行环境

4.2.2. 可运行的Distribution和kernel

注解

EXPRESSCLUSTER X的安装光盘,可能没有对应最新的kernel的rpm安装包。请对比确认运行环境中的kernel版本和本章记载的"可操作的Distribution和Kernel"是否相符,并安装"EXPRESSCLUSTER Version"记载的适当的版本进行升级。

EXPRESSCLUSTER Server是EXPRESSCLUSTER独自的kernel模块,因此其运行环境取决于kernel模块的版本。
EXPRESSCLUSTER具备如下的独自的kernel模块。

独自的kernel模块

说明

Kernel模式LAN心跳驱动程序

使用Kernel模式LAN心跳资源。

Keepalive驱动程序
当用户空间监视资源的监视方法选择keepalive时使用。
当关机监视的监视方法选择keepalive时使用。

镜像驱动程序

使用镜像磁盘资源。

关于运行确认完毕的发布版和kernel版本信息,请参照以下的Web站点。

EXPRESSCLUSTER的Web站点
-> System Requirements
-> EXPRESSCLUSTER X for Linux

注解

EXPRESSCLUSTER支持的CentOS的内核版本请确认Red Hat Enterprise Linux的支持内核版本。

4.2.3. 运行确认完毕的监视选项应用程序信息

监视资源的监视对象的应用程序版本信息

x86_64

监视资源
监视对象应用程序
EXPRESSCLUSTER
Version
备注

Oracle监视

Oracle Database 12c Release1 (12.1)

4.0.0-1~

Oracle Database 12c Release 2 (12.2)

4.0.0-1~

Oracle Database 18c (18.3)

4.1.0-1~

Oracle Database 19c (19.3)

4.1.0-1~

DB2监视

DB2 V10.5

4.0.0-1~

DB2 V11.1

4.0.0-1~

DB2 V11.5

4.2.0-1~

PostgreSQL监视

PostgreSQL 9.3

4.0.0-1~

PostgreSQL 9.4

4.0.0-1~

PostgreSQL 9.5

4.0.0-1~

PostgreSQL 9.6

4.0.0-1~

PostgreSQL 10

4.0.0-1~

PostgreSQL 11

4.1.0-1~

PowerGres on Linux 9.1

4.0.0-1~

PowerGres on Linux 9.4

4.0.0-1~

PowerGres on Linux 9.6

4.0.0-1~

PowerGres on Linux 11

4.1.0-1~

MySQL监视

MySQL 5.5

4.0.0-1~

MySQL 5.6

4.0.0-1~

MySQL 5.7

4.0.0-1~

MySQL 8.0

4.1.0-1~

MariaDB 5.5

4.0.0-1~

MariaDB 10.0

4.0.0-1~

MariaDB 10.1

4.0.0-1~

MariaDB 10.2

4.0.0-1~

MariaDB 10.4

4.2.0-1~

MariaDB 10.3

4.1.0-1~

Sybase监视

Sybase ASE 15.5

4.0.0-1~

Sybase ASE 15.7

4.0.0-1~

Sybase ASE 16.0

4.0.0-1~

SQL Server监视

SQL Server 2017

4.0.0-1~

SQL Server 2019

4.2.0-1~

samba监视

Samba 3.3

4.0.0-1~

Samba 3.6

4.0.0-1~

Samba 4.0

4.0.0-1~

Samba 4.1

4.0.0-1~

Samba 4.2

4.0.0-1~

Samba 4.4

4.0.0-1~

Samba 4.6

4.0.0-1~

Samba 4.7

4.1.0-1~

Samba 4.8

4.1.0-1~

nfs监视

nfsd 2 (udp)

4.0.0-1~

nfsd 3 (udp)

4.0.0-1~

nfsd 4 (tcp)

4.0.0-1~

mountd 1(tcp)

4.0.0-1~

mountd 2(tcp)

4.0.0-1~

mountd 3(tcp)

4.0.0-1~

http监视

未指定版本

4.0.0-1~

smtp监视

未指定版本

4.0.0-1~

pop3监视

未指定版本

4.0.0-1~

imap4监视

未指定版本

4.0.0-1~

ftp监视

未指定版本

4.0.0-1~

Tuxedo监视

Tuxedo 12c Release 2 (12.1.3)

4.0.0-1~

Weblogic监视

WebLogic Server 11g R1

4.0.0-1~

WebLogic Server 11g R2

4.0.0-1~

WebLogic Server 12c R2 (12.2.1)

4.0.0-1~

Websphere监视

WebSphere Application Server 8.5

4.0.0-1~

WebSphere Application Server 8.5.5

4.0.0-1~

WebSphere Application Server 9.0

4.0.0-1~

WebOTX监视

WebOTX Application Server V9.1

4.0.0-1~

WebOTX Application Server V9.2

4.0.0-1~

WebOTX Application Server V9.3

4.0.0-1~

WebOTX Application Server V9.4

4.0.0-1~

WebOTX Application Server V10.1

4.0.0-1~

JVM监视

WebLogic Server 11g R1

4.0.0-1~

WebLogic Server 11g R2

4.0.0-1~

WebLogic Server 12c

4.0.0-1~

WebLogic Server 12c R2 (12.2.1)

4.0.0-1~

WebOTX Application Server V9.1

4.0.0-1~

WebOTX Application Server V9.2

4.0.0-1~

进程组监视需要进行WebOTX update

WebOTX Application Server V9.3

4.0.0-1~

WebOTX Application Server V9.4

4.0.0-1~

WebOTX Application Server V10.1

4.0.0-1~

WebOTX Enterprise Service Bus V8.4

4.0.0-1~

WebOTX Enterprise Service Bus V8.5

4.0.0-1~

JBoss Enterprise Application Platform 7.0

4.0.0-1~

Apache Tomcat 8.0

4.0.0-1~

Apache Tomcat 8.5

4.0.0-1~

Apache Tomcat 9.0

4.0.0-1~

WebSAM SVF for PDF 9.0

4.0.0-1~

WebSAM SVF for PDF 9.1

4.0.0-1~

WebSAM SVF for PDF 9.2

4.0.0-1~

WebSAM Report Director Enterprise 9.0

4.0.0-1~

WebSAM Report Director Enterprise 9.1

4.0.0-1~

WebSAM Report Director Enterprise 9.2

4.0.0-1~

WebSAM Universal Connect/X 9.0

4.0.0-1~

WebSAM Universal Connect/X 9.1

4.0.0-1~

WebSAM Universal Connect/X 9.2

4.0.0-1~

系统监视

未指定版本

4.0.0-1~

进程资源监视

未指定版本

4.1.0-1~

注解

x86_64环境中使用监视选项时,监视对象的应用程序也请使用x86_64版的应用程序。

IBM POWER

监视资源
监视对象应用程序
EXPRESSCLUSTER
Version
备注

DB2监视

DB2 V10.5

4.0.0-1~

PostgreSQL监视

PostgreSQL 9.3

4.0.0-1~

PostgreSQL 9.4

4.0.0-1~

PostgreSQL 9.5

4.0.0-1~

PostgreSQL 9.6

4.0.0-1~

PostgreSQL 10

4.0.0-1~

PostgreSQL 11

4.1.0-1~

注解

IBM POWER环境中使用监视选项时,监视对象的应用程序也请使用IBM POWER版的应用程序。

4.2.4. 虚拟机资源的运行环境

进行虚拟机资源运行确认的虚拟基础架构的版本信息如下所示。

虚拟基础架构
版本
EXPRESSCLUSTER
Version
备注

vSphere

5.5

4.0.0-1~

需要管理用OS

6.5

4.0.0-1~

需要管理用OS

XenServer

6.5 (x86_64)

4.0.0-1~

KVM

Red Hat Enterprise Linux 6.9 (x86_64)

4.0.0-1~

Red Hat Enterprise Linux 7.4 (x86_64)

4.0.0-1~

注解

在XenServer 上使用EXPRESSCLUSTER时,下面的功能不能使用。

  • 内核模式 LAN心跳资源

  • 镜像磁盘资源/共享型镜像磁盘资源

  • 用户空间监视资源 (keepalive/softdog 方式)

  • 关机监视 (keepalive/softdog 方式)

4.2.5. JVM监视器的运行环境

使用JVM监视器时,需要可Java 的执行环境。此外,监视JBoss Enterprise Application Platform 的domain 模式时,需要安装Java(TM) SE Development Kit。

Java(TM) Runtime Environment
Version 7.0 Update 6 (1.7.0_6) 以上
Java(TM) SE Development Kit
Version 7.0 Update 1 (1.7.0_1) 以上
Java(TM) Runtime Environment
Version 8.0 Update 11 (1.8.0_11) 以上
Java(TM) SE Development Kit
Version 8.0 Update 11 (1.8.0_11) 以上
Java(TM) Runtime Environment
Version 9.0 (9.0.1) 以上
Java(TM) SE Development Kit
Version 9.0 (9.0.1) 以上
Open JDK
Version 7.0 Update 45 (1.7.0_45) 以上
Version 8.0 (1.8.0) 以上
Version 9.0 (9.0.1) 以上

进行JVM监视器的负载均衡器联动功能的运行确认的负载均衡器如下所示。

x86_64

负载均衡器
EXPRESSCLUSTER
Version
备注

Express5800/LB400h以上

4.0.0-1~

InterSec/LB400i以上

4.0.0-1~

BIG-IP v11

4.0.0-1~

CoyotePoint Equalizer

4.0.0-1~

4.2.6. AWS Elastic IP资源、AWS虚拟IP资源、AWS Elastic IP监视资源、AWS虚拟IP监视资源、AWS AZ监视资源的运行环境

想使用AWS Elastic IP资源、AWS虚拟IP资源、AWS Elastic IP监视资源、AWS虚拟IP监视资源、AWS AZ监视资源时,需要以下的软件。

软件

Version

备注

AWS CLI

1.6.0~

不支持AWS CLI版本2

Python
2.6.5~
2.7.5~
3.5.2~
3.6.8~
3.8.1~
AWS CLI 附带的 Python 不可以
进行AWS Elastic IP资源、AWS虚拟IP资源、AWS Elastic IP监视资源、AWS虚拟IP监视资源、AWS AZ监视资源的运行确认的AWS上的OS的版本信息如下所示。
由于EXPRESSCLUSTER有独自的kernel模块,所以EXPRESSCLUSTER Server的动作环境要依赖于kernel模块的版本。
AWS上的OS会发生频繁的版本升级,有可能会不支持。
作动确认的kernel版本信息,请参照"可运行的Distribution和kernel"。

x86_64

Distribution
EXPRESSCLUSTER
Version
备注

Red Hat Enterprise Linux 6.8

4.0.0-1~

Red Hat Enterprise Linux 6.9

4.0.0-1~

Red Hat Enterprise Linux 6.10

4.1.0-1~

Red Hat Enterprise Linux 7.3

4.0.0-1~

Red Hat Enterprise Linux 7.4

4.0.0-1~

Red Hat Enterprise Linux 7.5

4.1.0-1~

Red Hat Enterprise Linux 7.6

4.1.0-1~

Red Hat Enterprise Linux 7.7

4.2.0-1~

Cent OS 6.8

4.0.0-1~

Cent OS 6.9

4.0.0-1~

Cent OS 6.10

4.2.0-1~

Cent OS 7.3

4.0.0-1~

Cent OS 7.4

4.0.0-1~

Cent OS 7.5

4.1.0-1~

Cent OS 7.6

4.2.0-1~

Cent OS 7.7

4.2.0-1~

SUSE Linux Enterprise Server 11 SP3

4.0.0-1~

SUSE Linux Enterprise Server 11 SP4

4.0.0-1~

SUSE Linux Enterprise Server 12 SP1

4.0.0-1~

SUSE Linux Enterprise Server 12 SP2

4.1.0-1~

Oracle Linux 6.6

4.0.0-1~

Oracle Linux 7.3

4.0.0-1~

Oracle Linux 7.5

4.2.0-1~

Oracle Linux 7.6

4.2.0-1~

Oracle Linux 7.7

4.2.0-1~

Ubuntu 14.04.LTS

4.0.0-1~

Ubuntu 16.04.3 LTS

4.0.0-1~

Ubuntu 18.04.3 LTS

4.2.0-1~

Amazon Linux 2

4.1.0-1~

4.2.7. AWS DNS资源、AWS DNS监视资源的运行环境

想使用AWS DNS资源、AWS DNS监视资源时,需要以下的软件。

软件

Version

备注

AWS CLI

1.11.0~

不支持AWS CLI版本2

Python (Red Hat Enterprise Linux 6, Cent OS 6, SUSE Linux Enterprise Server 11, Oracle Linux 6的场合)
2.6.6~
3.6.5~
3.8.1~
AWS CLI 附带的 Python 不可以
Python (Red Hat Enterprise Linux 6, Cent OS 6, SUSE Linux Enterprise Server 11, Oracle Linux 6 以外的场合)
2.7.5~
3.5.2~
3.6.8~
3.8.1~
AWS CLI 附带的 Python 不可以
进行AWS DNS资源、AWS DNS监视资源的运行确认的AWS上的OS的版本信息如下所示。
由于EXPRESSCLUSTER有独自的kernel模块,所以EXPRESSCLUSTER Server的动作环境要依赖于kernel模块的版本。
AWS上的OS会频繁版本升级,有可能不支持。
动作确认完毕的kernel版本信息,请参照"4.2.2. 可运行的Distribution和kernel"。

x86_64

Distribution
EXPRESSCLUSTER
Version
备注

Red Hat Enterprise Linux 6.8

4.0.0-1~

Red Hat Enterprise Linux 6.9

4.0.0-1~

Red Hat Enterprise Linux 6.10

4.1.0-1~

Red Hat Enterprise Linux 7.3

4.0.0-1~

Red Hat Enterprise Linux 7.4

4.0.0-1~

Red Hat Enterprise Linux 7.5

4.1.0-1~

Red Hat Enterprise Linux 7.6

4.1.0-1~

Red Hat Enterprise Linux 7.7

4.2.0-1~

Cent OS 6.8

4.0.0-1~

Cent OS 6.9

4.0.0-1~

Cent OS 6.10

4.2.0-1~

Cent OS 7.3

4.0.0-1~

Cent OS 7.4

4.0.0-1~

Cent OS 7.5

4.1.0-1~

Cent OS 7.6

4.2.0-1~

Cent OS 7.7

4.2.0-1~

SUSE Linux Enterprise Server 11 SP3

4.0.0-1~

SUSE Linux Enterprise Server 11 SP4

4.0.0-1~

SUSE Linux Enterprise Server 12 SP1

4.0.0-1~

SUSE Linux Enterprise Server 12 SP2

4.1.0-1~

Oracle Linux 6.6

4.0.0-1~

Oracle Linux 7.3

4.0.0-1~

Oracle Linux 7.5

4.2.0-1~

Oracle Linux 7.6

4.2.0-1~

Oracle Linux 7.7

4.2.0-1~

Ubuntu 14.04.LTS

4.0.0-1~

Ubuntu 16.04.3 LTS

4.0.0-1~

Ubuntu 18.04.3 LTS

4.2.0-1~

Amazon Linux 2

4.1.0-1~

4.2.8. Azure 探头端口资源、Azure 探头端口监视资源、Azure负载均衡监视资源的运行环境

进行Azure 探头端口资源、Azure 探头端口监视资源Azure负载均衡监视资源的运行确认的Microsoft Azure上的OS的版本信息如下所示。
EXPRESSCLUSTER有自己的内核模块,EXPRESSCLUSTER的运行环境依赖于kernel模块的版本。
Microsoft Azure上的操作系统会频繁进行版本升级,所以会有不能运行的情况发生。
关于已经可以运行的kernel版本的信息,请参照"4.2.2. 可运行的Distribution和kernel"。

x86_64

Distribution
EXPRESSCLUSTER
Version
备注

Red Hat Enterprise Linux 6.8

4.0.0-1~

Red Hat Enterprise Linux 6.9

4.0.0-1~

Red Hat Enterprise Linux 6.10

4.1.0-1~

Red Hat Enterprise Linux 7.3

4.0.0-1~

Red Hat Enterprise Linux 7.4

4.0.0-1~

Red Hat Enterprise Linux 7.5

4.1.0-1~

Red Hat Enterprise Linux 7.6

4.1.0-1~

Red Hat Enterprise Linux 7.7

4.2.0-1~

CentOS 6.8

4.0.0-1~

CentOS 6.9

4.0.0-1~

CentOS 6.10

4.1.0-1~

CentOS 7.3

4.0.0-1~

CentOS 7.4

4.0.0-1~

CentOS 7.5

4.1.0-1~

CentOS 7.6

4.1.0-1~

CentOS 7.7

4.2.0-1~

Asianux Server 4 SP6

4.0.0-1~

Asianux Server 4 SP7

4.0.0-1~

Asianux Server 7 SP1

4.0.0-1~

Asianux Server 7 SP2

4.0.0-1~

SUSE Linux Enterprise Server 11 SP3

4.0.0-1~

SUSE Linux Enterprise Server 11 SP4

4.0.0-1~

SUSE Linux Enterprise Server 12 SP1

4.0.0-1~

SUSE Linux Enterprise Server 12 SP2

4.1.0-1~

Oracle Linux 6.6

4.0.0-1~

Oracle Linux 7.3

4.0.0-1~

Oracle Linux 7.5

4.1.0-1~

Oracle Linux 7.7

4.2.0-1~

Ubuntu 14.04.LTS

4.0.0-1~

Ubuntu 16.04.3 LTS

4.0.0-1~

Ubuntu 18.04.3 LTS

4.2.0-1~

执行了探头端口资源的运行确认Microsoft Azure 上的部署模型如下所示。
负载均衡器的加载方法请参照Microsoft的文档

x86_64

部署模型

EXPRESSCLUSTER

备注

版本

资源管理器

4.0.0-1~

需要追加负载均衡器

4.2.9. Azure DNS资源、Azure DNS监视资源的运行环境

想使用Azure DNS资源、Azure DNS监视资源时,需要以下的软件。

软件

版本

备注

Azure CLI (Red Hat Enterprise Linux 6, Cent OS 6, Asianux Server 4, SUSE Linux Enterprise Server 11, Oracle Linux 6 的情况)

1.0~

不需要Python

Azure CLI (Red Hat Enterprise Linux 6, Cent OS 6, Asianux Server 4, SUSE Linux Enterprise Server 11, Oracle Linux 6 以外的情况)

2.0~

使用Azure DNS资源、Azure DNS监视资源时,需要以下软件。

软件

Version

备注

Azure CLI

2.0~

不建议使用Azure CLI 1.0(Azure Classic CLI),建议使用Azure CLI 2.0。详细情况请参考以下内容。
Azure CLI 的前提条件、安装方法请参考以下内容。
执行了Azure DNS资源、Azure DNS监视资源的运行确认的 Microsoft Azure上的OS的版本信息如下所示。
由于存在ExpressCluster独有的内核模块,因此ExpressCluster Server的操作环境取决于内核模块版本。
由于Microsoft Azure 上的OS经常更新,因此可能无法正常工作。
有关已确认操作的内核版本的信息请参考" 可运行的Distribution和kernel "。

x86_64

Distribution
EXPRESSCLUSTER
Version
备注

Red Hat Enterprise Linux 6.8

4.0.0-1~

Red Hat Enterprise Linux 6.9

4.0.0-1~

Red Hat Enterprise Linux 6.10

4.1.0-1~

Red Hat Enterprise Linux 7.3

4.0.0-1~

Red Hat Enterprise Linux 7.4

4.0.0-1~

Red Hat Enterprise Linux 7.5

4.1.0-1~

Red Hat Enterprise Linux 7.6

4.1.0-1~

Red Hat Enterprise Linux 7.7

4.2.0-1~

CentOS 6.8

4.0.0-1~

CentOS 6.9

4.0.0-1~

CentOS 6.10

4.1.0-1~

CentOS 7.3

4.0.0-1~

CentOS 7.4

4.0.0-1~

CentOS 7.5

4.1.0-1~

CentOS 7.6

4.1.0-1~

CentOS 7.7

4.2.0-1~

Asianux Server 4 SP6

4.0.0-1~

Asianux Server 4 SP7

4.0.0-1~

Asianux Server 7 SP1

4.0.0-1~

Asianux Server 7 SP2

4.0.0-1~

SUSE Linux Enterprise Server 11 SP3

4.0.0-1~

SUSE Linux Enterprise Server 11 SP4

4.0.0-1~

SUSE Linux Enterprise Server 12 SP1

4.0.0-1~

SUSE Linux Enterprise Server 12 SP2

4.1.0-1~

Oracle Linux 6.6

4.0.0-1~

Oracle Linux 7.3

4.0.0-1~

Oracle Linux 7.5

4.1.0-1~

Oracle Linux 7.7

4.2.0-1~

Ubuntu 14.04.LTS

4.0.0-1~

Ubuntu 16.04.3 LTS

4.0.0-1~

Ubuntu 18.04.3 LTS

4.2.0-1~

执行了Azure DNS资源、Azure DNS监视资源运行确认的Microsoft Azure上的部署模型如下所示。Azure DNS的设置方法请参考《EXPRESSCLUSTER X Mircosoft Azure的HA Cluster构筑指南 (Linux版)》。

x86_64

部署模型
EXPRESSCLUSTER
版本
备注

资源管理器

4.0.0-1~

需要追加Azure DNS

4.2.10. Google Cloud 虚拟 IP 资源、Google Cloud 虚拟 IP 监视资源、Google Cloud 负载均衡监视资源的运行环境

已确认Google Cloud 虚拟 IP 资源、Google Cloud 虚拟 IP 监视资源、Google Cloud 负载均衡监视资源运行的 Google Cloud Platform上的操作系统版本信息如下所示。
由于存在ExpressCluster独有的内核模块,因此ExpressCluster Server的操作环境取决于内核模块版本。
由于Google Cloud Platform上的OS经常更新,因此可能无法正常工作。
有关已认证可以正常工作的内核版本的信息,请参考" 4.2.2. 可运行的Distribution和kernel "。

x86_64

发行版本

CLUSTERPRO
Version

备注

Red Hat Enterprise Linux 6.8

4.2.0-1~

Red Hat Enterprise Linux 6.9

4.2.0-1~

Red Hat Enterprise Linux 6.10

4.2.0-1~

Red Hat Enterprise Linux 7.3

4.2.0-1~

Red Hat Enterprise Linux 7.4

4.2.0-1~

Red Hat Enterprise Linux 7.5

4.2.0-1~

Red Hat Enterprise Linux 7.6

4.2.0-1~

Red Hat Enterprise Linux 7.7

4.2.0-1~

SUSE Linux Enterprise Server 12 SP1

4.2.0-1~

Ubuntu 16.04.3 LTS

4.2.0-1~

Ubuntu 18.04.3 LTS

4.2.0-1~

4.2.11. Oracle Cloud 虚拟 IP 资源、Oracle Cloud 虚拟 IP 监视资源、Oracle Cloud 负载均衡监视资源的运行环境

已确认Oracle Cloud 虚拟 IP 资源、Oracle Cloud 虚拟 IP 监视资源、Oracle Cloud 负载均衡监视资源运行的 Oracle Cloud Infrastructure上的操作系统版本信息如下所示。
由于存在ExpressCluster独有的内核模块,因此ExpressCluster Server的操作环境取决于内核模块版本。
由于Oracle Cloud Infrastructure上的OS经常更新,因此可能无法正常工作。
有关已认证可以正常工作的内核版本的信息,请参考" 4.2.2. 可运行的Distribution和kernel "。

x86_64

发行版本

CLUSTERPRO
Version

备注

Oracle Linux 6.6

4.2.0-1~

Oracle Linux 6.10

4.2.0-1~

Oracle Linux 7.3

4.2.0-1~

Oracle Linux 7.5

4.2.0-1~

Oracle Linux 7.6

4.2.0-1~

Oracle Linux 7.7

4.2.0-1~

Ubuntu 16.04.3 LTS

4.2.0-1~

Ubuntu 18.04.3 LTS

4.2.0-1~

4.2.12. SAP联动连接器的运行环境

执行了SAP联动连接器的运行确认的OS以及SAP NetWeaver(以上、SAP NW)的版本信息如下所示。

x86_64

NW Version
SAP内核
版本
EXPRESSCLUSTER
Version
OS
集群配置
7.5
745
749
753
4.0.0-1~
Red Hat Enterprise Linux 7.3
Red Hat Enterprise Linux 7.4
SUSE LINUX Enterprise Server 12 SP1
NAS连接,共享磁盘型

7.52

753
4.1.0-1~
Red Hat Enterprise Linux 7.5
NAS连接,共享磁盘型
753
4.2.0-1~
Red Hat Enterprise Linux 7.6
Red Hat Enterprise Linux 7.7
NAS连接,共享磁盘型

IBM POWER

NW Version
SAP内核
版本
EXPRESSCLUSTER
Version
OS
集群配置
7.5
745
749
753
4.0.0-1~
SUSE LINUX Etnerprise Server 11 SP4
NAS连接,共享磁盘型

7.52

753

4.1.0-1~

SUSE LINUX Etnerprise Server 11 SP4

NAS连接,共享磁盘型

存在以下的注意事项。

  • 使用LAN心跳时,请使用LAN心跳资源。不要使用内核LAN心跳资源。

  • 使用用户空间监视资源时,[监视方法]请指定为softdog。

  • 使用关机监视时,[监视方法]请指定为softdog。

  • 不支持镜像磁盘型集群。

SAP NW的硬件需求以及软件需求请参照SAP NW的文档。

4.2.13. 所需内存容量和磁盘容量

所需内存容量

所需磁盘容量

备注

用户模式

内核模式

安装后

运行时

200MB 2
同步模式时
1MB +(请求队列数×I/O大小)+
(2MB+差分Bitmap大小)×(镜像磁盘资源、共享型镜像磁盘资源数)
异步模式时
1MB +{请求队列数}×{I/O大小}
+[3MB
+({I/O大小}×{异步队列数})
+({I/O大小}÷ 4KB × 8字节 + 0.5KB)× ({历史文件大小限制值}÷{I/O大小}+{异步队列数})
+{差分Bitmap大小}
]×(镜像磁盘资源、共享型镜像磁盘资源数)
内核模式 LAN心跳驱动程序时
8MB

KeepAlive驱动程序时
8MB
300MB
5.0GB

2

除Option类

注解

I/O大小的标准如下所示。

- Ubuntu16时,1MB
- Ubuntu14、RHEL7时,124KB
- RHEL6时,4KB

关于请求队列数、异步队列数的设置值,请参考《参考指南》的"组资源的详细信息"的"理解镜像磁盘资源"。

4.3. Cluster WebUI 的运行环境

4.3.1. 运行确认完毕的OS、浏览器

现在的支持情况如下。

浏览器

语言

Internet Explorer 11

日文/英文/中文

Internet Explorer 10

日文/英文/中文

Firefox

日文/英文/中文

Google Chrome

日文/英文/中文

注解

通过IP地址连接时,需要事先将该IP地址登录到 [本地Intranet] 的 [站点] 中。

注解

用 Internet Explorer11连接Cluster WebUI时,Internet Explorer可能会停止。为了避免发生,请更新Internet Explorer(KB4052978或更高版本)。此外,为了在Windows 8.1/Windows Server 2012R2中应用KB4052978以上的版本,请提前应用KB2919355。相关信息请参考Microsoft部署的信息。

注解

不支持平板电脑和智能手机等移动设备。

4.3.2. 所需内存容量/磁盘容量

  • 所需内存容量 500MB以上

  • 所需磁盘容量 200MB以上

5. 最新版本信息

在本章中对EXPRESSCLUSTER的最新信息进行说明。为您介绍新发布版本中强化和改善的内容。

5.1. EXPRESSCLUSTER和手册的对应表

本手册中以下列版本的EXPRESSCLUSTER为前提进行说明。请注意EXPRESSCLUSTER的版本和手册的版本。

EXPRESSCLUSTER内部版本

手册

版本数

备注

4.2.0-1

开始指南

第1版

安装&设置指南

第1版

参考指南

第1版

维护指南

第1版

硬件整合指南

第1版

兼容功能指南

第1版

5.2. 功能强化

对于各个版本,分别进行了以下的功能强化。

No

内部版本

功能强化项目

1

4.0.0-1

安装了新设计的管理GUI (Cluster WebUI)。

2

4.0.0-1

WebManager支持了HTTPS协议。

3

4.0.0-1

能够使用期间定制License。

4

4.0.0-1

扩大了镜像磁盘资源、共享型镜像磁盘资源的最大值。

5

4.0.0-1

卷管理资源、卷管理监视资源对应了ZFS存储池。

6

4.0.0-1

增加了支持的OS。

7

4.0.0-1

支持了systemd。

8

4.0.0-1

Oracle监视资源支持了Oracle 12c R2。

9

4.0.0-1

MySQL监视资源支持了MariaDB 10.2。

10

4.0.0-1

PostgreSQL监视资源支持了PowerGres on Linux 9.6。

11

4.0.0-1

添加了SQL Server监视资源。

12

4.0.0-1

添加了ODBC监视资源。

13

4.0.0-1

WebOTX监视资源支持了WebOTX V10.1。

14

4.0.0-1

JVM监视资源支持了Apache Tomcat 9.0。

15

4.0.0-1

JVM监视资源支持了WebOTX V10.1。

16
4.0.0-1
JVM监视资源可以进行以下的监视。
・CodeHeap non-nmethods
・CodeHeap profiled nmethods
・CodeHeap non-profiled nmethods
・Compressed Class Space

17

4.0.0-1

添加了AWS DNS资源、AWS DNS监视资源。

18

4.0.0-1

添加了Azure DNS资源、Azure DNS监视资源。

19

4.0.0-1

改善了监视资源错误判定以及超时判定的精度。

20

4.0.0-1

添加了在组资源活性/非活性的前后,可以执行任意脚本的功能。

21

4.0.0-1

在发生两机双活时可以选择要存活的服务器组。

22

4.0.0-1

失效切换属性设定为[完全互斥]的组,可以做互斥对象的组合设定。

23

4.0.0-1

减少内部进程间通信消耗的TCP端口数量。

24

4.0.0-1

强化了日志收集的收集项目。

25

4.0.0-1

可以设置镜像磁盘资源、共享型镜像磁盘资源的差分Bitmap大小。

26

4.0.1-1

支持新发布的kernel。

27

4.0.1-1

在WebManager中如果因为设置不佳导致无法使用HTTPS时,消息将输出到syslog以及警告日志中。

28

4.1.0-1

支持新发布的kernel。

29

4.1.0-1

支持Red Hat Enterprise Linux 7.6。

30

4.1.0-1

支持SUSE Linux Enterprise Server 12 SP2。

31

4.1.0-1

支持Amazon Linux 2。

32

4.1.0-1

支持Oracle Linux 7.5。

33

4.1.0-1

Oracle 监视资源支持Oracle Database 18c。

34

4.1.0-1

Oracle 监视资源支持Oracle Database 19c。

35

4.1.0-1

PostgreSQL 监视资源支持PostgreSQL11。

36

4.1.0-1

PostgreSQL 监视资源支持PowerGres V11。

37

4.1.0-1

MySQL 监视资源支持MySQL8.0。

38

4.1.0-1

MySQL 监视资源支持MariaDB10.3。

39

4.1.0-1

以下资源/ 监视资源支持Python3。

  • AWS Elastic IP 资源

  • AWS 虚拟IP资源

  • AWS DNS资源

  • AWS Elastic IP 监视资源

  • AWS 虚拟 IP 监视资源

  • AWS AZ 监视资源

  • AWS DNS 监视资源

40

4.1.0-1

用于SAP NetWeaver 的SAP 联动连接器支持以下的OS。

  • Red Hat Enterprise Linux 7.5

41

4.1.0-1

用于SAP NetWeaver 的SAP 联动连接器支持以下的SAP NetWeaver。

  • SAP NetWeaver Application Server for ABAP 7.52

42

4.1.0-1

用于SAP NetWeaver 的SAP联动连接器/示例脚本支持以下。

  • 维护模式

  • Standalone Enqueue Server 2

43

4.1.0-1

Samba 监视资源支持如下。

  • NTLMv2 认证

  • SMB2/SMB3 协议

44

4.1.0-1

可在Cluster WebUI 中进行集群构成、配置更改。

45

4.1.0-1

镜像磁盘资源/共享型镜像磁盘资源支持RAW分区。

46

4.1.0-1

镜像的设置项目中添加"镜像复归 I/O 大小",可以调整镜像复归性能。

47

4.1.0-1

改善共享型镜像磁盘资源(异步模式)的服务器组内的失效切换处理时间。

48

4.1.0-1

共享型镜像磁盘资源的镜像复归中可以进行服务器组内的失效切换。

49

4.1.0-1

改善镜像异步模式的未发送邮件数据的缓冲机构。

50

4.1.0-1

添加用于DB2 的 DB 静止点命令。

51

4.1.0-1

添加用于PostgreSQL 的 DB 静止点命令。

52

4.1.0-1

添加用于Sybase的 DB 静止点命令。

53

4.1.0-1

添加用于SQL Server的 DB 静止点命令。

54

4.1.0-1

MySQL的DB静止点命令支持MariaDB。

55

4.1.0-1

添加了Witness 心跳资源。

56

4.1.0-1

添加了HTTP 网络分区解决资源。

57

4.1.0-1

扩充了在更改集群配置时,不需要停止业务就能反映更改的设置项目。

58

4.1.0-1

添加了在启动失效切换组时,重复检查浮动IP地址的功能。

59

4.1.0-1

在远程集群配置中,添加了即使检测出服务器组间的心跳超时,也仅在设置好的时间内暂停自动失效切换的功能。

60

4.1.0-1

扩充了可以在EXEC资源的开始/结束脚本中使用的环境变量。

61

4.1.0-1

添加了一项功能实现依据"强制停止"脚本的执行结果来制止故障转移。

62

4.1.0-1

可以编辑在强制停止功能以及机箱ID联动功能中执行的IPMI命令。

63

4.1.0-1

添加了进程资源监视资源,集中系统监视资源的进程资源监视功能。

64

4.1.0-1

镜像统计信息中添加了新的统计值。

65

4.1.0-1

添加了系统资源统计信息采集功能。

66

4.1.0-1

添加了将失效切换组、组资源、监视资源的运行状况作为集群统计信息保存的功能。

67

4.1.0-1

在日志收集模式中添加了镜像统计信息和集群统计信息。

68

4.1.0-1

添加了用户监视资源中,等待异步脚本的监视开始的功能。

69

4.1.0-1

添加了执行集群停止时,在组资源停止前等待用户监视资源停止结束的设置。

70

4.1.0-1

添加了用于指定clpmonctrl命令请求处理的服务器的参数。

71

4.1.0-1

已在与WebManager服务器的HTTPS连接中禁用SSL和TLS 1.0。

72

4.1.0-1

添加了到可以使用共享磁盘为止的等待启动集群的功能。

73

4.1.0-1

关机监视的默认值从"始终执行"更改为"只在组非激活处理失败时执行"。

74

4.1.1-1

支持了Asianux 7 SP3。

75

4.1.1-1

改善了Cluster WebUI的表示和相关操作。

76

4.1.2-1

支持新发布的 kernel 。

77

4.1.2-1

Cluster WebUI 以及 HTTP 监视资源支持 OpenSSL 1.1.1。

78

4.2.0-1

添加了可以操作集群并获取状态的RESTful API。

79

4.2.0-1

改善了Cluster WebUI和通过命令获取集群信息的处理。

80

4.2.0-1

添加了检查集群配置信息的功能。

81

4.2.0-1

增强了当查出异常执行OS panic时,记录到待机服务器的消息内容。

82

4.2.0-1

添加了禁用组的自动启动和激活/非激活异常时的复归动作的功能。

83

4.2.0-1

使用License管理命令,删除集群节点时可以重新配置期间定制License。

84

4.2.0-1

可以用OS的用户帐户登录到Cluster WebUI。

85

4.2.0-1

在EXEC资源中,执行和结合运行服务器上的开始·结束脚本,在待机服务器上也可以执行脚本。

86

4.2.0-1

可以在不停止操作的情况下添加·删除集群节点。

87

4.2.0-1

扩充了组的停止等待的设置条件。

88

4.2.0-1

添加了在Cluster WebUI 中显示组启动停止预测时间的功能。

89

4.2.0-1

支持新发布的kernel。

90

4.2.0-1

支持Red Hat Enterprise Linux 7.7。

91

4.2.0-1

支持SUSE LINUX Enterprise Server 15。

92

4.2.0-1

支持SUSE LINUX Enterprise Server 15 SP1。

93

4.2.0-1

支持SUSE LINUX Enterprise Server 12 SP4。

94

4.2.0-1

支持Oracle Linux 7.7。

95

4.2.0-1

支持Ubuntu 18.04.3 LTS。

96

4.2.0-1

可以通过以下功能使用Proxy服务器。

  • Witness心跳资源

  • HTTP网络分区解决资源

97

4.2.0-1

使用Cluster WebUI和clpstat命令改善了集群停止状态和集群挂起状态的显示内容。

98

4.2.0-1

在日志收集模式中添加了系统统计信息。

99

4.2.0-1

添加用于显示组启动停止预测时间以及监视资源的监视所用时间的命令。

100

4.2.0-1

更改系统资源统计信息的输出目标。

101

4.2.0-1

扩充了系统资源统计信息的收集信息。

102

4.2.0-1

HTTP监视资源支持BASIC认证。

103

4.2.0-1

AWS AZ监视资源的状态在可用区中为information 或者 impaired时,从异常更改为警告。

104

4.2.0-1

添加了Google Cloud 虚拟IP资源、Google Cloud 虚拟IP监视资源。

105

4.2.0-1

添加了Oracle Cloud 虚拟IP资源、Oracle Cloud 虚拟IP监视资源。

106

4.2.0-1

对于以下监视资源,AWS CLI命令响应获取失败操作的默认值已从"不执行复归动作(显示警告)"更改为“不执行复归动作(不显示警告)"。

  • AWS Elastic IP监视资源

  • AWS 虚拟 IP监视资源

  • AWS AZ监视资源

  • AWS DNS监视资源

107

4.2.0-1

DB2监视资源支持DB2 v11.5。

108

4.2.0-1

MySQL监视资源支持MariaDB 10.4。

109

4.2.0-1

SQL Server监视资源支持SQL Server 2019。

110

4.2.0-1

添加了不间断扩展镜像磁盘资源的数据分区大小的功能。

111

4.2.0-1

改善了发生磁盘监视资源超时时警报日志的输出信息。

5.3. 修改信息

各版本做了以下修改。

No.
修改版本
/ 发生版本
修改项目
危险度
发生条件
发生频率
原因
1
4.0.1-1
/ 4.0.0-1
可以激活同一个产品的两个限时许可证。
当证书到期,同时进行自动激活库存未使用证书的处理和用证书注册命令进行新证书注册操作处理时,偶尔会发生。
在操作证书信息时,互斥处理存有缺陷。
2
4.0.1-1
/ 4.0.0-1
通过clpgrp命令启动组时失败。
在互斥规则已被设定的配置中,不指定启动对象的组名执行clpgrp命令时会发生。
组名省略时的处理存在缺陷。
3
4.0.1-1
/ 4.0.0-1
在混合了CPU证书和VM节点证书的配置中,会出现提示CPU证书不足的警告消息。
CPU证书和VM节点证书混合时会发生。
证书计数处理存在缺陷。
4
4.0.1-1
/ 4.0.0-1
在Azure DNS监视资源中,即使Azure上的DNS服务器正常运行,也会异常。
以下条件都满足时一定会发生。
・选中[确认域名解析]时
・Azure CLI 的版本为2.0.30 ~ 2.0.32 时 (2.0.29 以下、2.0.33 以上时不会发生)
由于通过该版本的Azure CLI获取的DNS服务器列表中包含了制表符,因此Azure CLI的输出结果的解析处理失败了。
5
4.0.1-1
/ 4.0.0-1
在Azure DNS监视资源中,即使一部分Azure上的DNS服务器正常运行,也会异常。
以下条件都满足时一定会发生。
・选中[确认域名解析]时
・通过Azure CLI获取的DNS服务器列表中显示在第一个的DNS服务器没有正常运行时(第二个之后的DNS服务器正常运行)
DNS服务器的健全性确认处理有缺陷。
6
4.0.1-1
/ 4.0.0-1
Azure DNS监视资源中,Azure上的DNS服务器列表获取失败时也不作为异常。
以下条件都满足时一定会发生。
・选中[确认域名解析]时
・通过Azure CLI获取DNS服务器列表失败时
判定正常、异常的处理有缺陷。
7
4.0.1-1
/ 4.0.0-1
使用JVM监视资源时,监视对象Java VM中会发生内存泄露。
满足以下条件时会发生。
・选中[监视 (固有)]标签页-[调整]属性-[线程]标签页-[监视运行中的线程数]时
所使用的Java API的扩展可能会积蓄在Scavenge GC中没有释放的情况。
8
4.0.1-1
/ 4.0.0-1
JVM监视资源的Java进程中,发生内存泄露。
满足以下条件时会发生。
・ [监视 (固有)]标签页-[调整]属性中的设置全选中
・多次创建JVM 监视资源时
与监视对象Java VM的连接断开处理有缺陷。
9
4.0.1-1
/ 4.0.0-1
JVM监视资源中,即使关闭以下参数,JVM统计日志(jramemory.stat)还是会被输出。
・[监视 (固有)]标签页-[调整]属性-[内存]标签页-[监视堆使用量]
・[监视 (固有)]标签页-[调整]属性-[内存]标签页-[监视非堆使用量]
满足以下条件时一定会发生。
・[监视 (固有)]标签页-[JVM 种别]为[Oracle Java(usage monitoring)]时
・[监视 (固有)]标签页-[调整]属性-[内存]标签页-[监视堆使用量]关闭时
・[监视 (固有)]标签页-[调整]属性-[内存]标签页-[监视非堆使用量]关闭时
JVM统计日志的输出判断处理有缺陷。
10
4.1.0-1
/ 4.0.0-1
使用SAP NetWeaver示例脚本的自定义监视资源被检测到故障时,SAP服务的停止处理过程中会进行SAP服务的开始处理。
当SAP服务的停止处理需要花费时间时会发生。
这是因为用于SAP服务停止的脚本,没有等待SAP服务停止结束。
11
4.1.0-1
/ 4.0.0-1
如果AWS使用的标签页内容中包含了非ASCII字符,则激活AWS虚拟IP资源会失败。
如果AWS使用的标签页内容中包含了非ASCII字符时,一定会发生。
因为没有考虑到AWS使用的标签页中包含非ASCII字符。
12
4.1.0-1
/ 4.0.0-1
EXPRESSCLUSTER语言设置选择"英文"以外时,SAP NetWeaver 的 SAP联动连接无法正常运行。
选择除"英文"以外时一定会发生。
这是因为集群状态确认处理有欠缺。
13
4.1.0-1
/ 4.0.0-1
SQLServer监视中,DB缓存中存在SQL文,可能会导致性能上的问题。
监视级别2时会发生。
因为每次监视都会发出不同的update SQL。
14
4.1.0-1
/ 4.0.0-1
SQLServer 监视中,监视用户名不正确时,应该是警告的情况却变成了监视异常。
监视参数中存在设置错误时发生。
因为没有考虑到监视参数的设置错误。
15
4.1.0-1
/ 4.0.0-1
ODBC监视中监视用户名不正确时,应该是警告的情况却变成了监视异常。
监视参数中存在设置错误时发生。
因为没有考虑到监视参数的设置错误。
16
4.1.0-1
/ 4.0.0-1
Database Agent 中监视异常时的复归操作推迟30秒执行。
复归操作执行时一定会发生。
因为复归操作执行时的处理有欠缺。
17
4.1.0-1
/ 4.0.0-1
Database Agent 中,通过clptoratio 命令设置超时倍率无效。
一定会发生。
因为超时倍率值获取处理有欠缺。
18
4.1.0-1
/ 4.0.0-1
集群挂起时会发生超时。
集群复原处理中执行集群挂起操作时,很少会发生。
集群挂起·复原操作发生冲突时的处理存在缺陷。
19
4.1.0-1
/ 4.0.0-1
设置为手动启动的失效切换组在失效切换时,在失效切换源中未被启动的组资源,在失效切换目标中被启动了。
下述的状态转变时会发生。
(1) 集群停止
(2) 集群启动
(3) 设置为手动启动的失效切换组的一部分组资源单一启动
(4) 关闭了启动了组资源的服务器
保存组资源状态的信息在初始化时有欠缺。
20
4.1.0-1
/ 4.0.0-1
用clpstat命令,集群停止处理中的状态未正确显示。
从集群停止执行后到集群停止结束之间,执行clpstat命令时会发生。
集群停止处理的状态判定处理存在缺陷。
21
4.1.0-1
/ 4.0.0-1
没有结束停止处理的组资源的状态显示为停止状态。
对于停止处理失败状态下的组资源,在进行下述操作时会发生。
・启动操作
・停止操作
对于异常状态的组资源,启动·停止操作的状态更改处理存在缺陷。
22
4.1.0-1
/ 4.0.0-1
因为关机监视,失效切换会在服务器重置之前开始。
由于系统高负荷,关机监视运行延迟时,偶尔会发生。
因为没有考虑定时停止心跳。
23
4.1.0-1
/ 4.0.0-1
更改强制停止功能设置时,有时会没有执行恰当反映方法(集群挂起/恢复)。
虚拟机强制停止设置初次反映时发生。
因为对判定添加虚拟机强制停止设置时的反映方法的定义信息有误。
24
4.1.0-1
/ 4.0.0-1
有时会无法反映更改集群属性的"日志通信方法"的设置。
集群初次构筑时,把"日志通信发法"更改为除"UNIX域"以外时发生。
更改设置时的反映方法判定处理存在缺陷。
25
4.1.0-1
/ 4.0.0-1
exec 资源、用户监视资源的脚本日志中发生以下问题。
・异步脚本的日志输出时刻为所有进程完成时刻。
・有时留有日志的临时保存文件。
脚本的日志轮循功能启用时发生。
因为日志输出处理有欠缺。
26
4.1.0-1
/ 4.0.0-1
创建镜像磁盘资源以及共享型镜像磁盘资源时指定"不进行初始镜像构筑"则首次的镜像复归一定会全复制。
指定"不进行初始镜像构筑"一定会发生。
因为指定"不进行初始镜像构筑"时的处理存在缺陷。
27
4.1.0-1
/ 4.0.0-1
镜像磁盘/共享型镜像磁盘的启动/停止/监视处理时发生延迟。
镜像磁盘资源/共享型镜像磁盘资源数的合计约16个以上时发生。
因为内部存在不恰当的等待处理。
28
4.1.0-1
/ 4.0.0-1
磁盘监视资源中,即使查出超时未提示异常而是警告。
磁盘监视资源中查出超时时发生。
查出超时时的判定处理有欠缺。
29
4.1.1-1
/ 4.1.0-1
切换到Cluster WebUI的设定模式失败。
从特定浏览器通过HTTPS访问Cluster WebUI时发生。
某些地方不支持来自特定浏览器的数据传输模式。
30
4.1.1-1
/ 4.1.0-1
当镜像磁盘资源或共享型镜像磁盘资源在异步模式下,主服务器宕机并导致执行差异拷贝的主服务器与备份服务器的数据不一致。
当主服务器宕机并执行差异拷贝时发生。
在确定差异拷贝的对象区域的过程中存在缺陷。
31
4.1.1-1
/ 4.1.0-1
当指定LVM逻辑卷为镜像磁盘资源或共享型镜像磁盘资源的数据分区时,初始镜像构筑和镜像复归将无法完成。
当指定LVM逻辑卷为数据分区时发生。
在初始镜像构筑和镜像复归处理中,针对LVM逻辑卷的处理欠缺考虑。
32
4.1.2-1
/ 4.1.0-1
设置网络警告灯时,以下项目的设置值未保存在配置信息中。
- 使用网络警告灯
- 服务器启动时播放音频文件
- 音频文件编号
- 服务器停止时播放音频文件
- 音频文件编号
设置网络警告灯时总是会发生。
网络警告灯的设置值保存处理存在缺陷。
33
4.1.2-1
/ 4.0.0-1

镜像重建期间可能无法正确显示剩余时间。

当镜像重建期间的剩余时间超过一小时时发生。

镜像重建期间的剩余时间的显示处理存在缺陷。

34

4.2.0-1
/ 4.0.0-1~4.1.2-1

镜像恢复期间,镜像磁盘监视资源/共享型镜像磁盘监视资源的状态不会变为警告。

镜像磁盘监视资源/共享型镜像磁盘监视资源的状态从异常状态到开始镜像恢复时发生。

因为在修改监视资源的状态显示时,未考虑到镜像恢复。

35

4.2.0-1
/ 4.0.0-1~4.1.2-1
用clpstat命令可能会显示以下错误消息。
Could not connect to the server.
Internal error.Check if memory or OS resources are sufficient.

启动集群后立即执行clpstat命令时很少会发生。

错误处理存在缺陷。

36

4.2.0-1
/ 4.0.0-1~4.1.2-1

应用配置信息时,可能会显示不必要的操作(WebManager服务器重新启动)。

设置配置信息的时候,只有在满足同时修改 [关闭·重启集群]和[重启webmanager]两者所需要的设定信息的时候才会发生。

反映方法的判定处理存在缺陷。

37

4.2.0-1
/ 4.0.0-1~4.1.2-1

组以及组资源的当前服务器信息可能不一致。

设置手动失效切换时,心跳线断线恢复后很少会发生。

心跳线恢复时的当前服务器信息更新处理存在缺陷。

38

4.2.0-1
/ 4.0.0-1~4.1.2-1

反映配置信息时,可能需要不必要的操作(挂起/恢复)。

参考自动注册的监视资源的属性时,可能会发生。

该内部处理存在缺陷。

39

4.2.0-1
/ 4.0.0-1~4.1.2-1

多目标监视资源中,可能无法按照异常阈值以及警告阈值的设置方式进行操作。

  • 设置多个多目标监视资源,更改异常阈值以及警告阈值时发生。

  • 对于一个多目标监视资源,异常阈值做如下更改时发生。

    • 更改为[指定数]

    • 更改为[与成员数相同]

设定值的取得处理存在欠缺。

40

4.2.0-1
/ 4.0.0-1~4.1.2-1

动态DNS资源的激活可能会失败。

资源名称和主机名称的总和超过124个字节时,很少发生。

用于存储字符串的缓冲区大小不足。

41

4.2.0-1
/ 4.0.0-1~4.1.2-1

Cluster WebUI中镜像磁盘操作可能无法正常工作。

更改镜像代理端口号时发生。

更改镜像代理端口号时,所需的反映方法有误。

42

4.2.0-1
/ 4.0.0-1~4.1.2-1
用clpstat命令可能会显示不正确的项目名称。

在存在磁盘心跳资源的环境下执行clpstat --hb --detail时会发生。

显示的项目名有误。

43

4.2.0-1
/ 4.0.0-1~4.1.2-1

rpcbind服务可能会意外启动。

在收集日志时会发生。

rpcbind服务由收集日志时执行的rpcinfo命令启动。

44

4.2.0-1
/ 4.0.0-1~4.1.2-1

clusterpro_evt服务可能在nfs之前启动。

发生在init.d环境中。

启动脚本的描述内容有误。

45

4.2.0-1
/ 4.0.0-1~4.1.2-1

EXPRESSCLUSTER Web Alert服务可能会异常终止。

不管具体条件如何,这种情况很少发生。

变量初始化有遗漏。

46

4.2.0-1
/ 4.0.0-1~4.1.2-1

虚拟机强制停止功能的超时设置可能不起作用。

在使用虚拟机强制停止功能并且强制停止过程需要时间时发生。

结束等待处理有缺陷。

47

4.2.0-1
/ 4.0.0-1~4.1.2-1

重新启动集群时,该组可能无法启动。

重启集群时,在运行组停止处理中,较早地重新启动待机服务器时很少会发生。

服务器之间的组停止等待处理失败时,处理中有遗漏。

48

4.2.0-1
/ 4.0.0-1~4.1.2-1

服务器停止处理可能需要很长时间。

集群停止时很少发生。

当集群停止处理的时间在服务器之间转移时,该处理有遗漏。

49

4.2.0-1
/ 4.0.0-1~4.1.2-1

即使组或资源的停用失败,也可能会输出指示停用成功的警报。

在紧急关机时发生。

紧急关闭时无论组或资源的停用结果如何,都会输出成功的警报。

50

4.2.0-1
/ 4.0.0-1~4.1.2-1

查出服务器关闭时,组可能不会进行失效切换。

在服务器启动时内部信息的同步处理期间检测到服务器关闭时会发生这种情况。

服务器状态更新处理有缺陷。

51

4.2.0-1
/ 4.0.0-1~4.1.2-1

在PID监视资源中,如果要监视的进程已消失,则可能不会检测到错误。

在监视间隔期间,用与已经消失的进程相同的进程ID启动新的进程时。

是因为在PID监视资源中以进程ID作为关键字进行判断。

52

4.2.0-1
/ 4.0.0-1~4.1.2-1

监视进程资源监视资源的打开文件数(内核上限值)不会根据设置值检测到错误。

选中[打开文件数(内核上限值)的监视]时一定会发生。

用于判断的内核上限值不当。

53

4.2.0-1
/ 4.0.0-1~4.1.2-1

EXEC资源停止时,会强制结束其他进程。

当EXEC资源中满足以下所有条件时会发生。

  • 用户应用程序已设置

  • Stop path中未设置任何内容

  • 启动脚本设置为异步

  • 用与已经消失的进程相同的进程ID启动新的进程时

是因为在PID监视资源中以进程ID作为关键字进行判断。

54

4.2.0-1
/ 4.0.0-1~4.1.2-1

镜像磁盘资源和共享型镜像磁盘资源中,激活的服务器的镜像磁盘状态变为异常。

执行以下跳转时发生。

  1. 镜像磁盘连接断线

  2. 在激活的服务器中向镜像磁盘写入数据后,激活的服务器关闭

  3. 失效切换后,停机服务器恢复

在发生左侧描述的跳转时,镜像磁盘状态的确定处理有所欠缺。

55

4.2.0-1
/ 4.0.0-1~4.1.2-1
当卷管理器监视资源的监视目标是LVM镜像时,LVM镜像的降级状态变为监视异常。

当LVM镜像处于降级状态时发生。

遗漏了对LVM镜像降级状态的考虑。

6. 注意限制事项

本章将阐述注意事项、现有问题及其避免方法。

本章阐述事项如下。

6.1. 研究系统配置时

下文将阐述准备HW、可选产品License、构筑系统和配置共享磁盘时的注意事项。

6.1.1. 功能列表与所需License

下述可选产品需要同服务器个数相当的license。

没有进行License登录的资源、监视器资源不会显示在Cluster WebUI的一览表中。

想要使用的功能

所需License

镜像磁盘资源

EXPRESSCLUSTER X Replicator 4.2 3

共享型镜像磁盘资源

EXPRESSCLUSTER X Replicator DR 4.2 4

Oracle监视器资源

EXPRESSCLUSTER X Database Agent 4.2

DB2监视器资源

EXPRESSCLUSTER X Database Agent 4.2

PostgreSQL监视器资源

EXPRESSCLUSTER X Database Agent 4.2

MySQL监视器资源

EXPRESSCLUSTER X Database Agent 4.2

Sybase监视器资源

EXPRESSCLUSTER X Database Agent 4.2

SQL Server监视器资源

EXPRESSCLUSTER X Database Agent 4.2

ODBC监视器资源

EXPRESSCLUSTER X Database Agent 4.2

Samba监视器资源

EXPRESSCLUSTER X File Server Agent 4.2

nfs监视器资源

EXPRESSCLUSTER X File Server Agent 4.2

http监视器资源

EXPRESSCLUSTER X Internet Server Agent 4.2

smtp监视器资源

EXPRESSCLUSTER X Internet Server Agent 4.2

pop3监视器资源

EXPRESSCLUSTER X Internet Server Agent 4.2

imap4监视器资源

EXPRESSCLUSTER X Internet Server Agent 4.2

ftp监视器资源

EXPRESSCLUSTER X Internet Server Agent 4.2

Tuxedo监视器资源

EXPRESSCLUSTER X Application Server Agent 4.2

Weblogic监视器资源

EXPRESSCLUSTER X Application Server Agent 4.2

Websphere监视器资源

EXPRESSCLUSTER X Application Server Agent 4.2

WebOTX监视器资源

EXPRESSCLUSTER X Application Server Agent 4.2

JVM监视器资源

EXPRESSCLUSTER X Java Resource Agent 4.2

系统监视器资源

EXPRESSCLUSTER X System Resource Agent 4.2

进程资源监视资源

EXPRESSCLUSTER X System Resource Agent 4.2

邮件通报功能

EXPRESSCLUSTER X Alert Service 4.2

网络警告灯

EXPRESSCLUSTER X Alert Service 4.2

3

配置数据镜像型时,需购买产品"Replicator"。

4

配置共享型磁盘间镜像时,需购买产品"Replicator DR"。

6.1.2. 关于镜像磁盘的需求

  • 通过Linux的md设定的等量磁盘组、卷组、镜像链接、带奇偶校验的等量磁盘组,不能作为镜像磁盘资源的集群分区或数据分区来使用。

  • 通过Linux的 LVM,可将卷作为集群分区或数据分区来使用。
    但是,在SuSE上不能通过LVM或MultiPath将卷作为集群分区或数据分区来使用。(这是因为在SuSE上,针对这些卷,EXPRESSCLUSTER无法进行ReadOnly,ReadWrite的控制。)
  • 作为镜像磁盘资源使用的磁盘不支持基于Linux的md的Stripe Set、Volume Set、磁盘镜像建立、带校验的Stripe Set的功能。

  • 使用镜像磁盘资源时需要镜像用的分区(数据分区和集群分区)。

  • 确保镜像用分区有以下2个方法:

    • 和OS(root分区或swap分区)在同一磁盘上确保镜像用的分区(集群分区和数据分区)

    • 和OS准备(添加)其他磁盘(或者LUN)确保镜像用的分区

  • 可以参考以下条目来选择上面的某种方法。

    • 重视故障维护、性能时
      - 建议在OS之外另外准备镜像用磁盘。
    • 受H/W Raid规格的限制无法添加LUN时
      用H/W Raid的预装模式难于更改LUN的配置时
      - 在同一OS上确保磁盘的镜像用分区。
  • 使用多个镜像磁盘资源时,建议为每个镜像磁盘资源准备(添加)磁盘。
    在同一磁盘上确保使用多个镜像磁盘资源时,可能出现性能低下或镜像恢复时间较长现象。这与访问Linux OS磁盘的性能相关。
  • 将磁盘作为镜像用磁盘使用时,需要在各服务器间使用相同磁盘。

  • 磁盘接口

    请统一用于确保双方服务器镜像磁盘或镜像用分区的磁盘的接口。

    例)

    组合

    服务器1

    服务器2

    OK

    SCSI

    SCSI

    OK

    IDE

    IDE

    NG

    IDE

    SCSI

  • 磁盘类型

    请统一用于确保双方服务器镜像磁盘或镜像用分区的磁盘的类型。

    例)

    组合

    服务器1

    服务器2

    OK

    HDD

    HDD

    OK

    SSD

    SSD

    NG

    HDD

    SSD

  • 磁盘的扇区大小

    请统一用于确保双方服务器镜像磁盘或镜像用分区的磁盘的逻辑扇区大小。

    例)

    组合

    服务器1

    服务器2

    OK

    逻辑扇区512B

    逻辑扇区512B

    OK

    逻辑扇区4KB

    逻辑扇区4KB

    NG

    逻辑扇区512B

    逻辑扇区4KB

  • 各服务器间作为镜像用磁盘使用的磁盘几何数据不同时,请注意以下事项:

    用fdisk等命令确保的分区容量按照柱面附近的块(单元)数分配。
    请确保数据分区,以使数据分区容量和初始镜像构筑方向形成如下关系。

    复制来源服务器 ≦ 复制目标服务器

    复制来源服务器是指镜像磁盘资源所属的失效切换组中失效切换原则较高的服务器。复制目标服务器是指镜像磁盘资源所属的失效切换组中失效切换原则较低的服务器。

    另外,数据分区的大小在复制源和复制目标处差别较大时,有时会出现初始镜像构筑失败。请确保数据分区为相同程度的大小。

    另外,请注意数据分区的大小在复制来源端和复制目标端上不要超过32GiB, 64GiB, 96GiB, ... (32GiB的倍数)。若数据分区的大小超过32GiB的倍数时,构建初始镜像时有可能会失败。请确保数据分区的大小为相同程度。

    例)

    组合

    数据分区的大小

    说明

    服务器1侧

    服务器2侧

    OK

    30GiB

    31GiB

    由于双方均在0~32GiB不足的范围内,因此OK

    OK

    50GiB

    60GiB

    由于双方均在2GiB以上~64GiB不足的范围内,因此OK

    NG

    30GiB

    39GiB

    由于超过了32GiB,因此NG

    NG

    60GiB

    70GiB

    由于超过了64GiB,因此NG

6.1.3. 关于共享磁盘的需求

  • 在共享磁盘中使用基于Linux的LVM的Stripe Set、Volume Set、镜像化、带校验的Stripe Set的功能时,磁盘资源中所设分区的ReadOnly、ReadWrite无法由EXPRESSCLUSTER进行控制。

  • 使用VxVM/LVM时,在用于EXPRESSCLUSTER磁盘心跳的共享磁盘上需要不受VxVM/LVM控制的LUN。在设置共享磁盘LUN时请留意。

  • 使用LVM功能时,请使用磁盘资源(磁盘类型"lvm")与卷管理资源。

6.1.4. 关于作为共享型镜像磁盘使用的磁盘的需求

  • 作为共享型镜像磁盘资源使用的磁盘不支持基于Linux的md的Stripe Set、Volume Set、镜像化、带校验的Stripe Set的功能。

  • 通过Linux的 LVM,可将卷作为集群分区或数据分区来使用。
    但是,在SuSE上不能通过LVM或MultiPath将卷作为集群分区或数据分区来使用。(这是因为在SuSE上,针对这些卷,EXPRESSCLUSTER无法进行ReadOnly,ReadWrite的控制。)
  • 使用共享型镜像磁盘资源时需要共享型镜像磁盘用的分区(数据分区和集群分区)。

  • 使用共享磁盘装置确保共享型镜像磁盘用的磁盘时,需要有通用共享磁盘装置的服务器之间的磁盘心跳资源用的分区。

  • 从非共享磁盘装置确保共享型镜像磁盘用的磁盘时,分区的确保方法有以下2种。

    • 在同一OS(root分区或swap分区)中的磁盘上确保共享型镜像磁盘用分区(集群分区和数据分区)

    • 准备(添加)不在同一OS上的磁盘(或者LUN),确保共享型镜像磁盘用的分区

  • 可以参考以下条目来选择上面的某种方法。

    • 重视故障维护、性能时
      - 建议在OS之外另外准备共享型镜像磁盘用磁盘。
    • 受H/W Raid规格的限制无法添加LUN时
      用H/W Raid的预装模式难于更改LUN的配置时
      - 在同一OS上确保磁盘的共享型镜像磁盘用分区。
  • 使用多个共享型镜像磁盘资源时,建议为每个共享型镜像磁盘资源单独准备(添加)LUN。
    在同一磁盘上确保使用多个共享型镜像磁盘资源时,可能出现性能低下或镜像恢复时间较长的现象。这与访问Linux OS磁盘的性能相关。

    确保共享型镜像磁盘资源的装置

    必要的分区的种类

    共享磁盘装置

    非共享型磁盘装置

    数据分区

    必要

    必要

    集群分区

    必要

    必要

    磁盘心跳用分区

    必要

    不要

    确保和OS同一磁盘(LUN)

    -

    可能

  • 各服务器间作为共享型镜像磁盘用磁盘所使用的磁盘的种类及几何数据不同时,请注意以下事项:

    请确保数据分区的容量和初始镜像构筑方向形成如下关系

    复制来源服务器 ≦ 复制目标服务器

    复制来源服务器是指共享型镜像磁盘资源所属的失效切换组中失效切换原则较高的服务器。复制目标服务器是指共享型镜像磁盘资源所属的失效切换组中失效切换原则较低的服务器

    另外,数据分区的大小在复制源和复制目标处差别较大时,有时会出现初始镜像构筑失败。请确保数据分区为相同程度的大小。

    另外,请注意数据分区的大小在复制来源端和复制目标端上不要超过32GiB, 64GiB, 96GiB, ... (32GiB的倍数)。若数据分区的大小超过32GiB的倍数时,构建初始镜像时有可能会失败。请确保数据分区的大小为相同程度。

    例)

    组合

    数据分区的大小

    说明

    服务器1侧

    服务器2侧

    OK

    30GiB

    31GiB

    由于双方均在0~32GiB不足的范围内,因此OK

    OK

    50GiB

    60GiB

    由于双方均在2GiB以上~64GiB不足的范围内,因此OK

    NG

    30GiB

    39GiB

    由于超过了32GiB,因此NG

    NG

    60GiB

    70GiB

    由于超过了64GiB,因此NG

6.1.5. 关于IPv6环境

在IPv6环境下,不能使用以下功能。

  • BMC心跳资源

  • AWS Elastic IP 资源

  • AWS 虚拟 IP资源

  • AWS DNS资源

  • Azure 探头端口资源

  • Azure DNS资源

  • Google Cloud 虚拟 IP 资源

  • Oracle Cloud 虚拟 IP 资源

  • AWS Elastic IP 监视资源

  • AWS 虚拟 IP监视资源

  • AWS AZ监视资源

  • AWS DNS监视资源

  • Azure 探头端口监视资源

  • Azure 负载均衡监视资源

  • Azure DNS监视资源

  • Google Cloud 虚拟 IP 监视资源

  • Google Cloud 负载均衡监视资源

  • Oracle Cloud 虚拟 IP 监视资源

  • Oracle Cloud 负载均衡监视资源

以下功能不能使用本地链路地址。

  • LAN心跳资源

  • 内核模式LAN心跳资源

  • 镜像磁盘连接

  • PING网络分区解决资源

  • FIP资源

  • VIP资源

6.1.6. 关于网络设置

在NAT环境等自身服务器的IP地址和对方服务器的IP地址在不同服务器上形成不同的配置时,不能构筑/运用集群。

《不可构筑的示例》

6.1.7. 关于监视器资源恢复工作的"最终工作前执行脚本"

3.1.0-1以上版本,重新激活前和失效切换前也可执行脚本。
重新激活前和失效切换前均执行同一脚本。因此,如果3.1.0-1之前的旧版本上设定为"执行最终工作前脚本"时,需要对脚本文件进行编辑。
追加重新激活前、失效切换前的执行脚本的设定时,需要对脚本进行编辑,根据恢复工作进行特定处理的记载。
关于复归操作的特定内容,请参考《参考指南》的"监视资源的详细信息"中记载的"关于复归脚本、复归操作前的脚本"。

6.1.9. 关于镜像磁盘资源、共享型镜像磁盘资源的write性能

  • 镜像磁盘、共享型镜像磁盘资源的write处理是通过网络向对方和己方服务器磁盘进行write。而read处理只从己方服务器的磁盘进行read。

  • 基于上述原因,其write性能没有尚未集群化的单个服务器的性能优良。
    如果是要求write具有与单个服务器相同的高吞吐量的系统 (更新用服务器多的数据库系统等),建议使用共享磁盘。

6.1.10. 勿将镜像磁盘资源、共享型镜像磁盘资源作为syslog的输出目的地

请不要将挂载了镜像磁盘资源和共享型镜像磁盘资源的目标或子目录、文件设为syslog的输出目的地。
镜像磁盘连接被切断时,在检测到无法通信之前,可能会停止对镜像磁盘分区的I/O。此时syslog可能会停止输出,系统变为异常。
若需要对镜像磁盘资源、共享型磁盘资源输出syslog,请考虑以下方法。
  • 使用bonding作为镜像磁盘连接的路径二重化方法。

  • 调整用户空间监视的超时值和镜像相关的超时值。

6.1.11. 镜像磁盘资源、共享型镜像磁盘资源终止时的注意事项

  • 若有对加载了镜像磁盘资源和共享型磁盘资源的目录和子目录、文件进行访问的进程,在关机或失效切换等各磁盘资源处于非激活状态时,请使用结束脚本等终止对各磁盘资源的访问。
    根据各磁盘资源的设置,有时会发生当卸载时查出异常而进行的操作(强行终止访问了磁盘资源的进程)、卸载失败非激活异常时的复归操作(OS关机等)。
  • 若对加载了镜像磁盘资源和共享型磁盘资源的目录和子目录、文件进行了大量访问,当对磁盘资源执行非激活卸载时,将文件系统缓存写入磁盘时可能耗费很长时间。
    此时,为了保证对磁盘的写能正常终止,在设置卸载超时时间时,请留出足够的富余。
  • 关于上述设置,
    请参考《参考指南》的"组资源的详细信息"的"理解镜像磁盘资源"、"理解共享型镜像磁盘资源"的[复归操作]标签页、[详细]标签页的[调整]属性[卸载]标签页。

6.1.12. 多个异步镜像之间的数据一致性

异步模式的镜像磁盘/共享型镜像磁盘中,运行服务器的数据分区的写入,以相同顺序在待机服务器中也进行实施。
镜像磁盘的初始构成中或者镜像化中断后的复原中(复制)之外的情况下,由于保证了写入的顺序,因此能够保证待机服务器数据分区中的文件之间数据的一致性。
但是,在多个镜像磁盘/共享型镜像磁盘资源之间无法保证写入的顺序,例如像数据库的数据库文件和日志文件,一方的文件比另一方文件旧的时候,无法保证数据一致性的文件分散配置到多个异步镜像磁盘中,那么由于服务器宕机等原因引起失效切换时,可能会发生业务应用程序无法正常运行。
因此,这类型的文件必须配置在同一个异步镜像磁盘/共享型镜像磁盘上。

6.1.13. 关于中断了镜像同步时的参照同步方的镜像数据

针对镜像同步中状态的镜像磁盘或共享型磁盘,通过镜像磁盘列表或clpmdctrl / clphdctrl 命令(带--break / -b / --nosync 参数)中断镜像同步时,即使对镜像同步方侧(复制方侧)的服务器的镜像磁盘进行强制激活(访问限制解除)或强制镜像复归,使其变为可以访问状态,此文件系统或应用程序数据也有可能发生异常。
这是因为,在镜像同步源侧(资源被激活的一侧)的服务器上,正处于应用程序写入镜像磁盘区域的途中,或处于OS的缓存等(内存上)上的数据等的一部分被保持的状态下写入或实际上尚未写入镜像磁盘的状态,或处于写入途中的状态等,尚未与同步方实现同步的部分和已实现同步的部分混在一起,而无法确保数据一致的状态下,会定时发生中断镜像同步。
针对镜像同步方侧(备用侧)的镜像磁盘,想在无法确保数据一致的状态下访问时,请在镜像同步源侧(运行侧、资源已0激活的一侧)确保静止点之后,再中断镜像的同步。或者,一旦将其设为非激活状态来确保静止点。(通过结束应用程序来结束向镜像区域的访问,通过镜像磁盘的unmount将OS的缓存等全部写入镜像磁盘。)
作为确保静止点的例子,请参阅保存在 StartupKit中的《EXPRESSCLUSTER X PP指南 (日程表镜像)》。
同样,针对镜像复归途中(镜像再同步途中)的镜像磁盘或共享型磁盘,想中断镜像复归时,即使对镜像同步方侧的镜像磁盘进行强制激活(访问限制解除)或强制镜像复归,使其变为可以访问状态,此文件系统或应用程序数据也有可能发生异常。
这也因为,同样会存在尚未实现同步的部分和已实现同步的部分混在一起混在,而无法确保数据一致的状态下,会发生中断镜像复归。

6.1.14. 关于O_DIRECT在镜像磁盘、共享型镜像磁盘资源上的使用

请勿将open()系统调用的O_DIRECT插件用于镜像磁盘资源及共享型镜像磁盘资源。

例如Oracle的设置参数filesystemio_options = setall等就属此类参数。
请勿将镜像磁盘资源及共享型镜像磁盘资源设为磁盘监视的O_DIRECT方式。

6.1.15. 关于镜像磁盘、共享型镜像磁盘初始化构筑的时间

在ext2/ext3/ext4与其他文件系统中,初始化镜像以及全面镜像所需的时间各异。

6.1.16. 关于镜像磁盘、共享型镜像磁盘连接

  • 对镜像磁盘、共享型镜像磁盘连接进行冗余化处理时,需要两个IP地址使用同一版本。

  • 请将所有镜像磁盘连接的IP地址设置为IPv4或者IPv6的其中一方。

6.1.17. 关于JVM监视资源

  • 可同时进行监视的Java VM最多是25个。可同时监视的Java VM指,通过Cluster WebUI ([监视(固有)]标签->[识别名])可进行唯一识别的Java VM的数量。

  • Java VM和Java Resource Agent之间的回收不支持SSL。

  • 有时可能不能检测出线程死锁。这是已经确认的来自JavaVM的缺陷。详细内容请参考Oracle的Bug Database的"Bug ID: 6380127 "。(2011年10月现在)。

  • JVM监视资源可监视的Java VM需与JVM监视器资源工作时的服务器在同一服务器内。

  • JVM监视资源可监视的JBoss的服务器实例1个服务器上最多只有一个实例。

  • 通过Cluster WebUI (集群属性->[JVM监视]标签页->[Java安装路径])进行设定的Java安装路径在集群内的服务器内属于共通设定。关于JVM监视中使用的Java VM的版本以及升级版本,请在集群内服务器上使用同一版本。

  • 通过Cluster WebUI (集群属性->[JVM监视]标签页->[连接设定]对话框->[管理端口号])进行设定的管理端口号在集群内的服务器内属于共通设定。

  • x86_64版OS上运行IA32版的监视对象的应用程序时,不能进行监视。

  • 如果将通过Cluster WebUI (集群属性->[JVM监视]标签页->[最大Java堆大小])设置的最大Java堆大小值设置为3000等大数值,则JVM监视资源会启动失败。由于依赖于系统环境,请根据系统的内存搭载容量来决定。

  • 使用负载均衡联动的监视对象Java VM的负载算出功能时,建议在SingleServerSafe中使用。另外,仅限在Red Hat Enterprise Linux环境下可以运行。

  • 在监视对象Java VM的启动选项添加了「-XX:+UseG1GC」时,在Java 7以前则不能监视JVM监视资源的[属性]-[监视(固有)]标签页-[调整]属性-[内存]标签内的设置项目。
    在Java 8以上则可通过在JVM监视资源的[属性]-[监视(固有)]标签页- [JVM类型]选择[Oracle Java(usage monitoring)]来进行监视。

6.1.18. 关于邮件通知

不提供STARTTLS和SSL的邮件通知功能。

6.1.19. 关于网络警告灯的要求

  • 使用"DN-1000S"、"DN-1500GL"时,请勿设置警告灯密码。

  • 因回放音频文件而出现警告时,应将音频文件重新登录到"音频文件回放对应的网络警告灯"上。
    有关音频文件登录,请参阅"各网络警告灯"使用说明书。
  • 在网络警告灯里请设置允许来自集群内的服务器的rsh命令执行。

6.2. 安装OS前、安装OS时

请在安装OS时注意即将决定的参数、资源确保、命名规则等。

6.2.1. 关于/opt/nec/clusterpro的文件系统

为了提高系统应对故障的能力,建议使用有分类日志功能的文件系统。在Linux(内核2.6以后)支持的文件系统中,ext3、ext4、JFS、ReiserFS、XFS等文件系统具有分类日志功能。如果使用了没有分类日志功能的文件系统,那么服务器、OS的停止(不能正常关机时)再启动时,需要执行(执行root文件系统的fsck)交互式命令。

6.2.2. 关于镜像用磁盘

  • 磁盘分区

    例)在双方服务器上增加1个SCSI磁盘,创建1个镜像磁盘Pair时

    例)使用存储双方服务器OS的IDE磁盘剩余容量创建镜像磁盘Pair时

  • 镜像分区设备是EXPRESSCLUSTER磁盘镜像驱动程序向上层提供的设备。

  • 确保集群分区和数据分区的2个分区为Pair。

  • 可以在处于和OS(root分区或swap分区)相同的磁盘上确保镜像分区(集群分区、数据分区)。

    • 重视故障维护、性能时
      建议准备OS(root分区或swap分区)之外的镜像用磁盘。
    • 受H/W Raid规格的限制无法添加LUN时
      用H/W Raid的预装模式难于更改LUN的配置时

    可以在处于OS(root分区或swap分区)内的磁盘上确保镜像分区(集群分区、数据分区)。

  • 磁盘配置

    可以将多个磁盘用作镜像磁盘。

    另外,可以在1个磁盘中分配多个镜像分区设备加以利用。

    例)在双方服务器上增设2个SCSI磁盘,创建2个镜像磁盘Pair时。

    • 请在1个磁盘上用Pair确保集群分区和数据分区。

    • 不能将数据分区作为第1个磁盘、集群分区作为第2个磁盘使用。

    例)在双方服务器上增设1个SCSI磁盘,创建2个镜像分区时

    • 磁盘不支持基于Linux的md的Stripe Set、Volume Set、磁盘镜像建立、带校验的Stripe Set的功能。

6.2.3. 关于共享型镜像磁盘资源用磁盘

  • 磁盘分区

    可以使用共享磁盘或非共享型磁盘(服务器内置、服务器间不共享的外置型磁盘机箱等)。

例)在2台服务器上使用共享磁盘,并在第3台服务器上使用服务器的内置磁盘时

  • 镜像分区设备是EXPRESSCLUSTER磁盘镜像驱动程序向上层提供的设备。

  • 确保集群分区和数据分区的2个分区为Pair。

  • 使用非共享型磁盘(服务器内置、服务器间不共享的外置型磁盘机箱等)时,可以在处于OS(root分区或swap分区)内的磁盘上确保镜像分区(集群分区、数据分区)。

    • 重视故障维护、性能时
      建议准备OS(root分区或swap分区)之外的镜像用磁盘。
    • 受H/W Raid规格的限制无法添加LUN时
      用H/W Raid的预装模式难于更改LUN的配置时

    可以在OS(root分区或swap分区)所在的磁盘上确保镜像分区(集群分区、数据分区)。

  • 使用共享磁盘装置确保共享型镜像磁盘用的磁盘时,需要有通用共享磁盘装置的服务器之间的磁盘心跳资源用的分区。

  • 不支持基于Linux的md的Stripe Set、Volume Set、磁盘镜像建立、带校验的Stripe Set的功能。

6.2.4. 依存库

  • libxml2

    请在安装OS时安装libxml2。

6.2.5. 依存驱动程序

  • softdog

    • 在用户空间监视资源的监视方法softdog时,需要该驱动程序。

    • 请构筑Loadable模块。不能在静态驱动程序上运行。

6.2.6. 所需的数据包

  • tar

    • 安装OS时请安装tar。

6.2.7. 镜像驱动程序的主编号

使用镜像驱动的主编号218。
请不要在其他设备驱动程序上使用主编号218。

6.2.8. 内核模式LAN心跳驱动程序、KeepAlive驱动程序的主编号

  • 内核模式LAN心跳驱动程序使用主编号10、副编号240。

  • KeepAlive驱动程序使用主编号10、副编号241。

请确保不要在其他驱动程序上使用上述主、副编号。

6.2.9. 确保磁盘监视资源用于RAW监视的分区

  • 请在设置磁盘监视资源的RAW监视时准备监视专用的分区。请确保分区大小为10MB。

6.2.10. 设置SELinux

  • SELinux请设置为permissive 或 disabled。

  • 如果设为enforcinfg,则有时无法用EXPRESSCLUSTER进行必要的通信。

6.2.11. 设置NetworkManager

  • 在Red Hat Enterprise Linux 6环境中运行NetworkManager服务的情况下,网络切断时会出现意外动作(通信径路迂回、网络接口消失等),建议进行停止NetworkManager 的设置。

6.2.12. LVM 元数据服务的配置

  • 在Red Hat Enterprise Linux 7以后的环境中,卷管理资源以及卷管理监视资源执行LVM的控制/监视时,需要将LVM元数据服务设定为无效。
    将元数据服务变为无效的步骤如下。
    1. 通过以下的命令,请停止LVM元数据服务。

      # systemctl stop lvm2-lvmetad.service
      
    2. 编辑/etc/lvm/lvm.conf,将use_lvmetad的值设定为0。

6.3. 安装OS后、安装EXPRESSCLUSTER前

OS安装结束后,请注意OS和磁盘的设置。

6.3.1. 通信端口号

EXPRESSCLUSTER使用以下端口号。该端口号可以在Cluster WebUI上更改。
请不要在EXPRESSCLUSTER以外的程序上访问如下端口号。
在服务器上设置防火墙时,请将如下端口号设置为能访问。
AWS环境,除了防火墙,在安全组设定中也请将如下端口号设置为能访问。
  • [服务器/服务器间] [服务器内循环]

    From

    To

    备注

    服务器

    自动分配 5

    服务器

    29001/TCP

    内部通信

    服务器

    自动分配

    服务器

    29002/TCP

    数据发送

    服务器

    自动分配

    服务器

    29002/UDP

    心跳

    服务器

    自动分配

    服务器

    29003/UDP

    警告同步

    服务器

    自动分配

    服务器

    29004/TCP

    镜像代理间通信

    服务器

    自动分配

    服务器

    29006/UDP

    心跳(内核模式)

    服务器

    自动分配

    服务器

    29008/TCP

    集群信息管理

    服务器

    自动分配

    服务器

    29010/TCP

    Restful API 内部通信

    服务器

    自动分配

    服务器

    XXXX 6 /TCP

    镜像磁盘资源数据同步

    服务器

    自动分配

    服务器

    XXXX 7 /TCP

    镜像驱动程序间通信

    服务器

    自动分配

    服务器

    XXXX 8 /TCP

    镜像驱动程序间通信

    服务器
    icmp
    服务器
    icmp
    镜像驱动程序间KeepAlive
    FIP/VIP资源的重复确认
    镜像代理

    服务器

    自动分配

    服务器

    XXXX 9 /UDP

    内部日志用通信

  • [服务器・客户端之间]

    From

    To

    备注

    Restful API 客户端

    自动分配

    服务器

    29009/TCP

    http通信

  • [服务器・Cluster WebUI之间]

    From

    To

    备注

    Cluster WebUI

    自动分配

    服务器

    29003/TCP

    http通信

  • [其他]

    From

    To

    备注

    服务器

    自动分配

    网络警告灯

    请参照各产品的手册

    控制网络警告灯

    服务器

    自动分配

    服务器的BMC的管理LAN

    623/UDP

    控制BMC (强制停止/机箱指示灯联动)

    服务器的BMC的管理器LAN

    自动分配

    服务器

    162/UDP

    设定为BMC 联动用的消息接收监视器的监视对象

    服务器的BMC的管理器LAN

    自动分配

    服务器的BMC的管理器LAN

    5570/UDP

    BMC HB通信

    服务器

    自动分配

    Witness 服务器

    通过Cluster WebUI中设定的通信端口号

    Witness 心跳资源的连接目标主机

    服务器

    icmp

    监视对象

    icmp

    IP监视

    服务器

    icmp

    NFS服务器

    icmp

    NAS资源的NFS服务器生存状态确认

    服务器

    icmp

    监视对象

    icmp

    Ping方式网络分区解决资源的监视对象

    服务器

    自动分配

    监视目标

    通过Cluster WebUI 设定的通信端口号

    HTTP 方式网络分区解决资源的监视目标

    服务器

    自动分配

    服务器

    通过Cluster WebUI设定的管理端口号 10

    JVM监视器

    服务器

    自动分配

    监视对象

    通过Cluster WebUI设定的管理端口号 10

    JVM监视器

    服务器

    自动分配

    监视对象

    使用Cluster WebUI进行设定的负载均衡器联动管理端口号 10

    JVM监视器

    服务器

    自动分配

    BIG-IP LTM

    通过Cluster WebUI设定的管理端口号 10

    JVM监视器

    服务器

    自动分配

    服务器

    通过Cluster WebUI设定的Probe端口 11

    Azure 探头端口资源

    服务器
    自动分配
    AWS区域端点
    443/tcp 12
    AWS Elastic IP资源
    AWS虚拟IP资源
    AWS DNS资源
    AWS Elastic IP监视资源
    AWS虚拟IP监视资源
    AWS AZ监视资源
    AWS DNS监视资源

    服务器

    自动分配

    Azure端点

    443/tcp 13

    Azure DNS资源

    服务器

    自动分配

    Azure的权威DNS服务器

    53/udp

    Azure DNS监视资源

    服务器

    自动分配

    服务器

    在Cluster WebUI中设置的端口号 11

    Google Cloud 虚拟 IP 资源

    服务器

    自动分配

    服务器

    在Cluster WebUI中设置的端口号 11

    Oracle Cloud 虚拟 IP 资源

5

自动分配是指该时刻未使用的端口号将被分配。

6

即每个镜像磁盘资源、共享型镜像磁盘资源使用的端口号。在创建镜像磁盘资源、共享型镜像磁盘资源时设置。初始值设置为29051。此外,每添加1个镜像磁盘资源、共享型镜像磁盘资源,值就会自动加1。更改时,用Cluster WebUI的 [镜像磁盘资源属性]-[详细]、[共享型镜像磁盘资源属性]-[详细]标签页设置。详细内容请参考《参考指南》的"组资源的详细信息"。

7

即每个镜像磁盘资源、共享型镜像磁盘资源使用的端口号。在创建镜像磁盘资源、共享型镜像磁盘资源时设置。初始值设置为29031。此外,每添加1个镜像磁盘资源、共享型镜像磁盘资源,值就会自动加1。更改时,用Cluster WebUI的 [镜像磁盘资源属性]-[详细]、[共享型镜像磁盘资源属性]-[详细]标签页设置。详细内容请参考《参考指南》的"组资源的详细信息"。

8

即每个镜像磁盘资源、共享型镜像磁盘资源使用的端口号。在创建镜像磁盘资源、共享型镜像磁盘资源时设置。初始值设置为29071。此外,每添加1个镜像磁盘资源、共享型镜像磁盘资源,值就会自动加1。更改时,用Cluster WebUI的 [镜像磁盘资源属性]-[详细]、[共享型镜像磁盘资源属性]-[详细]标签页设置。详细内容请参考《参考指南》的"组资源的详细信息"。

9

在集群属性、 端口号(日志)的标签中,将[日志的通信方式]选为 [UDP],使用在端口号中设定的端口号。日志的通信方法[UNIX Domain] 默认为不使用通信端口。

10(1,2,3,4)

JVM监视资源使用以下的4个端口号。

  • 管理端口号为JVM监视资源内部用的端口号。可在Cluster WebUI的[集群属性]-[JVM监视]标签页[连接设置] 对话框上进行设置。有关详情,请参阅《参考指南》的"参数的详细信息"。

  • 连接端口号为与监视目标(WebLogic Server, WebOTX)的Java VM建立连接的端口号。可在Cluster WebUI的相应的JVM监视资源名的[属性]-[监视(固有)]标签页上进行设置。有关详情,请参阅《参考指南》的"监视资源的详细信息"。

  • 负载均衡器联动管理端口号为进行负载均衡器联动时使用的端口号。不使用负载均衡器联动时,不需要进行设置。可在Cluster WebUI的[集群的属性]-[JVM监视]标签页[负载均衡器联动設定] 对话框上进行设置。有关详情,请参阅《参考指南》的"参数的详细信息"。

  • 通信端口号为通过BIG-IP LTM进行负载均衡器联动时使用的端口号。不使用负载均衡器联动时,不需要进行设置。可在Cluster WebUI的[集群的属性]-[JVM监视]标签页[负载均衡器联动設定] 对话框上进行设置。有关详情,请参阅《参考指南》的"参数的详细信息"。

11(1,2,3)

负载均衡器进行各服务器的死活监视时所使用的端口号。

12

对于AWS Elastic IP资源、AWS虚拟IP资源、AWS DNS资源、AWS Elastic IP监视资源、AWS虚拟IP监视资源、AWS AZ监视资源、AWS DNS监视资源,执行AWS CLI。AWS CLI中使用上述端口。

13

对于Azure DNS 资源,执行Azure CLI。Azure CLI中使用上述端口。

6.3.2. 更改通信端口号的自动分配的范围

  • OS所管理的通信端口号的自动分配的范围有可能与EXPRESSCLUSTER所使用的通信端口号重复。

  • 通信端口号的自动分配的范围与EXPRESSCLUSTER所使用的通信端口号重复时,请更改OS的设置使通信端口号不重复。

OS的设置状态的确认例/显示例

通信端口号的自动分配的范围需依靠Distribution。

# cat /proc/sys/net/ipv4/ip_local_port_range
1024 65000

如上是应用程序向OS请求通信端口号的自动分配时,被分配到1024~65000的范围内的状态。

# cat /proc/sys/net/ipv4/ip_local_port_range
32768 61000

如上是应用程序向OS请求通信端口号的自动分配时,被分配到32768~61000的范围内的状态。

更改OS设置例

在/etc/sysctl.conf 增加如下所示的一行。(更改为30000~65000时)

net.ipv4.ip_local_port_range = 30000 65000

此设置要在OS重启后才能变为有效。

修改/etc/sysctl.conf之后,通过执行以下的命令可以实现即时反映。

# sysctl -p

6.3.3. 关于避免端口数不足的设置

EXPRESSCLUSTER的构成中使用了多个服务器、多个资源时,EXPRESSCLUSTER的内部通信所使用的临时端口不足,作为集群服务器可能不能正常运行。
必要时请调整临时端口的可用范围和释放临时端口所需的时间。

6.3.4. 时钟同步的设置

建议在集群系统上定期进行多个服务器的时钟同步。请使用ntp等同步服务器的时间。

6.3.5. 关于NIC设备名

根据ifconfig命令的规则,若NIC设备名被缩短,则EXPRESSCLUSTER所处理的NIC设备名的长短也需要相应变更。

6.3.6. 关于共享磁盘

  • 重新安装服务器等、继续使用共享磁盘上的数据时,请不要进行确保分区和创建文件系统。

  • 如果进行分区确保和文件系统的创建,共享磁盘上的数据将被删除。

  • 共享磁盘上的文件系统由EXPRESSCLUSTER控制。请不要将共享磁盘的文件系统登录到OS的/etc/fstab中。
    (需要登录/etc/fstab时,请不要使用ignore参数,而是使用noauto参数)
  • 共享磁盘的设置步骤请参考《安装&设置指南》。

6.3.7. 关于镜像用磁盘

  • 设置镜像磁盘资源管理用分区(集群分区)和镜像磁盘资源使用的分区(数据分区)。

  • 镜像磁盘上的文件系统由EXPRESSCLUSTER控制。请不要将镜像磁盘的文件系统登录到OS的/etc/fstab中。
    (请不要将镜像分区设备以及镜像的mount point、镜像分区以及数据分区登录到OS 的/etc/fstab。)
    (也不要登录到带ignore参数的 /etc/fstab中。
    在ignore登录时,mount的执行时登录会被忽视,在fsck执行时有可能发生错误。)

    (此外,在noauto 参数登录到/etc/fstab时,也有可能错误地进行手动mount,或不能排除因某种应用程序而进行mount的可能性,因此不推荐这种操作方法。)

  • 镜像磁盘的设置步骤请参考《安装&设置指南》。

6.3.8. 关于共享型镜像磁盘资源用磁盘

  • 设置共享型镜像磁盘资源管理用分区(集群分区)和共享型镜像磁盘资源使用的分区(数据分区)。

  • 使用共享磁盘装置确保共享型镜像磁盘时,确保通用共享磁盘装置的服务器间的磁盘心跳资源用分区。

  • 共享型镜像磁盘上的文件系统由EXPRESSCLUSTER控制。请不要将共享型镜像磁盘的文件系统登录到OS的/etc/fstab中。
    (请不要将镜像分区设备以及镜像的mount point、镜像分区以及数据分区登录到OS 的/etc/fstab。)
    (也不要登录到带ignore参数的 /etc/fstab中。
    在ignore登录时,mount的执行时登录会被忽视,在fsck执行时有可能发生错误。)
    (此外,在noauto 参数登录到/etc/fstab时,也有可能错误地进行手动mount,或不能排除因某种应用程序而进行mount的可能性,因此不推荐这种操作方法。)
  • 共享型镜像磁盘用磁盘的设置步骤请参考《安装&设置指南》。

  • 在本系统内,必须手动在共享型镜像磁盘所使用的数据分区上设置文件系统。忘记设置时,请参照《安装&设置指南》的"确定系统配置 配置硬件后的设置"。

6.3.9. 在镜像磁盘资源、共享型磁盘资源使用ext3或者ext4时

6.3.9.1. 关于Block size

对于镜像磁盘资源或者共享性磁盘资源的数据分区,手动执行mkfs命令,构建ext3或者ext4文件系统时,请不要将Block size指定为1024。

镜像磁盘资源以及共享型磁盘资源不支持Block size 1024。要明确指定Block size时,请指定2048或者4096。

6.3.9.2. 关于feature

对于镜像磁盘资源或者共享性磁盘资源的数据分区,手动执行mkfs命令,构建ext3或者ext4文件系统时,请禁用以下3种feature。

feature

对应文件系统

说明

uninit_bg

ext4

重新使用曾经使用过的磁盘时,启用该feature则初始镜像构建和全面镜像恢复所需要的时间会比实际磁盘使用的时间更长。

64bit

ext4

镜像磁盘资源以及共享型磁盘资源不支持该feature。

meta_bg

ext3, ext4

镜像磁盘资源以及共享型磁盘资源不支持该feature。

关于具体的情况请执行以下mkfs(ext4时)。

RHEL7,Asianux Server 7,SLES 12, Oracle Linux 7,Ubuntu, Amazon Linux 2的OS的情况:
mkfs -t ext4 -O -64bit,-uninit_bg {分区设备}
上述之外的OS时(RHEL6等):
mkfs -t ext4 -O -uninit_bg {分区设备}

feature可以通过mkfs命令的 -O 参数明确指定为有效/无效。

64位feature仅存在于一部分操作系统中(上述的RHEL7, Asianux Server7 等),默认值为"有效",因此使用这些操作系统时,请如上所述,明确地禁用feature。除此之外的操作系统中,由于本身没有64位feature,因此不需要指定。

由于uninit_bg feature的默认值为"有效",因此请明确禁用。

由于meta_bg feature的默认值为"无效",因此不需要明确指定。

此外,满足以下任意条件时,需要做上述的处理。

  • 在镜像磁盘资源设置中关闭了[执行初始mkfs]时。

  • 共享型镜像磁盘时。

在ext4中启用64位时,初始镜像构建和全面镜像恢复会出错,并且将下面的消息记录到SYSLOG中。

kernel: [I] <type: liscal><event: 271> NMPx FS type is EXT4 (64bit=ON, desc_size=xx).
kernel: [I] <type: liscal><event: 270> NMPx this FS type (EXT4 with 64bit option) is not supported for high speed full copy.

同样的,启用meta_bg 时,初始镜像构建和全面镜像恢复会出错,并且将下面的消息记录到SYSLOG中。

(ext4时)

kernel: [I] <type: liscal><event: 270> NMPx this FS type (EXT4 with meta_bg option) is not supported for high speed full copy.

(ext3时)

kernel: [I] <type: liscal><event: 270> NMPx this FS type (EXT3 with meta_bg option) is not supported for high speed full copy.

6.3.10. OS启动时间的调整

请将从开启电源到OS启动为止的时间,调整为超过如下2种时间的长度。

  • 使用共享磁盘时,从接通磁盘的电源到可以使用的时间

  • 心跳超时时间

    设置步骤请参考《安装&设置指南》。

6.3.11. 网络的确认

  • 用心跳线和镜像数据传输线确认要使用的网络。请在集群内的所有服务器上确认。

  • 设置步骤请参考《安装&设置指南

6.3.12. 关于OpenIPMI

  • 在以下功能中使用OpenIPMI。

  • 组资源激活异常时/非激活异常时的最终运行

  • 监视资源异常时的运行

  • 用户空间监视资源

  • 关机监视

  • 物理机的强制停止功能

  • 机箱ID指示灯联动

  • 在EXPRESSCLUSTER中没有附加OpenIPMI。用户请另行自行安装OpenIPMI的 rpm 文件。

  • 对于能否支持已经预定要使用的服务器(硬件)的OpenIPMI的问题,请用户提前进行确认。

  • 即使在作为硬件依据IPMI规格标准时,由于实际上OpenIPMI有时不运行,因此请多加注意。

  • 使用服务器厂商所提供的服务器监视软件时,请不要选择IPMI作为用户空间监视资源和Shutdownstall监视的监视方法。
    由于这些服务器监视软件和OpenIPMI共同使用服务器上的BMC(Baseboard Management Controller),因此会发生冲突,令监视无法正常进行。

6.3.13. 关于用户空间监视资源,关机监视(监视方法softdog)

  • 监视方法中设置为softdog时,请使用softdog驱动。
    在EXPRESSCLUSTER以外使用softdog驱动的功能请设置为不运行。
    例如:确认了相应的以下那样的功能。
    • OS标准附带的heartbeat

    • i8xx_tco驱动

    • iTCO_WDT驱动

    • systemd 的watchdog功能,关机监视功能。

  • 监视方法中设置为softdog时,请设置为不运行OS标准附带的heartbeat。

  • 在SUSE LINUX 11中,监视方法设为softdog时,无法与i8xx_tco驱动同时使用。不使用i8xx_tco驱动时,请设置为不装载i8xx_tco。

  • Red Hat Enterprise Linux 6时,监视方法里设置了softdog的场合,不能同时使用iTCO_WDT驱动。不使用iTCO_WDT时,请设定为不Load iTCO_WDT。

6.3.14. 关于收集日志

  • 在SUSE LINUX 10/11中,使用EXPRESSCLUSTER的日志收集功能获取OS的syslog时,由于被rotate了的syslog(message)文件的suffiies不同,因此syslog的世代的指定功能无法运行。若要指定日志收集功能的syslog的世代,则需要将syslog的rotate的设置作如下修改在进行应用。

  • 注释掉 /etc/logrotate.d/syslog文件的compress和dateext

  • 各服务器中日志的总大小超出2GB时,有时会导致日志收集失败。

6.3.15. 关于nsupdate、nslookup

  • 下列功能使用nsupdate和nslookup。

    • 组资源的动态域名解析资源 (ddns)

    • 监视资源的动态域名解析监视资源 (ddnsw)

  • EXPRESSCLUSTER中未附带nsupdate及nslookup。请用户另行自行安装nsupdate及nslookup的 rpm 文件。

  • 本公司不负责与nsupdate、nslookup相关的以下事项。请用户在自行判断、自负责任的基础上再予以使用。

    • 对nsupdate、nslookup 本身的相关咨询

    • nsupdate、nslookup的运行保证

    • nsupdate、nslookup的问题解决及由此引发的故障

    • 对各服务器的nsupdate、nslookup的支持情况的咨询

6.3.16. 关于FTP监视资源

  • FTP服务器上登录的横幅通知、连接时的通知的文字列过长或者为复数行时,有可能出现监视异常。使用FTP监视资源监视时,请不要登录横幅通知、连接时的通知。

6.3.17. 使用Red Hat Enterprise Linux 7时的注意事项

  • 镜像磁盘资源/共享型镜像磁盘资源不支持ext4文件系统的64位feature以及meta_bg feature。手动执行mkfs时,请设置64位参数为无效后再执行。
    详情请参考"在镜像磁盘资源、共享型磁盘资源使用ext4时"
  • 邮件通报功能使用操作系统提供的[mail]命令。最小构成中由于未安装[mail]命令,请执行以下任意一项

    • 集群属性的[Alert服务]页中,[邮件发送方法]项设置为[SMTP]。

    • 安装mailx

6.3.18. 使用Ubuntu时的注意事项

  • 执行EXPRESSCLUSTER相关命令时,请由root用户执行。

  • 镜像磁盘资源/共享型镜像磁盘资源不支持ext4文件系统的64位参数。手动执行mkfs时,请设置64位参数为无效后再执行
    详情请参考"在镜像磁盘资源、共享型磁盘资源使用ext4时"
  • Application Server Agent只支持Websphere监视。因为其他应用服务器不支持Ubuntu

  • 邮件通报功能使用操作系统提供的[mail]命令。最小构成中由于未安装[mail]命令,请执行以下任意一项

    • 集群属性的[Alert服务]页中,[邮件发送方法]项设置为[SMTP]。

    • 安装mailx

  • 不执行根据SNMP取得信息功能

6.3.19. AWS环境中的时刻同步

AWS Elastic IP资源、AWS虚拟IP资源、AWS DNS资源、AWS Elastic IP监视资源、AWS虚拟IP监视资源、AWS AZ监视资源、AWS DNS监视资源在激活时/非激活时/监视时执行AWS CLI。
实例的日期和时间设置不正确时,执行AWS CLI失败,可能会输出「Failed in the AWS CLI command. 」的信息。这是AWS的式样。
这时,请正确设置实例的日期和时间,根据NTP等取得时刻同步。关于具体内容请参考「Linux实例的时刻设置」

6.3.20. 关于AWS环境中IAM的设置

说明关于AWS环境中IAM (Identity & Access Management)的设置。
AWS虚拟IP资源等资源以及监视资源,应处理要求在内部执行AWS CLI。为了能正常执行AWS CLI,需要事先对IAM进行设置。
作为可访问AWS CLI的方法,存在使用IAM角色的方针和使用IAM用户的方针2种。基本上由于在各实例上不需要保存AWS Access Key ID,和AWS Secret Key,从安全性提高上推荐使用前者的IAM角色的方针。

各个方针的优缺点如下所示。

优点

缺点

使用IAM角色方针
安全性高
Key信息的管理简单
由于IAM角色不能变更,之后不能设置实例别的访问权限。
使用IAM用户方针
之后可设置实例别的访问权限
泄露key信息的风险高
Key信息的管理繁杂

IAM的设置步骤如下所示。

IAM policy的创建

创建policy,该policy记载了针对AWS的EC2和S3等的服务的动作的访问许可。EXPRESSCLUSTER的AWS关联资源以及监视资源执行AWS CLI所允许的必要的动作如下所示。

必要的policy有可能将来被变更。

  • AWS虚拟IP资源/AWS虚拟IP监视资源

    动作

    说明

    ec2:DescribeNetworkInterfaces
    ec2:DescribeVpcs
    ec2:DescribeRouteTables

    取得VPC、路由表、网络接口的信息时必需。

    ec2:ReplaceRoute

    更新路由表时必需。

  • AWS Elastic IP资源/AWS Elastic IP监视资源

    动作

    说明

    ec2:DescribeNetworkInterfaces
    ec2:DescribeAddresses

    取得EIP、网络接口的信息时必需。

    ec2:AssociateAddress

    将EIP分配到ENI时必需。

    ec2:DisassociateAddress

    将EIP从ENI分离时必需。

  • AWS AZ监视资源

    动作

    说明

    ec2:DescribeAvailabilityZones

    取得可用区的信息时必需。

  • AWS DNS资源/AWS DNS监视资源

    动作

    说明

    route53:ChangeResourceRecordSets

    追加、删除资源记录集、更新设置内容时必需。

    route53:ListResourceRecordSets

    取得资源记录集信息时必需。

以下的自定义policy的例子是许可全部AWS关联资源以及监视资源所使用的动作。

{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Action": [
                "ec2:Describe*",
                "ec2:ReplaceRoute",
                "ec2:AssociateAddress",
                "ec2:DisassociateAddress",
                "route53:ChangeResourceRecordSets",
                "route53:ListResourceRecordSets"
            ],
            "Effect": "Allow",
            "Resource": "*"
        }
    ]
}

通过IAM Management Console的[Policies] - [Create Policy]可创建自定义policy。

实例的设置-使用IAM角色

通过创建IAM角色并赋给实例从而使AWS CLI可执行的方法。

  1. 创建IAM角色。在创建的角色上附加IAM policy。

    通过IAM Management Console的[Roles] - [Create New Role]可创建IAM角色。

  2. 创建实例时,指定[IAM Role]上做成的IAM角色。

  3. 登录实例。

  4. 安装Python。
    安装EXPRESSCLUSTER必需的Python。首先确认是否已安装Python。未安装时,通过yum命令等安装。Python命令的安装路径需要设定成以下的任意一个。环境变量PATH中,使用首次发现的python命令。

    /sbin、/bin、/usr/sbin、/usr/bin

    只安装了Python3, /usr/bin/python 不存在时,请对于/usr/bin/python3.x (x为版本)或者 /usr/bin/python3 创建 /usr/bin/python 的符号链接。
  5. 从shell执行pip命令,安装AWS CLI。

    $ pip install awscli
    
    关于pip命令的详细信息请参考如下。
    AWS CLI的安装路径必须为以下之一。
    /sbin、/bin、/usr/sbin、/usr/bin、/usr/local/bin
    关于AWS CLI的更新方法详情请参考如下。

    (安装Python或AWS CLI时已经安装了EXPRESSCLUSTER时,请重启OS再执行EXPRESSCLUSTER的操作。)

  6. 从shell执行以下的命令。

    $ sudo aws configure
    

    针对提问输入执行AWS CLI所必需的信息。请注意不要输入AWS Access ID、AWS Secret Access Key。

    AWS Access Key ID [None]: (只按Enter键)
    AWS Secret Access Key [None]: (只按Enter键)
    Default region name [None]: <默认的区域名>
    Default output format [None]: text
"Default output format"可以指定为"text"之外的格式。
如果内容设置错误时,删除/root/.aws目录后,再重新执行上述操作。

实例的设置–使用IAM用户

创建IAM用户,通过将Access ID、Secret Access Key保存在实例内部使AWS CLI能够执行的方法。实例创建时不需要IAM角色的授予。

  1. 创建IAM用户。在创建的用户上附加IAM policy。
    通过IAM Management Console的[Users] - [Create New Users] 可创建IAM用户。
  2. 登录实例。

  3. 安装Python。
    安装EXPRESSCLUSTER必需的Python。首先确认是否已安装Python。如果没有安装,通过yum命令等进行安装。
    python命令的安装路径需要是以下的任意一个。环境变量PATH中,使用首次发现的python命令。

    /sbin、/bin、/usr/sbin、/usr/bin

    只安装了Python3, /usr/bin/python 不存在时,请对于/usr/bin/python3.x (x为版本)或者 /usr/bin/python3 创建 /usr/bin/python 的符号链接。
  4. 从shell执行pip命令,安装AWS CLI。

    $ pip install awscli
    
    关于pip命令的详细信息请参考如下。
    AWS CLI的安装路径必须为以下之一。
    /sbin、/bin、/usr/sbin、/usr/bin、/usr/local/bin
    关于AWS CLI 的安装方法,详情请参考下述。

    (安装Python或AWS CLI时已经安装了EXPRESSCLUSTER时,请重启OS再执行EXPRESSCLUSTER的操作。)

  5. 从shell执行以下的命令。

    $ sudo aws configure
    

    针对提问输入执行AWS CLI所必需的信息。AWS Access ID、AWS Secret Access Key处输入从已创建的IAM用户的详细信息画面取得的内容。

    AWS Access Key ID [None]: <AWS Access Key >
    AWS Secret Access Key [None]: <AWS Secret Access Key >
    Default region name [None]: <默认的区域名>
    Default output format [None]: text
    "Default output format"可以指定为"text"之外的格式。
    如果内容设置错误时,请将/root/.aws目录删除后再重新执行上述操作。

6.3.21. 关于Azure DNS资源

  • 安装Azure CLI、服务主体创建的步骤请参考《EXPRESSCLUTER X Microsoft Azure HA 集群构筑指南 (Linux 版)》。

  • 为了利用Azure DNS资源,需要安装Azure CLI和Python。Python与Redhat Enterprise Linux/Cent OS等操作系统是捆绑在一起的。关于Azure CLI的具体内容,请参考以下Web站点。

    Microsoft Azure的文档:
  • 为了利用Azure DNS资源,需要Azure DNS的服务。关于Azure DNS的具体内容,请参考以下Web站点。

  • EXPRESSCLUTER为了和Microsoft Azure联动,需要Microsoft Azure的组织账户。组织账户以外的账户在Azure CLI运行时需要对话形式的登录,因此不能使用。

  • 使用Azure CLI,需要创建服务主体。
    Azure DNS资源是登录到Microsoft Azure,执行对DNS区域的登记。登录到Microsoft Azure时,利用通过服务主体的Azure登录。
    关于服务主体和具体步骤,请参考以下的Web站点。
    创建出服务主体的角色由默认的Contributor(共同创造者)改为别的角色时,作为Actions 属性,请选择拥有以下的全部操作的访问权的角色。
    如果改变为不满足该条件的角色时,启动Azure DNS 资源就会发生错误而失败。

    Azure CLI 1.0时

    Microsoft.Network/dnsZones/read
    Microsoft.Network/dnsZones/A/write
    Microsoft.Network/dnsZones/A/read
    Microsoft.Network/dnsZones/A/delete
    Microsoft.Network/dnsZones/NS/read

    Azure CLI 2.0 时

    Microsoft.Network/dnsZones/A/write
    Microsoft.Network/dnsZones/A/delete
    Microsoft.Network/dnsZones/NS/read
  • 不支持Azure私有DNS。

6.3.22. 关于Samba监视资源

  • Samba监视资源为了支持SMB协议版本2.0以上的版本,支持NTLM认证、支持SMB署名,使用内部版本4.1.0-1共享库的libsmbclient.so.0。由于libsmbclient.so.0包含在libsmbclient 包中,所以请确认是否已安装。

  • Libsmbclient的版本为3以下时(例.捆绑在RHEL 6中的libsmbclient.so),[端口号]只能指定139或者445。请指定包含在smb.conf的smb ports中的端口号。

  • Samba监视资源支持的SMB协议的版本依赖于已安装的libsmbclient中。可以尝试用各Distributor提供的smbclient命令连接共享监视对象,来确认libsmbclient是否支持。

6.3.23. 关于HTTP网络分区解决资源、Witness心跳资源

  • 在HTTP 网络分区解决资源、Witness 心跳资源中使用SSL时,使用OpenSSL 1.0/1.1。默认使用的库如下。
    • libssl.so.10 (安装ExpressCluster rpm数据包时)

    • libssl.so.1.0.0 (安装EXPRESSCLUSTER deb数据包后)

    要更改要使用的库时,请在集群属性的加密标签页中设置[SSL库]和[Crypto库]。

6.4. 创建EXPRESSCLUSTER的信息时

下文将阐述设计和创建EXPRESSCLUSTER构筑信息之前,需要依照系统构筑确认和注意的事项。

6.4.1. 有关EXPRESSCLUSTER安装路径下的目录、文件

除了EXPRESSCLUSTER本身外,请不要对EXPRESSCLUSTER安装路径下的目录或文件进行操作(编辑/创建/添加/删除等)。
EXPRESSCLUSTER以外对目录或文件进行操作时的影响不在售后支持范围内。

6.4.2. 环境变量

在环境变量被设为大于256个的环境中,无法执行下列处理。若使用下列功能或资源,请将环境变量设为小于255个。

  • 组启动/停止处理

  • Exec资源激活/非激活时执行的开始/停止脚本

  • 自定义监视器资源在监视时执行的脚本

  • 组资源、监视器资源异常被查出时最终操作执行前脚本

  • 组资源的激活/非激活前后执行的脚本

  • 强制停止脚本

注解

请将系统设定的环境变量和EXPRESSCLUSTER设定的环境变量之总和设定在255个以下。EXPRESSCLUSTER设定的环境变量约为30个。

6.4.3. 强制停止功能和机体ID指示灯的联动

使用强制停止功能和机体ID指示灯联动时,必须设置各服务器的BMC IP地址、用户名、密码。用户名请务必设置登录了密码的用户名。

6.4.4. 服务器的Reset、Panic、Power off

EXPRESSCLUSTER执行"Server reset"或"Server panic"或"Server power off"时,服务器不能被正常关闭。所以会有以下风险。

  • 对mount中的文件系统造成损坏

  • 丢失未保存的数据

  • OS dump 收集中断

发生"Server reset"或"Server panic"的设置如下。

  • 组资源激活时/非激活时异常的处理

    • sysrq panic

    • keepalive reset

    • keepalive panic

    • BMC reset

    • BMC poweroff

    • BMC cycle

    • BMC NMI

    • I/O Fencing(High-End Server Option)

  • 监视资源查出异常的最终运行

    • sysrq panic

    • keepalive reset

    • keepalive panic

    • BMC reset

    • BMC poweroff

    • BMC cycle

    • BMC NMI

    • I/O Fencing(High-End Server Option)

  • 用户空间监视查出超时的处理

    • 监视方法 softdog

    • 监视方法 ipmi

    • 监视方法 ipmi(High-End Server Option)

    • 监视方法 keepalive

    注解

    "Server panic"仅在监视方法为KeepAlive时才可以设置。

  • Shutdown stall监视

    • 监视方法 softdog

    • 监视方法 ipmi

    • 监视方法 ipmi(High-End Server Option)

    • 监视方法 keepalive

    注解

    "Server panic"仅在监视方法为keepalive时才可以设置。

  • 强制停止功能的操作

    • BMC reset

    • BMC poweroff

    • BMC cycle

    • BMC NMI

    • VMware vSphere poweroff

6.4.5. 组资源非激活异常时的最终运行

查出非激活异常时,对最终运行选择[无操作],则组将在激活失败的状态下停止。在正式的运行环境下,请不要设置为[无操作]。

6.4.6. 确认VxVM使用的RAW设备

请提前调查卷RAW设备的物理RAW设备。

  1. 在安装EXPRESSCLUSTER前,导入在单方服务器上可以激活的所有磁盘组,将所有卷调整到启动状态。

  2. 执行如下命令。

    # raw –qa
    /dev/raw/raw2: bound to major 199, minor 2
    /dev/raw/raw3: bound to major 199, minor 3
    

    例)磁盘组名和卷名分别为如下情况时

    • 磁盘组名为dg1

    • dg1目录下的卷名为 vol1、vol2

  3. 执行如下命令。

    # ls -l /dev/vx/dsk/dg1/
    brw------- 1 root root 199, 2 May 15 22:13 vol1
    brw------- 1 root root 199, 3 May 15 22:13 vol2
    
  4. 确保 2) 和 3) 的主/副编号相同。

经此确认的RAW设备 1) 请绝勿设置在EXPRESSCLUSTER的磁盘心跳资源、磁盘类型非[VxVM]的磁盘资源、监视方法非READ (VxVM)的磁盘监视资源中。

6.4.7. 关于镜像磁盘的文件系统的选择

当前,运行确认完毕的文件系统如下。

  • ext3

  • ext4

  • xfs

  • reiserfs

  • jfs

  • vxfs

  • none(无文件系统)

6.4.8. 关于共享型镜像磁盘的文件系统的选择

当前,运行确认完毕的文件系统如下。

  • ext3

  • ext4

  • xfs

  • reiserfs

  • none(无文件系统)

6.4.9. 关于使用镜像磁盘、共享型磁盘时的监视资源的运行设置

在使用镜像磁盘、共享型磁盘系统中,不要将监视资源等的最终运行设置为「停止集群服务」。
如果在镜像Agent启动的状态下只停止集群服务,就有可能使共享型磁盘的控制、镜像磁盘的状态获取失败。

6.4.10. 关于多定义镜像磁盘时的单体服务器的启动时间

多定义镜像磁盘资源的个数,将「启动服务器时等待其他服务器启动的时间」设置的比较短时,如果启动单体服务器,启动镜像代理就可能花费较多的时间,且镜像磁盘资源、镜像磁盘服务器的监视资源等可能不能正常启动。

如果启动单体服务器时进入上述的状态,请将同步等待监视([集群的属性] - [超时] 标签页 - [同步等待时间] 中设置)的值替换为较大的值进行设置变更。

6.4.11. 关于磁盘监视资源的RAW监视

  • 设置磁盘监视资源的RAW监视时,无法监视已经mount的分区或可以mount的分区。另外,不能将设备名设置为已经mount的分区或可以mount的分区的whole device(显示磁盘整体的设备)进行监视。

  • 请准备监视专用的分区,将其设置到磁盘监视资源的RAW监视内。

6.4.12. 迟延警告比例

将迟延警告比例设置为0或100时,可以进行如下操作。

  • 将迟延警告比例设置为0时
    每次执行监视都会通报迟延警告。
    可利用该功能计算出服务器在高负荷状态下监视资源的监视时间,从而决定监视资源的监视超时时间。
  • 将迟延警告比例设置为100时
    迟延警告将不发出通报。

除了测试运行以外,请不要将值设置为诸如0%之类的低值。

6.4.13. 关于磁盘监视资源的监视方法TUR

  • 不能在不支持SCSI的Test Unit Ready命令或SG_IO命令的磁盘、磁盘接口(HBA)上使用。
    有时硬件支持但驱动程序不支持,所以请结合驱动程序的规格进行确认。
  • 根据磁盘控制器的类型或使用版本的不同,OS可能将S-ATA接口磁盘视为IDE接口的磁盘(hd),也可能视为SCSI接口的磁盘(sd)。
    被视为IDE接口时,所有TUR方式将无法使用。
    被视为SCSI接口时,TUR(legacy)和TUR(generic)不能使用。
  • 与read方式相比,对OS和磁盘的负荷较小。

  • 有时用Test Unit Ready不能查出物理媒介的I/O错误。

6.4.14. 关于LAN心跳的设置

  • 至少需要设置1个LAN心跳资源或1个内核模式LAN心跳资源。

  • 建议将心跳线专用LAN作为LAN心跳资源登录,进而将公网也作为LAN心跳资源登录(建议设置2个以上LAN心跳资源)。

  • 在使用共享型镜像磁盘资源的情况下请不要使用服务器宕机通知

6.4.15. 关于内核模式LAN心跳的设置

  • 至少需要设置1个LAN心跳资源或1个内核模式LAN心跳资源。

  • 建议对内核模式LAN心跳可用版本的内核并用内核模式LAN心跳。

6.4.16. 关于COM心跳的设置

  • 为防止网络中断时双方机器都被激活,建议在可以使用COM的环境下使用COM心跳资源。

6.4.17. 关于BMC心跳的设置

  • BMC的硬件和固件需要对应BMC心跳。

6.4.18. 关于BMC监视器资源的设置

  • BMC的硬件和固件需要对应BMC心跳。

6.4.19. 关于能用于脚本注释等的2字节系字符编码

  • 在EXPRESSCLUSTER中,Linux环境下编辑的脚本作为EUC使用,而Windows环境下编辑的脚本则作为Shift-JIS使用。如使用其他字符编码,可能因环境不同而出现乱码的情况。

6.4.20. 关于虚拟机组的失效切换互斥属性的设置

  • 请不要向排他规则里追加设置在虚拟机组内的组。

6.4.21. 关于系统监视器资源的设置

  • 资源监视器的监测模式
    System Resource Agent通过「最多次数」和「监视持续时间」两个参数的组合进行检测。
    通过继续收集各系统资源(打开文件数、用户访问数、线程数、内存使用量、CPU 使用率、虚拟内存使用量),当一定时间内(指定为持续时间的时间)超过最多次数时,就会检测出异常。

6.4.22. 关于消息接收监视器资源的设定

  • 向消息接收监视器资源通知异常时有3个方法。使用[clprexec] 命令的方法、使用BMC 联动功能的方法和使用服务器管理平台整合功能的方法。

  • 使用[clprexec]命令时,请使用与EXPRESSCLUSTER CD同箱捆包的文件。请根据通知源的服务器的OS和架构来适当使用。并且,通知源服务器和通知目标服务器要处于可通信状态。

  • 使用BMC联动功能时,需要BMC的硬件和固件可支持此功能。并且,需要将从BMC的管理用IP地址到OS 的IP地址保持一个可以通信的状态。

  • 关于服务器管理平台整合功能,请参考《硬件整合指南》的"与服务器管理基础设施的整合"。

6.4.23. 关于JVM监视器的设定

  • 监视目标为WebLogic Server时,对于JVM监视器资源的设定值,由于系统环境(内存搭载量等)的原因,设定范围的上限值可能会受到限制。

    • [监视Work Manager的要求]-[要求数]

    • [监视Work Manager的要求]-[平均值]

    • [监视线程Pool的要求]-[待机要求 要求数]

    • [监视线程Pool的要求]-[待机要求 平均值]

    • [监视线程Pool的要求]-[执行要求 要求数]

    • [监视线程Pool的要求]-[执行要求 平均值]

  • 监视目标的JRockit JVM 为64bit 版时,从JRockit JVM获取的各最大储存量会减少,致使不能计算出使用率,因此不能对以下的参数进行监视。

    • [监视堆使用率]- [领域整体]

    • [监视堆使用率]- [Nursery Space]

    • [监视堆使用率]- [Old Space]

    • [监视非堆使用率]- [领域整体]

    • [监视非堆使用率]- [ClassMemory]

  • 要使用JVM监视资源,请安装"4. EXPRESSCLUSTER的运行环境"的"JVM监视的运行环境"中记载的JRE(Java Runtime Environment)。可与使用监视对象(WebLogic Server和WebOTX)的JRE在相同的项目中使用,也可使用在其他项目。

  • 监视资源名中不要含空白字符。

  • 检测出异常时,不能并用为了按照故障原因而执行命令的[命令]和负载均衡器联动功能。

6.4.24. 关于使用卷管理器资源时的EXPRESSCLUSTER的启动处理

  • EXPRESSCLUSTER启动时,卷管理器为lvm时通过vgchange命令进行非激活处理,为vxvm时进行deport处理,因此系统的启动有可能比较费时。如有问题时,可按照如下对EXPRESSCLUSTER本体的启动/停止脚本进行编辑。

    • init.d环境时,请将/etc/init.d/clusterpro按照如下进行编辑。

    • systemd环境时,请将/opt/nec/clusterpro/etc/systemd/clusterpro.sh按照如下进行编辑。

6.4.25. 关于AWS Elastic IP资源的设置

  • 不支持IPv6。

  • 在AWS环境下,不能利用浮动IP资源、浮动IP监视资源、虚拟IP资源和虚拟IP监视资源。

  • AWS Elastic IP资源不支持ASCII字符以外的字符。请确认以下命令的执行结果中不包含ASCII字符以外的字符。

    aws ec2 describe-addresses --allocation-ids <EIP ALLOCATION ID>

6.4.26. 关于AWS虚拟IP资源的设置

  • 不支持IPv6。

  • 在AWS环境下,不能利用浮动IP资源、浮动IP监视资源、虚拟IP资源和虚拟IP监视资源。

  • AWS虚拟IP资源不支持ASCII字符以外的字符。请确认以下命令的执行结果中不包含ASCII字符以外的字符。

    aws ec2 describe-vpcs --vpc-ids <VPC ID>
    aws ec2 describe-route-tables --filters Name=vpc-id,Values=<VPC ID>
    aws ec2 describe-network-interfaces --network-interface-ids <ENI ID>
  • 在需要经由VPC-Peering连接的访问时,不能利用AWS虚拟IP资源。这是因为作为VIP使用的IP地址是在VPC范围之外的前提,这样的IP地址在VPC-Peering连接中被视为无效。需要经由VPC-Peering连接的访问时,请使用利用了Amazon Route 53的AWS DNS资源。

  • 在使用实例的路由表中,即使没有定义使用虚拟IP的IP地址和ENI,AWS虚拟IP资源也能正常启动。这是规定好的。在激活AWS虚拟IP资源时,仅更新存在指定IP地址条目的路由表内容。即使没有找到任何一个路由表,也会因为没有更新目标而被判断为正常。由于该条目是否必须要存在于哪个路由表,是由系统配置决定的,因此,不作为检查AWS虚拟IP资源正常性的目标。

6.4.27. 关于AWS DNS资源的设置

  • 不支持IPv6。

  • 在AWS 环境下,不能利用浮动 IP 资源、浮动IP监视资源、虚拟IP资源、虚拟IP监视资源。

  • 如果[资源记录集名称]中包含转义码,则为监视异常。请设置不含转义码的[资源记录集名称]。

  • 激活AWS DNS资源后,它不会等待DNS配置更改传播到所有Amazon Route 53 DNS服务器。 这是因为,根据Route 53的规范,将资源记录集更改应用于整个过程需要花费时间。请参考"关于AWS DNS监视资源的设置"。

  • 由于AWS DNS资源绑定在一个账户上,因此,无法使用多个帐户、AWS访问ID、AWS秘密访问密钥。在这种情况下,请考虑使用通过EXEC资源执行AWS CLI的脚本。

6.4.28. 关于AWS DNS监视资源的设置

  • AWS DNS监视资源在监视时执行AWS CLI。执行AWS CLI的超时是利用在AWS DNS资源上设置的[AWS CLI超时]。

  • AWS DNS资源的激活后,根据以下的情况,AWS DNS监视资源的监视可能会失败。这时,请将AWS DNS监视资源的 [开始监视等待时间] 设置为比Amazon Route 53中DNS设定改变反映的时间更长的时间(https://aws.amazon.com/jp/route53/faqs/)。

    1. 激活AWS DNS 资源时,追加和更新记录集合。

    2. 反映Amazon Route 53中的DNS设置改变前,监视AWS DNS监视资源时就会由于不能进行域名解析而失败。在DNS解析器缓存有效的期间内、之后,监视AWS DNS监视资源也会失败。

    3. 反映Amazon Route 53中的DNS设置改变。

    4. 经过AWS DNS资源的 [TTL] 有效期,由于域名解析成功,监视AWS DNS监视资源成功。

6.4.29. 关于Azure 探头端口资源的设置

  • 仅支持由2个节点构成的资源。

  • 仅支持由数据镜像构成的资源。不支持由共享磁盘,混合磁盘构成的资源。

  • 不支持IPv6。

  • 在Microsoft Azure环境下,不能利用浮动IP资源、浮动IP监视资源、虚拟IP资源和虚拟IP监视资源。

6.4.30. 关于Azure负载均衡监视资源的设置

  • Azure负载均衡监视资源检测出异常时,Azure的负载均衡器的主服务器和备份服务器转换可能不能正确被执行。因此,建议设置Azure负载均衡监视资源的[最终动作]为[停止集群服务并关闭操作系统]。

6.4.31. 关于Azure DNS资源的设置

  • 仅可构建数据镜像。不支持共享型磁盘配置和混合型磁盘配置。

  • 不支持IPv6。

  • 在Microsoft Azure 环境下,不能利用浮动 IP 资源、浮动IP监视资源、虚拟IP资源、虚拟IP监视资源。

6.4.32. 关于Google Cloud 虚拟 IP 资源的设置

  • 仅支持由2个节点构成的资源。

  • 仅支持由数据镜像构成的资源。不支持由共享磁盘,混合磁盘构成的资源。

  • 不支持IPv6。

6.4.33. 关于Google Cloud 负载均衡监视资源的设置

  • 如果Google Cloud负载均衡监视资源检测到异常,则可能无法正确地从负载均衡器在运行系统和待机系统之间进行切换。因此,建议在Google Cloud负载均衡监视资源的[最终动作]中选择[停止集群服务停止和关闭操作系统]。

6.4.34. 关于Oracle Cloud 虚拟 IP 资源的设置

  • 仅支持由2个节点构成的资源。

  • 仅支持由数据镜像构成的资源。不支持由共享磁盘,混合磁盘构成的资源。

  • 不支持IPv6。

6.4.35. 关于Oracle Cloud 负载均衡监视资源的设置

  • 如果Oracle Cloud负载均衡监视资源检测到异常,则可能无法正确地从负载均衡器在运行系统和待机系统之间进行切换。因此,建议在Oracle Cloud负载均衡监视资源的[最终动作]中选择[停止集群服务停止和关闭操作系统]。

6.4.36. 使用集群资源iSCSI设备时的注意点

  • iSCSI服务启动后,到iSCSI设备能使用为止需要花费时间的环境时,有在iSCSI设备可使用前集群已启动的现象。
    这时,请在镜像代理的启动/停止脚本里追加如下的sleep。
    只有在init.d环境的情况下,追加如下的修正。systemd环境的情况下不需要追加。

    例)iSCSI服务启动后,到iSCSI设备能使用为止需要花费30秒时的修改例

    请在/etc/init.d/clusterpro_md里追加sleep 30。

6.4.37. 反映设置磁盘I/O闭塞时的注意点

  • 新建集群时,或者更改配置时更改磁盘I/O闭塞的设置之后执行配置信息的上传时,作为反映方法有时不显示"重启OS"。当更改了磁盘I/O闭塞的设置,为了使配置信息生效,请重启OS。

6.5. 操作EXPRESSCLUSTER后

请注意集群操作开始后的现象。

6.5.1. 关于udev等环境下的镜像驱动程序加载时的错误信息

在udev环境下加载镜像驱动程序时,messages文件有时会登入以下日志。

kernel: [I] <type: liscal><event: 141> NMP1 device does not exist. (liscal_make_request)
kernel: [I] <type: liscal><event: 141> - This message can be recorded on udev environment when liscal is initializing NMPx.
kernel: [I] <type: liscal><event: 141> - Ignore this and following messages 'Buffer I/O error on device NMPx' on udev environment.
kernel: Buffer I/O error on device NMP1, logical block 0
kernel: <liscal liscal_make_request> NMP1 device does not exist.
kernel: Buffer I/O error on device NMP1, logical block 112
此现象不属于异常。
udev等环境下如欲避免此出错信息输出时,请在/etc/udev/rules.d/目录下添加以下的设定文件。
但是,在Red Hat Enterprise Linux 7、Asianux Server 7等上,即使添加了设置文件,也有可能不能抑制出错信息的输出。

文件名:50-liscal-udev.rules

ACTION=="add", DEVPATH=="/block/NMP*",OPTIONS+="ignore_device"
ACTION=="add", DEVPATH=="/devices/virtual/block/NMP*", OPTIONS+="ignore_device"

6.5.2. 关于针对镜像分区设备的缓存I/O错误的日志

镜像磁盘资源或共享磁盘资源处于非激活的状态时,若访问镜像分区设备,则如下所示的日志会被记录到messages文件。

kernel: [W] <type: liscal><event: 144> NMPx I/O port has been closed, mount(0), io(0). (PID=*xxxxx*)
kernel: [I] <type: liscal><event: 144> - This message can be recorded on hotplug service starting when NMPx is not active.
kernel: [I] <type: liscal><event: 144> - This message can be recorded by fsck command when NMPx becomes active.
kernel: [I] <type: liscal><event: 144> - Ignore this and following messages 'Buffer I/O error on device NMPx' on such environment.

:

kernel: Buffer I/O error on device /dev/NMPx, logical block xxxx
kernel: [W] <type: liscal><event: 144> NMPx I/O port has been closed, mount(0), io(0). (PID=*xxxx*)

:

kernel: [W] <type: liscal><event: 144> NMPx I/O port has been closed, mount(0), io(0). (PID=*xxxx*)
kernel: <liscal liscal_make_request> NMPx I/O port is close, mount(0), io(0).
kernel: Buffer I/O error on device /dev/NMPx, logical block xxxx

(xxxxx中填入任意字符串)

其原因可想象为有以下的情形。
(之后,共享磁盘资源时,请将共享磁盘资源改读为共享型磁盘资源。)
  • 因udev环境而导致的

    • 在这种情况下,在镜像驱动程序加载时,与"kernel: Buffer I/O error on device /dev/NMPx, logical block xxxx"的消息一起,"kernel: [I] <type: liscal><event: 141>"的消息也会被记录。

    • 本消息并不表示属于异常,也不会影响到EXPRESSCLUSTER的运作。

    • 有关详情,请参阅本章的"关于udev等环境下的镜像驱动程序加载时的错误信息"。

  • 运行OS的信息收集命令(sosreport, sysreport, blkid 命令等)时

    • 在这种情况下,本消息并不表示属于异常,也不会影响到EXPRESSCLUSTER的运作。

    • 若运行OS所提供的信息收集命令,则访问OS所识别的设备。此时,也会访问非激活状态的镜像磁盘,其结果,上述的消息也会被记录。

    • 没有通过EXPRESSCLUSTER的设置等抑制此消息的方法。

  • 镜像磁盘的Unmount超时时

    • 在这种情况下,与提示镜像磁盘资源的Unmount超时的消息一起,此消息也会被记录。

    • EXPRESSCLUSTER会进行镜像磁盘资源的"查出非激活异常的恢复动作"。此外,文件系统有可能发生不一致。

    • 有关详情,请参阅本章的"因大量I/O而导致的缓存增大"。

  • 在镜像磁盘非激活食变为被Mount的状态的情况下

    • 在这种情况下,在以下的流程后,上述的消息会被记录。

      1. 镜像磁盘资源变为激活状态后,可通过用户或应用程序(NFS等),针对镜像分区的设备(/dev/NMPx)或镜像磁盘资源的Mount point内,会添加进行Mount。

      2. 之后,保持不Unmount在(1)所添加的Mount point的状态,将镜像磁盘资源置为非激活。

    • 虽不影响到EXPRESSCLUSTER的运作,但文件系统有可能发生不一致。

    • 有关详情,请参阅本章的"在镜像磁盘资源等进行复数的Mount时"。

  • 设置复数个镜像磁盘资源时

    • 设置2个以上的镜像磁盘资源时,因激活时的一部分分配的fsck的行为的不同,有可能输出上述的消息。

    • 有关详情,请参阅本章的"关于使用复数个镜像磁盘资源、共享型磁盘资源时的syslog消息"。

  • 其他,因被某种应用程序访问时

    • 上述以外的情形时,可想象某种应用程序想访问非激活状态的镜像磁盘资源。

    • 镜像磁盘资源处于未激活的状态下,不会影响到EXPRESSCLUSTER的运作。

6.5.3. 因大量I/O而导致的缓存增大

  • 若针对镜像磁盘资源或共享型磁盘资源进行超过磁盘性能的大量写入工作,即使镜像的通信尚未被切断等,但不能控制从写入工作中返回,或有可能发生不能确保内存的错误。
    有大量超过处理性能的I/O要求时,文件系统需确保大量的缓存,若缓存或用户空间用的内存(HIGHMEM区)不足,则也有可能使用内核空间用的内存(NORMAL区)。
    在这种情况下,请更改下述的内核参数,来抑制内核空间用的内存被利用为缓存。使用sysctl 命令等,设置在OS启动时可以更改参数。
    /proc/sys/vm/lowmem_reserve_ratio
    
  • 针对镜像磁盘资源或共享型磁盘资源进行大量的访问时,在磁盘资源非激活时的Unmount,文件系统的缓存的内容写入到磁盘有可能需要花费较长的时间。
    此时,若在从文件系统写入磁盘的工作结束之前,发生Unmount超时,则如下述所示的I/O错误的消息、Unmount失败的消息有可能会被记录。
    在这种情况下,为了保证写入到磁盘的工作能够正常结束,请将相应磁盘资源的Unmount的超时时间设置为留有余力的值。

    ≪例1≫

    clusterpro: [I] <type: rc><event: 40> Stopping mdx resource has started.
    kernel: [I] <type: liscal><event: 193> NMPx close I/O port OK.
    kernel: [I] <type: liscal><event: 195> NMPx close mount port OK.
    kernel: [I] <type: liscal><event: 144> NMPx I/O port has been closed, mount(0), io(0).
    kernel: [I] <type: liscal><event: 144> - This message can be recorded on hotplug service starting when NMPx is not active.
    kernel: [I] <type: liscal><event: 144> - This message can be recorded by fsck command when NMPx becomes active.
    kernel: [I] <type: liscal><event: 144> - Ignore this and following messages 'Buffer I/O error on device NMPx' on such environment.
    kernel: Buffer I/O error on device NMPx, logical block xxxx
    kernel: [I] <type: liscal><event: 144> NMPx I/O port has been closed, mount(0), io(0).
    kernel: Buffer I/O error on device NMPx, logical block xxxx
    
    :

    ≪例2≫

    clusterpro: [I] <type: rc><event: 40> Stopping mdx resource has started.
    kernel: [I] <type: liscal><event: 148> NMPx holder 1. (before umount)
    clusterpro: [E] <type: md><event: 46> umount timeout. Make sure that the length of Unmount Timeout is appropriate. (Device:mdx)
    
    :
    
    clusterpro: [E] <type: md><event: 4> Failed to deactivate mirror disk. Umount operation failed.(Device:mdx)
    kernel: [I] <type: liscal><event: 148> NMPx holder 1. (after umount)
    clusterpro: [E] <type: rc><event: 42> Stopping mdx resource has failed.(83 : System command timeout (umount, timeout=xxx))
    
    :

6.5.4. 在镜像磁盘资源等进行复数的Mount时

  • 在镜像磁盘资源或共享型磁盘资源激活后,针对镜像分区设备(/dev/NMPx)或Mount point(的文件阶层的一部分),想通过mount 命令添加到其他的位置,也进行Mount时,在磁盘资源变为非激活之前,请务必将添加的Mount point进行Unmount。
    如果,不对添加的Mount point进行Unmount而进行非激活,则内存上所残留的文件系统的数据有可能不能完全写入到磁盘,因此磁盘上的数据保持为不完全的状态,向磁盘的I/O被切断,从而结束非激活。
    此外,在这种情况下,由于非激活后也想继续进行从文件系统写入到磁盘的工作,因此如下述所示的I/O错误的消息有可能被记录。
    此外,在之后的服务器停止时等情况下,停止镜像Agent之际有可能因无法结束镜像驱动程序,而导致停止镜像Agent失败、服务器重启。

    ≪例≫

    clusterpro: [I] <type: rc><event: 40> Stopping mdx resource has started.
    kernel: [I] <type: liscal><event: 148> NMP1 holder 1. (before umount)
    kernel: [I] <type: liscal><event: 148> NMP1 holder 1. (after umount)
    kernel: [I] <type: liscal><event: 193> NMPx close I/O port OK.
    kernel: [I] <type: liscal><event: 195> NMPx close mount port OK.
    clusterpro: [I] <type: rc><event: 41> Stopping mdx resource has completed.
    kernel: [I] <type: liscal><event: 144> NMPx I/O port has been closed, mount(0), io(0).
    kernel: [I] <type: liscal><event: 144> - This message can be recorded on hotplug service starting when NMPx is not active.
    kernel: [I] <type: liscal><event: 144> - This message can be recorded by fsck command when NMPx becomes active.
    kernel: [I] <type: liscal><event: 144> - Ignore this and following messages 'Buffer I/O error on device NMPx' on such environment.
    kernel: Buffer I/O error on device NMPx, logical block xxxxx
    kernel: lost page write due to I/O error on NMPx
    kernel: [I] <type: liscal><event: 144> NMPx I/O port has been closed, mount(0), io(0).
    kernel: Buffer I/O error on device NMPx, logical block xxxxx
    kernel: lost page write due to I/O error on NMPx

6.5.5. 关于使用复数个镜像磁盘资源、共享型磁盘资源时的syslog消息

设置2个以上的镜像磁盘资源、共享型磁盘资源时,在镜像磁盘资源、共享型磁盘资源的激活时,则以下的消息有可能会被登录到OS的messages文件。

这种现象,有可能是因为一部分的分配的fsck命令的行为 (访问原来不属于fsck对象的块设备的行为)而导致的。

kernel: [I] <type: liscal><event: 144> NMPx I/O port has been closed, mount(0), io(0).
kernel: [I] <type: liscal><event: 144> - This message can be recorded by fsck command when NMPx becomes active.
kernel: [I] <type: liscal><event: 144> - This message can be recorded on hotplug service starting when NMPx is not active.
kernel: [I] <type: liscal><event: 144> - Ignore this and following messages 'Buffer I/O error on device NMPx' on such environment.
kernel: Buffer I/O error on device /dev/NMPx, logical block xxxx
kernel: <liscal liscal_make_request> NMPx I/O port is close, mount(0), io(0).
kernel: Buffer I/O error on device /dev/NMPx, logical block xxxx

相对EXPRESSCLUSTER而言并不存在问题。但若发生压迫messages文件等问题时,请更改镜像磁盘资源、共享型磁盘资源的以下设置。

  • 将执行Mount前的fsck动作更改为「不执行」

  • 将Mount失败时的fsck动作更改为「执行」

6.5.6. 关于驱动程序加载时的消息

加载镜像驱动程序时,如下消息有时显示在控制台和syslog上,此现象不属于异常。

kernel: liscal: no version for "xxxxx" found: kernel tainted.
kernel: liscal: module license 'unspecified' taints kernel.

(xxxxx 中填入任意字符串)

除了加载clpka驱动程序和clpkhb驱动程序外,控制台和syslog上将可能显示下述消息,此现象不属于异常。

kernel: clpkhb: no version for "xxxxx" found: kernel tainted.
kernel: clpkhb: module license 'unspecified' taints kernel.
kernel: clpka: no version for "xxxxx" found: kernel tainted.
kernel: clpka: module license 'unspecified' taints kernel.

(xxxxx 中填入任意字符串)

6.5.7. 关于使用多个镜像磁盘资源、共享型镜像磁盘资源时的最初I/O信息

Mount镜像磁盘资源、共享型镜像磁盘资源后的最初read/write时,Consol将会出现以下信息,Syslog中也会出现。此现象非异常情况。

kernel: JBD: barrier-based sync failed on NMPx - disabling barriers

(xxxxx 中填入任意字符串)

6.5.8. 关于ipmi的消息

在用户空间监视资源中使用IPMI时,将向syslog输出许多下述kernel模块警告日志。

modprobe: modprobe: Can't locate module char-major-10-173

要避免该日志的输出,请为/dev/ipmikcs重命名。

6.5.9. 恢复运行中的操作限制

使用查出监视资源异常时的设置,为复归对象指定组资源(磁盘资源、EXEC资源......),请不要在查出监视资源异常、正在恢复运行时(重新激活 -> 失效切换 -> 最终运行),控制如下命令或者来源于Cluster WebUI的集群和组。

  • 集群的停止/挂起

  • 组的开始/停止/移动

如果在监视资源异常、正在恢复运行时执行上述控制,该组的其他组资源可能不会停止。然而,监视资源异常时,如果执行了最终运行,则可以进行上述的控制。

6.5.10. 关于命令篇里没有记载的可执行文件和脚本文件

请不要在EXPRESSCLUSTER以外执行在安装目录下存在、但在命令篇里没有记载的可执行文件和脚本文件。

不支持执行后的影响。

6.5.11. 关于执行fsck

  • 激活磁盘资源/镜像磁盘资源/共享型磁盘资源时设定为执行fsck的情况下,将ext2/ext3/ext4文件系统进行Mount时,根据设定来执行fsck。然而,根据文件系统大小、使用量、实际状况fsck会比较费时、超出fsck超时时,则认为Mount失败。
    此处,fsck运行时会出下以下各种情况。
    1. 只对整体的简易检查。
      短时间内完成。
    2. 运行对文件系统全体的联动性检查。
      检查符合OS保存的信息[180天以上的不检查]或[30回(前后的)mount后执行]的场合。
      根据文件系统的大小和使用量等信息,所花费时间较长。

      此时为了不发生超时,设置磁盘资源的fsck超时时间时请留出足够的富余。

  • 激活磁盘资源/镜像磁盘资源/共享型磁盘资源时设定为不执行fsck的情况下, ext2/ext3/ext4文件系统进行Mount时,超出OS保持的fsck实行mount次数时,系统日志或Console输出以下警告信息。

    EXT3-fs warning: xxxxx, running e2fsck is recommended
    
    (注)xxxxx 中填入任意字符串。

    出现该警告的场合,建议针对文件系统执行fsck。

    手动执行fsck时,请按照以下指南执行。
    并且,以下指南必须在该磁盘资源激活的服务器上执行。
    1. 通过clpgrp等命令,将该磁盘资源所属的组失效。

    2. 磁盘为被mount时,使用mount或者fd等命令来确认。

    3. 根据磁盘资源种类,通过执行以下命令将磁盘装从Read Only改为Read Write。

      (磁盘资源的场合) 磁盘名为/dev/sdb5时

      # clproset -w -d /dev/sdb5
      /dev/sdb5 : success
      

      (镜像磁盘资源的场合) 资源名为md1时

      # clpmdctrl --active -nomount md1
      <md1@server1>: active successfully
      

      (共享型镜像磁盘资源的场合) 资源名为hd1时

      # clphdctrl --active -nomount hd1
      <hd1@server1>: active successfully
      
    4. 执行fsck。
      (镜像磁盘资源或共享磁盘资源的情况下,在fsck指定设备名时,请指定对应其资源的镜像分区设备名(/dev/NMPx))
    5. 根据磁盘资源种类,通过执行以下命令将磁盘装从Read Only改为Read Write。

      (磁盘资源的场合) 磁盘名为/dev/sdb5时

      # clproset -o -d /dev/sdb5
      /dev/sdb5 : success
      

      (镜像磁盘资源的场合) 资源名为md1时

      # clpmdctrl --deactive md1
      <md1@server1>: deactive successfully
      

      (共享型镜像磁盘资源的场合) 资源名为hd1时

      # clphdctrl --deactive hd1
      <hd1@server1>: deactive successfully
      
    6. 通过clpgrp等命令,将该磁盘资源所属的组激活。

    如没有执行fsck而不期望出现警告信息时,ext2/ext3/ext4的情况下,通过tune2fs命令变更最大mount次数、请在该磁盘资源被激活的服务器上执行。

    1. 请执行以下命令。

      (磁盘资源的场合)磁盘名为/dev/sdb5时

      # tune2fs -c -1 /dev/sdb5
      tune2fs 1.42.9 (28-Dec-2013)
      Setting maximal mount count to -1
      

      (镜像磁盘资源的场合) 镜像分区设备名为/dev/NMP1时

      # tune2fs -c -1 /dev/NMP1
      tune2fs 1.42.9 (28-Dec-2013)
      Setting maximal mount count to -1
      

      (共享型镜像磁盘资源的场合)镜像分区设备名为/dev/NMP1时

      # tune2fs -c -1 /dev/NMP1
      tune2fs 1.42.9 (28-Dec-2013)
      Setting maximal mount count to -1
      
    2. 请确认最大mount回数被更改。
      (例) 设备名为/dev/sdb5时
      # tune2fs -l /dev/sdb5
      tune2fs 1.42.9 (28-Dec-2013)
      Filesystem volume name: <none>
      :
      Maximum mount count: -1
      :
      

6.5.12. 关于执行xfs_repair

如果在激活使用xfs的磁盘资源/镜像磁盘资源/共享型镜像磁盘资源时向控制台输出有关xfs的警告,建议执行xfs_repair修复文件系统。

请按照以下步骤执行xfs_repiar。

  1. 请确认资源是否未激活。 如果处于激活状态,请使用Cluster WebUI等将其停用。

  2. 使设备可写入。

    (磁盘资源示例)设备名称为/ dev / sdb1时

    # clproset -w -d /dev/sdb1
    /dev/sdb1 : success
    

    (镜像磁盘示例) 资源名为md1时

    # clpmdctrl --active -nomount md1
    <md1@server1>: active successfully
    

    (共享型磁盘资源示例) 资源名为hd1时

    # clphdctrl --active -nomount hd1
    <hd1@server1>: active successfully
    
  3. mount设备。

    (磁盘资源示例) 设备名为 /dev/sdb1时

    # mount /dev/sdb1 /mnt
    

    (镜像磁盘资源/共享型镜像磁盘资源的示例) 镜像分区设备名为 /dev/NMP1 时

    # mount /dev/NMP1 /mnt
    
  4. umount设备。

    # umount /mnt
    

    注解

    xfs_repair实用程序无法修复带有脏日志的文件系统。 为了清除日志,有必要mount和unmount一次。

  5. 执行xfs_repair 。

    (磁盘资源示例) 设备名为 /dev/sdb1时

    # xfs_repair /dev/sdb1
    

    (镜像磁盘资源/共享型镜像磁盘资源的示例) 镜像分区设备名为 /dev/NMP1 时

    # xfs_repair /dev/NMP1
    
  6. 禁止写入设备。

    (磁盘资源示例) 设备名为 /dev/sdb1时

    # clproset -o -d /dev/sdb1
    /dev/sdb1 : success
    

    (镜像磁盘示例) 资源名为md1时

    # clpmdctrl --deactive md1
    <md1@server1>: deactive successfully
    

    (共享型磁盘资源示例) 资源名为hd1时

    # clphdctrl --deactive hd1
    <hd1@server1>: deactive successfully
    

这样就完成了xfs文件系统的修复。

6.5.13. 收集日志时的消息

执行日志收集时,控制台上可能显示下列消息,不属于异常。日志在正常收集。

hd#: bad special flag: 0x03
ip_tables: (C) 2000-2002 Netfilter core team

(在hd#内有存在于服务器IDE的设备名)

kernel: Warning: /proc/ide/hd?/settings interface is obsolete, and will be removed soon!

6.5.14. 关于镜像恢复中的失效切换或激活

  • 镜像磁盘资源或共享磁盘资源处于镜像恢复状态下,不能激活非激活状态下的镜像磁盘资源或共享磁盘资源。
    镜像恢复状态下,不能移动含有此磁盘资源的失效切换组。
    镜像恢复状态下,发生失效切换时,失效切换将失败。
    镜像恢复状态下,因复制目标服务器不能保持最新状态,对复制目标服务器或复制目标服务器组的失效切换将失败。
    另外,因检测出监视资源异常时的操作等,共享磁盘资源向同一服务器组执行失效转换的情况下,没有移动当前全值却失效切换失败。
    但是,失效切换、移动或激活中,恰好镜像恢复结束时,失效切换就会成功。
  • 登录构成信息后第一次启动镜像时,或由于发生故障等更换镜像用的磁盘后第一次启动镜像时,会进行初期镜像构建。
    初期镜像构建时,会从镜像激活后的运行服务器侧开始,然后到备用服务器侧的镜像用磁盘,最后进行磁盘的复制(全面镜像恢复)。
    到此初期镜像构建(全面镜像恢复)结束,镜像处于正常的同步状态为止,请不要失效切换到备用,或向备用移动组。
    若在磁盘的复制途中进行失效切换或组移动,备用的镜像磁盘会保持不完全的状态下而激活备用,未复制到备用的数据有可能会丢失,文件系统有可能会发生数据不一致。

6.5.15. 集群关机、集群重启(镜像磁盘资源、共享磁盘资源)

若使用镜像磁盘资源、共享型镜像磁盘资源,请不要在处理组激活时从clpstdn命令或者Cluster WebUI执行集群关机和集群重启。
在组的激活处理时不能进行组的非激活。因此,在镜像磁盘、共享型镜像磁盘资源被正常非激活时,OS将可能出现如关机、生成镜像中断等现象。

6.5.16. 特定服务器的关机、特定服务器的重启(镜像磁盘资源、共享型磁盘资源)

使用镜像磁盘资源、共享型镜像磁盘资源时,请不要在处理组激活时,用clpdown命令或Cluster WebUI执行服务器的关机和重启命令。
在处理组激活时,不能进行组非激活。因此,镜像磁盘资源、共享型镜像磁盘资源被正常非激活时,OS将可能会出现如关机、生成镜像中断等现象。

6.5.17. 关于服务启动/停止用脚本

init.d环境中,在下列情况下,服务器启动/停止脚本中输出错误。systemd环境中不输出错误。

  • 构筑集群前
    启动OS时下列服务启动脚本中输出错误。由于出错原因为集群尚未构筑,因此没有问题。
    • clusterpro_md

  • 下列情况下,服务的停止脚本执行的顺序有误。
    关闭禁用服务后的OS
    EXPRESSCLUSTER的服务设置为无效后关闭OS时,EXPRESSCLUSTER的服务由于顺序错误而停止。这是由于关闭OS时失效的EXPRESSCLUSTER服务没有被停止所造成的。
    从Cluster WebUI执行的集群关闭或使用clpstdn命令等EXPRESSCLUSTER命令关闭集群时,即使由于错误顺序造成服务停止也没有问题。

6.5.18. 关于服务启动时间

根据启动时有无等待处理的不同,EXPRESSCLUSTER的各服务器有时需要耗费较长的时间。

  • clusterpro _evt
    除主服务器以外,其他服务器下载主服务器配置信息的处理过程最长需要等待2分钟。如主服务器已启动,则通常只需几秒钟即可完成。主服务器无需等待此项处理。
  • clusterpro _trn
    无特别的等待处理。通常只需几秒钟即可完成。
  • clusterpro_ib
    无特别的等待处理。通常只需几秒钟即可完成。
  • clusterpro_api
    无特别的等待处理。通常只需几秒钟即可完成。
  • clusterpro _md
    只有存在镜像磁盘资源或共享型镜像磁盘资源时,本服务才会启动。
    镜像代理正常启动最长需要等待1分钟。通常只需几秒钟即可完成。
  • clusterpro
    无特别的等待处理,但是EXPRESSCLUSTER的启动耗时有时需要数十秒钟。通常只需几秒钟即可完成。
  • clusterpro _webmgr
    无特别的等待处理。通常只需几秒钟即可完成。
  • clusterpro _alertsync
    无特别的等待处理。通常只需几秒钟即可完成。

此外,EXPRESSCLUSTER Daemon启动后,需要进行集群同步启动等待处理,默认设置的等待时间为5分钟。

此项内容的相关信息请参考《维护指南》的"维护信息"的"集群启动同步等待时间"。

6.5.19. 关于systemd环境中的服务状态确认

在systemd环境中,存在利用systemctl命令显示的服务状态和实际的集群状态不一致的情况。
为了确认集群的实际状态,请使用clpstat命令、Cluster WebUI。

6.5.20. 关于在EXEC资源中使用的脚本文件

在EXEC资源中使用的脚本文件保存于各服务器的以下路径中。

/安装路径/scripts/组名/EXEC资源名/

更改集群配置时进行以下更改的情况下,更改前的脚本文件不会从服务器上删除。

  • 删除EXEC资源时或更改EXEC资源名时

  • EXEC资源所在的组被删除或组名被更改时

若不需要更改前的脚本文件时,可以删除。

6.5.21. 关于激活时监视设置的监视资源

激活时监视设置的监视资源的暂停/继续有以下限制事项。

  • 暂停监视资源后,停止了监视对象资源时,监视器资源变为停止状态。因此无法重启监视。

  • 暂停监视资源后,停止/启动了监视对象资源时,在监视对象资源启动时,启动基于监视器资源的监视。

6.5.22. 关于Cluster WebUI

  • 如果不能与访问地址通信,需要等待控制恢复。

  • 需要通过Proxy服务器时,请将Proxy服务器设置为可以继续使用Cluster WebUI端口号的状态。

  • 经由Reverse Proxy服务器时,Cluster WebUI不能正常运行。

  • 已经执行EXPRESSCLUSTER升级后,请关掉所有启动的浏览器。
    清除浏览器侧的缓存,启动浏览器。
  • 使用比本产品更新的版本创建的集群配置信息,不能在本产品中使用。

  • 关掉Web浏览器(窗口框的[X]等),有时会显示确认对话框。
    想要继续设置时,点击[留在此页]。
  • 重新加载Web浏览器(菜单的[刷新]和工具条的[重新读取现有的网页]等),有时会显示确认对话框。
    想要继续设置时,点击[留在此页]。
  • 有关上记以外的Cluster WebUI的注意限制事项请参考在线版手册。

6.5.23. 关于镜像磁盘、共享型镜像磁盘资源的分区大小变化

如果想要在开始运行之后更改镜像分区的容量,请参考《维护指南》的"维护信息"的"更改镜像磁盘资源分区的位移或大小"。

6.5.24. 关于更改内核转储设置

  • 在Red Hat Enterprise Linux 6等环境中,运行集群状态下,更改[内核转储设置] (system-config-kdump)的kdump设置并使其[应用]时,会出现以下错误信息。
    在这种情况下,请停止集群(正在使用镜像磁盘资源或共享型磁盘时,停止集群和镜像代理)后,执行内核转储设置。
    ※ 下面的{驱动器名}部分可以是clpka, clpkhb和liscal中的任何一个。
    No module {驱动器名} found for kernel {内核版}, aborting

6.5.25. 关于浮动 IP、虚拟 IP 资源

  • 设置了浮动 IP 资源或者虚拟 IP 资源时,请不要在这些资源激活的服务器上执行网络的重新启动。如果重新启动网络,各资源添加的 IP 地址就会被删除。

6.5.26. 关于系统监视资源、进程资源监视资源

  • 改变设定内容时,需要进行集群的挂起。

  • 不对应监视资源的延迟警告。

  • 请将SELinux 设定为permissive或 disabled。

    设定为enforcinfg时,EXPRESSCLUSTER中有可能不能进行所需的通信。

  • 若运行中改变OS的日期/时间,则每隔10分钟执行的解析处理仅在日期或时间更改后的最初时序出现一次错位。出现以下两种问题时,请根据需要执行集群挂起·复归。

    • 即使异常检测时间间隔经过之后,也不执行异常检测。

    • 异常检测时间间隔经过之前,执行异常检测。

    • 在系统监视资源的磁盘资源监视功能中可以同时监视的最大磁盘数为64台。

6.5.27. 关于JVM监视资源

  • 需要重新启动监视对象的Java VM时,请进行集群挂起后或停止集群后再进行。

  • 改变设定内容时,请进行集群的挂起。

  • 不对应监视资源的延迟警告。

6.5.28. 关于HTTP监视资源

  • HTTP监视资源使用了以下其中的一个OpenSSL共享库的符号链接。

    • libssl.so

    • libssl.so.1.1 (OpenSSL 1.1.1 的共享库)

    • libssl.so.10 (OpenSSL 1.0的共享库)

    • libssl.so.6 (OpenSSL 0.9的共享库)

    根据OS的发布,版本以及软件包的安装状况,上述的符号链接可能不存在。
    HTTP监视资源找不到上述的符号链接时会发生以下错误。
    Detected an error in monitoring <Monitor Resource Name>. (1 :Can not found library. (libpath=libssl.so, errno=2))
    
    因此,发生上述错误时,请确认/usr/lib或者/usr/lib64等目录下是否存在上诉的符号链接。
    另外,上诉的符号链接不存在时,请像下面的命令例那样做成符号链接libssl.so。
    命令例:
    cd /usr/lib64                       #/usr/lib64目录移动
    ln -s libssl.so.1.0.1e libssl.so     #符号链接作成
    

6.5.29. 关于AWS环境的AMI的恢复

  • 在AWS虚拟IP资源、AWS Elastic IP资源的ENI ID中设定为主网卡的[ENI ID]时,从AMI等恢复时,需要变更AWS虚拟IP资源、AWS Elastic IP资源的设定。此外,设定为备用网卡的ENI ID时,从AMI等恢复时根据分离/连接处理,由于同一个ENI ID可能被继续使用,不需要变更AWS虚拟IP资源、AWS Elastic IP资源的设定。

6.6. 更改EXPRESSCLUSTER的配置时

开始集群运行后,如果对配置进行更改时,需要对发生的事项留意。

6.6.1. 关于组共通属性的互斥规则

变更互斥规则的互斥属性时,通过对集群挂起、复原就可反映其更改内容。
互斥属性设置为"完全互斥"的互斥规则中,新追加互斥对象的组时,根据挂起前的组的启动状态,完全互斥的组有可能处于同一服务器上复数个启动的状态。
下一次组启动时会正常执行互斥控制。

6.6.2. 关于资源属性的依存关系

资源依存关系变化时,根据集群挂起、恢复,反映变化。
作为资源依赖关系和反映方法,资源停止做必要的设置时,恢复后的资源启动状态存在没有考虑依存关系的情况。
下一次组启动时会正常执行对依存关系的控制。

6.6.3. 关于组资源的添加、删除

执行同一个组资源名向其他组移动的设置更改时,请执行以下的步骤。
不执行以下的步骤,可能不能正常运行。

例) 浮动IP资源fip1从组failover1移动到别的组failover2时

  1. 从组failover1中删除fip1。

  2. 执行设定的反映。

  3. 向组failover2中添加fip1。

  4. 执行设定的反映。

6.6.4. 关于磁盘资源的删除

删除了磁盘资源时,当前设备变为Read Only状态。

请使用clproset命令,设置当前设备为Read Write状态。

6.6.5. 关于消息接收监视资源的集群统计信息的设置

在更改监视资源的集群统计信息设置时,即使执行了挂起/复原,也无法使集群统计信息的设置在消息接收监视资源中生效。如果要使集群统计信息的设置在消息接收监视资源中生效,请重启OS。

6.7. EXPRESSCLUSTER版本升级时

作为集群开始操作后,进行EXPRESSCLUSTER 的版本升级时需要注意的事项。

6.7.1. 功能更改一览

各版本中更改的功能如下所示。

内部版本4.0.0-1

  • 关于管理工具
    默认的管理工具更改为Cluster WebUI。使用以前的WebManager时,在Web浏览器上请指定http://管理组的管理IP地址或者安装了EXPRESSCLUSTER Server的服务器的实际IP地址:端口号(默认值29003)/main.htm。
  • 关于镜像磁盘资源/共享型镜像磁盘
    最小集群分区为1 GiB。请在升级之前准备足够大小的集群分区。

内部版本4.1.0-1

  • 关于设置工具
    默认的设置工具更改为Cluster WebUI。可以通过Cluster WebUI 管理及设置集群。
  • 关于集群统计信息采集功能
    统计信息文件通过集群统计信息采集功能,默认保存在安装路径下。由于磁盘容量的问题不想保存统计信息文件时,请关闭集群统计信息采集功能。关于本功能的设定值,请参考《参考指南》的"参数的详细信息"。
  • 关于异步模式的镜像磁盘资源/共享型镜像磁盘资源
    在异步模式下,即使发送队列溢出,它也不会处于镜像中断状态,但溢出的部分将暂时写为历史文件。
    使用此增强功能,您需要输入以下设置。
    • 历史文件存储目录

    • 历史文件大小限制

    ※更新后,这些设置立即为空白。在这种情况下,"历史文件存储目录"被视为安装了ExpressCluster的目录,"历史文件大小限制"被视为无限制。

    关于本设定值请参考《参考指南》的"组资源的详细信息"的"理解镜像磁盘资源"。

  • 关于系统监视资源
    系统监视资源内设置的"System Resource Agent 进程设置"部分已分离为新的监视资源。通过"System Resource Agent 进程设置"进行监视设置时,本监视的设置无效。升级之后,要继续本监视时,请注册新的进程监视资源进行监视设置。关于进程资源监视资源的监视设置详细信息,请参考《参考指南》的"监视资源的详细信息"的"理解进程资源监视资源"。

内部版本 4.2.0-1

  • 关于AWS AZ 监视资源
    使用AWS CLI可以获取的AZ状态为available 时是正常,information和impaired 时为警告,unavailable时则变为异常。以前使用AWS CLI可以获取的AZ状态为available以外的状态时都是视为异常。

6.7.2. 删除功能一览

关于各版本中被删除的功能,显示如下。

内部版本4.0.0-1

  • WebManager Mobile

  • OracleAS 监视资源

6.7.3. 参数删除一览

在通过Cluster WebUI可以设定的参数中,有关各版本中被删除的参数如下表所示。

内部版本4.0.0-1

集群

参数

默认值

集群属性

Alert服务标签页

使用Alert扩展机能

Off

Web管理器标签页

允许接入WebManager Mobile

Off

WebManager Mobile用密码

操作用密码

-

参照用密码

-

JVM监视资源

参数

默认值

JVM监视资源属性

监视(固有)标签页

内存标签页 ([JVM类型]处选择 [Oracle Java]时)

监视虚拟内存使用量

2048 [MB]

内存标签页 ([JVM类型]处选择[Oracle JRockit]时)

监视虚拟内存使用量

2048 [MB]

内存标签页 ([JVM类型]处选择[Oracle Java(usage monitoring)]时)

监视虚拟内存使用量

2048 [MB]

内部版本4.1.0-1

集群

参数

默认值

集群的属性

WebManager 标签页

WebManager 调整属性

动作标签页

警示框最大记录数

300

客户端数据更新方法

Real Time

6.7.4. 默认值更改一览

在通过Cluster WebUI可以设置的参数中,各版本中被更改的默认值如下表所示。

  • 版本升级后,想要继续设置[更改前的默认值]时,在版本升级后请重新设置该值。

  • 在设置了[更改前的默认值]以外的值时,版本升级后会保留之前的设定值。不需要重新设置。

内部版本4.0.0-1

集群

参数

更改前的默认值

更改后的默认值

集群属性

监视标签页

监视方法

softdog

keepalive

JVM监视 标签页

最大Java堆内存大小

7[MB]

16[MB]

EXEC资源

参数

更改前的默认值

更改后的默认值

EXEC资源属性

依赖关系 标签页

遵循原有的依赖关系
On
・浮动IP资源
・虚拟IP资源
・磁盘资源
・镜像磁盘资源
・共享型镜像磁盘资源
・NAS资源
・动态域名解析资源
・卷管理资源
・AWS Elastic IP资源
・AWS虚拟IP资源
・Azure探头端口资源
On
・浮动IP资源
・虚拟IP资源
・磁盘资源
・镜像磁盘资源
・共享型镜像磁盘资源
・NAS资源
・动态域名解析资源
・卷管理资源
・AWS Elastic IP资源
・AWS 虚拟IP资源
・AWS DNS资源
・Azure探头端口资源
・Azure DNS资源

磁盘资源

参数

更改前的默认值

更改后的默认值

磁盘资源属性

依赖关系 标签页

遵循原有的依赖关系
On
・浮动IP资源
・虚拟IP资源
・动态域名解析资源
・卷管理资源
・AWS Elastic IP资源
・AWS虚拟IP资源
・Azure探头端口资源
On
・浮动IP资源
・虚拟IP资源
・动态域名解析资源
・卷管理资源
・AWS Elastic IP资源
・AWS虚拟IP资源
・AWS DNS资源
・Azure探头端口资源
・Azure DNS资源

详细 标签页

磁盘资源调整属性

Mount 标签页

超时

60 [秒]

180 [秒]

xfs_repair 标签页([文件系统]处选择[xfs]时)

Mount失败时的xfs_repair操作

On

Off

执行

NAS资源

参数

更改前的默认值

更改后的默认值

NAS资源属性

依赖关系 标签页

遵循原有的依赖关系
On
・浮动IP资源
・虚拟IP资源
・动态域名解析资源
・AWS Elastic IP资源
・AWS虚拟IP资源
・Azure探头端口资源
On
・浮动IP资源
・虚拟IP资源
・动态域名解析资源
・AWS Elastic IP资源
・AWS虚拟IP资源
・AWS DNS资源
・Azure探头端口资源
・Azure DNS资源

镜像磁盘资源

参数

更改前的默认值

更改后的默认值

镜像磁盘资源属性

依赖关系 标签页

遵循原有的依赖关系
On
・浮动IP资源
・虚拟IP资源
・AWS Elastic IP资源
・AWS虚拟IP资源
・Azure探头端口资源
On
・浮动IP资源
・虚拟IP资源
・AWS Elastic IP资源
・AWS虚拟IP资源
・AWS DNS资源
・Azure探头端口资源
・Azure DNS资源

详细 标签页

镜像磁盘资源调整属性

xfs_repair 标签页([文件系统]处选择[xfs]时)

Mount失败时的xfs_repair操作
执行
On
Off

共享型镜像磁盘资源

参数

更改前的默认值

更改后的默认值

共享型镜像磁盘资源属性

依赖关系 标签页

遵循原有的依赖关系
On
・浮动IP资源
・虚拟IP资源
・AWS Elastic IP资源
・AWS虚拟IP资源
・Azure探头端口资源
On
・浮动IP资源
・虚拟IP资源
・AWS Elastic IP资源
・AWS虚拟IP资源
・AWS DNS资源
・Azure探头端口资源
・Azure DNS资源

详细 标签页

共享型镜像磁盘资源调整属性

xfs_repair 标签页([文件系统]处选择[xfs]时)

Mount失败时的xfs_repair操作

On

Off

执行

卷管理资源

参数

更改前的默认值

更改后的默认值

卷管理资源属性

依赖关系 标签页

遵循原有的依赖关系
On
・浮动IP资源
・虚拟IP资源
・动态域名解析资源
・AWS Elastic IP资源
・AWS虚拟IP资源
・Azure探头端口资源
On
・浮动IP资源
・虚拟IP资源
・动态域名解析资源
・AWS Elastic IP资源
・AWS虚拟IP资源
・AWS DNS资源
・Azure探头端口资源
・Azure DNS资源

虚拟IP监视资源

参数

更改前的默认值

更改后的默认值

虚拟IP监视资源属性

监视 (共通) 标签页

超时

30 [秒]

180 [秒]

PID监视资源

参数

更改前的默认值

更改后的默认值

PID监视资源属性

监视 (共通) 标签页

开始监视的等待时间

0 [秒]

3 [秒]

超时发生时不重试

Off

On

超时发生时不做回复动作

Off

On

用户空间监视资源

参数

更改前的默认值

更改后的默认值

用户空间监视资源属性

监视 (固有) 标签页

监视方法

softdog

keepalive

NIC Link Up/Down监视资源

参数

更改前的默认值

更改后的默认值

NIC Link Up/Down 监视资源属性

监视 (共通) 标签页

超时

60 [秒]

180 [秒]

超时发生时不重试

Off

On

超时发生时不做回复动作

Off

On

ARP监视资源

参数

更改前的默认值

更改后的默认值

ARP 监视资源属性

监视 (共通) 标签页

超时发生时不重试

Off

On

超时发生时不做回复动作

Off

On

动态域名解析监视资源

参数

更改前的默认值

更改后的默认值

动态域名解析监视资源属性

监视 (共通) 标签页

超时

100 [秒]

180 [秒]

进程名监视器资源

参数

更改前的默认值

更改后的默认值

进程名监视器资源属性

监视 (共通) 标签页

开始监视的等待时间

0 [秒]

3 [秒]

超时发生时不重试

Off

On

超时发生时不做回复动作

Off

On

DB2监视资源

参数

更改前的默认值

更改后的默认值

DB2 监视资源属性

监视 (固有) 标签页

密码

ibmdb2

-

Lib路径

/opt/IBM/db2/V8.2/lib/libdb2.so

/opt/ibm/db2/V11.1/lib64/libdb2.so

MySQL监视资源

参数

更改前的默认值

更改后的默认值

MySQL 监视资源属性

监视 (固有) 标签页

存储引擎

MyISAM

InnoDB

Lib路径

/usr/lib/mysql/libmysqlclient.so.15

/usr/lib64/mysql/libmysqlclient.so.20

Oracle监视资源

参数

更改前的默认值

更改后的默认值

Oracle 监视资源属性

监视 (固有) 标签页

密码

change_on_install

-

Lib路径

/opt/app/oracle/product/10.2.0/db_1/lib/libclntsh.so.10.1

/u01/app/oracle/product/12.2.0/dbhome_1/lib/libclntsh.so.12.1

PostgreSQL监视资源

参数

更改前的默认值

更改后的默认值

PostgreSQL 监视资源属性

监视 (固有) 标签页

Lib路径

/usr/lib/libpq.so.3.0

/opt/PostgreSQL/10/lib/libpq.so.5.10

Sybase监视资源

参数

更改前的默认值

更改后的默认值

Sybase 监视资源属性

监视 (固有) 标签页

Lib路径

/opt/sybase/OCS-12_5/lib/libsybdb.so

/opt/sap/OCS-16_0/lib/libsybdb64.so

Tuxedo监视资源

参数

更改前的默认值

更改后的默认值

Tuxedo 监视资源属性

监视 (固有) 标签页

Lib路径

/opt/bea/tuxedo8.1/lib/libtux.so

/home/Oracle/tuxedo/tuxedo12.1.3.0.0/lib/libtux.so

Weblogic监视资源

参数

更改前的默认值

更改后的默认值

Weblogic 监视资源属性

监视 (固有) 标签页

域环境文件

/opt/bea/weblogic81/samples/domains/examples/setExamplesEnv.sh

/home/Oracle/product/Oracle_Home/user_projects/domains/base_domain/bin/setDomainEnv.sh

JVM监视资源

参数

更改前的默认值

更改后的默认值

JVM监视资源属性

监视 (共通) 标签页

超时

120 [秒]

180 [秒]

浮动IP监视资源

参数

更改前的默认值

更改后的默认值

浮动IP监视资源属性

监视 (共通) 标签页

超时

60 [秒]

180 [秒]

超时发生时不重试

Off

On

超时发生时不做回复动作

Off

On

AWS Elastic IP监视资源

参数

更改前的默认值

更改后的默认值

AWS Elastic IP监视资源属性

监视 (共通) 标签页

超时

100 [秒]

180 [秒]

超时发生时不重试

Off

On

超时发生时不做回复动作

Off

On

AWS虚拟IP监视资源

参数

更改前的默认值

更改后的默认值

AWS 虚拟IP监视资源属性

监视 (共通) 标签页

超时

100 [秒]

180 [秒]

超时发生时不重试

Off

On

超时发生时不做回复动作

Off

On

AWS AZ监视资源

参数

更改前的默认值

更改后的默认值

AWS AZ监视资源属性

监视 (共通) 标签页

超时

100 [秒]

180 [秒]

超时发生时不重试

Off

On

超时发生时不做回复动作

Off

On

Azure探头端口监视资源

参数

更改前的默认值

更改后的默认值

Azure 探头端口监视资源属性

监视 (共通) 标签页

超时

100 [秒]

180 [秒]

超时发生时不重试

Off

On

超时发生时不做回复动作

Off

On

Azure负载均衡监视资源

参数

更改前的默认值

更改后的默认值

Azure 负载均衡监视资源属性

监视 (共通) 标签页

超时

100 [秒]

180 [秒]

超时发生时不重试

Off

On

超时发生时不做回复动作

Off

On

内部版本4.1.0-1

集群

参数

更改前的默认值

更改后的默认值

集群的属性

监视标签页

关机监视

始终执行

只在组非激活处理失败时执行

内部版本 4.2.0-1

AWS Elastic IP 监视资源

参数

更改前的默认值

更改后的默认值

AWS Elastic IP监视资源的属性

监视 (固有) 标签页

AWS CLI命令响应获取失败操作

不运行恢复动作(显示警告)

不运行恢复动作(不显示警告)

AWS 虚拟 IP 监视资源

参数

更改前的默认值

更改后的默认值

AWS 虚拟 IP监视资源的属性

监视 (固有) 标签页

AWS CLI命令响应获取失败操作

不运行恢复动作(显示警告)

不运行恢复动作(不显示警告)

AWS AZ 监视资源

参数

更改前的默认值

更改后的默认值

AWS AZ监视资源的属性

监视 (固有) 标签页

AWS CLI命令响应获取失败操作

不运行恢复动作(显示警告)

不运行恢复动作(不显示警告)

AWS DNS 监视资源

参数

更改前的默认值

更改后的默认值

AWS DNS 监视资源的属性

监视 (固有) 标签页

AWS CLI命令响应获取失败操作

不运行恢复动作(显示警告)

不运行恢复动作(不显示警告)

6.7.5. 参数移动一览

在通过Cluster WebUI可以设定的参数中,各版本设定位置存在更改的参数如下表所示

更改前的设置位置

更改后的设置位置

[集群属性]-[复归标签页]-[最大再启动次数]

[集群属性]-[扩展标签页]-[最大再启动次数]

[集群属性]-[复归标签页]-[重置最大再启动次数的时间]

[集群属性]-[扩展标签页]-[重置最大再启动次数的时间]

[集群属性]-[复归标签页]-[使用强制停止功能]

[集群属性]-[扩展标签页]-[使用强制停止功能]

[集群属性]-[复归标签页]-[强制停止操作]

[集群属性]-[扩展标签页]-[强制停止操作]

[集群属性]-[复归标签页]-[强制停止超时]

[集群属性]-[扩展标签页]-[强制停止超时]

[集群属性]-[复归标签页]-[虚拟机强制停止设定]

[集群属性]-[扩展标签页]-[虚拟机强制停止设定]

[集群属性]-[复归标签页]-[运行强制停止脚本]

[集群属性]-[扩展标签页]-[运行强制停止脚本]

[集群属性]-[节能标签页]-[使用CPU频率控制功能]

[集群属性]-[扩展标签页]-[使用CPU频率控制功能]

[集群属性]-[复归标签页]-[宕机后自动启动]

[集群属性]-[扩展标签页]-[宕机后自动启动]

[集群属性]-[排他标签页]-[mount/umount命令互斥]

[集群属性]-[扩展标签页]-[Mount/Umount命令互斥]

[组属性]-[属性标签页]-[失效切换互斥属性]

[组共通属性]-[互斥标签页]

7. 升级步骤

本章将阐述EXPRESSCLUSTER 的升级步骤。

本章将阐述的项目如下。

参见

从X4.0/4.1 升级到 X 4.2 的步骤请参考《升级步骤说明书》。

7.1. EXPRESSCLUSTER X的升级步骤

7.1.1. 从X 3.0/3.1/3.2/3.3升级到X 4.2

首先请确认以下注意事项。

  • 使用镜像磁盘资源/共享型镜像磁盘资源时,集群分区空间的大小要在1024MB以上。此外,需要镜像磁盘资源/共享型镜像磁盘资源的全拷贝。

  • 使用镜像磁盘资源/共享型镜像磁盘资源时,推荐事前做数据的备份。关于备份请参考《安装&设置指南》的"进行运行检查"的"确认备份步骤"、"确认恢复步骤"。

  • 请在root用户上升级EXPRESSCLUSTER Server。

以下,就有关从Linux版EXPRESSCLUSTER X 3.0/3.1/3.2/3.3进行升级的步骤进行说明。

  1. 开始升级前,请使用WebManager或命令确认正在运行集群的各服务器的状态以及所有资源的状态是否正常。

  2. 备份集群配置信息。集群配置信息除了在做成时通过Builder保存外,通过clpcfctrl命令也可以做成备份。详细请参考《参考指南》的"EXPRESSCLUSTER命令参考"-"更改集群配置信息、备份集群配置信息、检查集群配置信息(clpcfctrl命令)"-"备份集群配置信息"。

  3. 在构成集群的所有服务器上,卸载EXPRESSCLUSTER。卸载步骤请参照《安装&设置指南》的"卸载/重装EXPRESSCLUSTER"-"卸载步骤"-"卸载EXPRESSCLUSTER Server"。

  4. 在构成集群的所有服务器上,新安装EXPRESSCLUSTER。新安装步骤请参照《安装&设置指南》的"安装EXPRESSCLUSTER"以及"注册License"。

  5. 使用镜像磁盘资源/共享型镜像磁盘资源时,要准备1024MB以上的分区作为集群分区。

  6. 访问以下地址启动WebManager。
    http://安装了服务器的实际IP地址 :29003/main.htm
    导入集群配置信息,读取备份的配置信息。
    镜像磁盘资源/共享型镜像磁盘资源使用的集群分区和配置信息不一致的场合,修改配置信息。另外,镜像磁盘资源/共享型镜像磁盘资源所属的组的[属性]的[属性]标签页的[组启动属性]是自动启动的场合,设置成手动启动。
  7. 使用镜像磁盘资源时,对各镜像磁盘资源执行以下的步骤。

    • 打开资源的[属性]的[详细]标签页,点击[调整]按钮,显示[镜像磁盘资源调整属性]对话框。

    • 打开[镜像磁盘资源调整属性]的[镜像]标签页,将[构建初始文件系统]设置为Off。

  8. 应用配置信息。

    使用期间定制License时,请执行以下命令。
    # clplcnsc --distribute
    
    使用镜像磁盘资源/共享型镜像磁盘资源时,对各镜像磁盘资源/共享型镜像磁盘资源,请在所有的服务器上执行以下的命令。
    初始化集群分区。
    (镜像磁盘资源的场合)
    # clpmdinit --create force <镜像磁盘资源名>
    (共享型镜像磁盘资源的场合)
    # clphdinit --create force <共享型镜像磁盘资源名>
  9. 启动Cluster WebUI,开始集群。

  10. 使用镜像磁盘资源/共享型镜像磁盘资源时,从镜像磁盘列表持有最新信息的服务器作为拷贝源,执行全拷贝。

  11. 启动组,确认各资源正常启动。

  12. 步骤6以及步骤7中,[组启动属性]以及[构建初始文件系统]的设置变更场合,通过Cluster WebUI将设置复原,点击[应用配置文件],将集群配置信息反映到集群。

  13. 至此EXPRESSCLUSTER Server升级完毕。启动集群,通过使用Cluster WebUI 或clpstat指令,请确认各服务器作为集群是否正常运行。

8. 词汇表

心跳线
集群服务器之间的通信路径。
(相关) 私网、公网
虚拟IP地址

构筑远程集群时使用的资源(IP地址)。

管理客户端

已启动Cluster WebUI的机器。

启动属性
集群启动时,决定是自动还是手动启动失效切换组的失效切换组的属性。
可在管理客户端进行设置。
共享磁盘

可从多台服务器访问的磁盘。

共享磁盘型集群

使用共享磁盘的集群系统。

切换分区
连接到多台计算机的,可切换使用的磁盘分区。
(相关)磁盘心跳用分区
集群系统

通过LAN等连接多台计算机,并作为1个系统进行操作的系统形态。

集群关机

关闭整个集群系统(构筑集群的所有服务器)。

集群分区
设在镜像磁盘、共享型镜像磁盘上的分区。用于管理镜像磁盘、共享型镜像磁盘。
(相关)磁盘心跳用分区
运行服务器
对某一业务装置来说,正在运行业务的服务器。
(相关) 待机服务器
从服务器 (服务器)
一般使用时,失效切换组进行失效切换的目标服务器。
(相关) 主服务器
待机服务器
非运行服务器。
(相关) 运行服务器
磁盘心跳用分区

共享磁盘型集群中用于心跳通信的分区。

数据分区
可与共享磁盘的切换分区一样进行使用的本地磁盘
镜像磁盘、共享型镜像磁盘中设置的数据用的分区。
(相关) 集群分区
网络分区解决资源
指所有的心跳中断。
(相关) 心跳线、心跳
节点

在集群系统中,指构筑集群的服务器。在网络用语中,指可以传输,接收和处理信号的,包括计算机和路由器在内的设备。

心跳
指为了监视服务器而在服务器之间定期进行相互间的通信。
(相关) 心跳线、网络分区解决资源
公网
服务器/客户端之间的通信路径。
(相关) 心跳线、私网
失效切换

指由于查出故障,待机服务器继承运行服务器上的业务应用程序。

故障恢复

将某台服务器上已启动的业务应用程序通过失效切换交接给其他服务器后,再把业务返回到已启动业务应用程序的服务器。

失效切换组

执行业务所需的集群资源、属性的集合。

失效切换移动组

指用户故意将业务应用程序从运行服务器移动到待机服务器。

失效切换策略

可进行失效切换的服务器列表及其列表中具有失效切换优先顺序的属性。

私网
指仅连接构筑集群的服务器的LAN。
(相关) 心跳线、公网
主服务器 (服务器)
失效切换组中作为基准的主服务器。
(相关) 从服务器 (服务器)
浮动IP地址
发生了失效切换时,可忽视客户端的应用程序所连接服务器发生切换而使用的IP地址。
在与集群服务器所属的LAN相同的网络地址中,分配其他未使用的主机地址。
主服务器(Master Server)

Cluster WebUI的[服务器共通properties]-[Master Server]中显示在最前面的服务器。

镜像磁盘连接

镜像磁盘、共享型镜像磁盘集群中用于进行数据镜像的LAN。可通过和内部主网的通用进行设置。

镜像磁盘系统
不使用共享磁盘的集群系统。
在服务器之间镜像服务器的本地磁盘。