1. 前言

1.1. 读者对象及用途

《EXPRESSCLUSTER® X安装&设置指南》面向导入使用了EXPRESSCLUSTER的集群系统的系统工程师以及导入集群系统后进行维护/操作的系统管理员,对从导入使用EXPRESSCLUSTER的集群系统到开始操作前的必需事项进行说明。

手册按照实际导入集群系统时的顺序,依次对使用了EXPRESSCLUSTER的集群系统的设计方法,EXPRESSCLUSTER的安装和设置步骤以及操作开始前所必需的测试步骤进行了说明。

1.2. 本手册的构成

1.3. EXPRESSCLUSTER X手册体系

EXPRESSCLUSTER 的手册分为以下6类。各指南的标题和用途如下所示。

EXPRESSCLUSTER X 开始指南》 (Getting Started Guide)

本手册的读者对象为所有用户,对产品概要,运行环境,升级信息以及现有的问题等进行了说明。

《EXPRESSCLUSTER X 安装&设置指南》 (Installation and Configuration Guide)

本手册的读者对象为导入使用了EXPRESSCLUSTER的集群系统的系统工程师以及导入集群系统后进行维护和操作的系统管理员,对导入使用了EXPRESSCLUSTER的集群系统后到开始操作前的必备事项进行了说明。手册按照实际导入集群系统时的顺序,对使用EXPRESSCLUSTER的集群系统的设计方法,EXPRESSCLUSTER的安装设置步骤,设置后的确认以及开始操作前的测试方法进行了说明。

EXPRESSCLUSTER X 参考指南》 (Reference Guide)

本手册的读者对象为管理员以及导入使用了EXPRESSCLUSTER的集群系统的系统工程师。手册对EXPRESSCLUSTER的操作步骤,各模块的功能以及疑难解答信息等进行了说明,是对《安装&设置指南》的补充。

EXPRESSCLUSTER X 维护指南》(Maintenance Guide)

本手册的读者对象为管理员以及导入使用EXPRESSCLUSTER的集群系统后进行维护和操作的系统管理员,对EXPRESSCLUSTER的维护的相关信息进行了说明。

EXPRESSCLUSTER X 硬件整合指南》 (Hardware Feature Guide)

本手册的读者对象为管理员以及导入使用EXPRESSCLUSTER的集群系统的系统工程师,对与特定硬件整合的功能进行了说明。是对《安装&设置指南》的补充。

EXPRESSCLUSTER X 兼容功能指南》(Legacy Feature Guide)

本手册的读者对象为管理员以及导入使用EXPRESSCLUSTER的集群系统的系统工程师,对EXPRESSCLUSTER X 4.0 WebManager,Builder 以及EXPRESSCLUSTER Ver 8.0 兼容指令的相关信息等进行了说明。

1.4. 本手册的标记规则

在本手册中,需要注意的事项,重要的事项以及相关信息等用如下方法标记。

注解

表示虽然比较重要,但是并不会引起数据损失或系统以及机器损伤的信息。

重要

表示为避免数据损失和系统,机器损坏所必需的信息。

参见

表示参考信息的位置。

另外,在手册中使用以下标记法。

标记

使用方法

[ ] 方括号
在命令名的前后,
显示在画面中的字句 (对话框,菜单等) 的前后。
点击[启动]
[详细信息]对话框

命令行中的[ ] 方括号

表示括号内的值可以不予指定(可省)。

clpstat -s [-h host_name]

等宽字体

路径名,命令行,系统输出(消息,提示等),目录,文件名,函数,参数。

c:\Program files\EXPRESSCLUSTER

粗体
用户在命令提示符后实际输入的值。
输入以下内容。
clpcl -s -a
斜体
用户将之替换为有效值后输入的项目。

clpstat -s [-h host_name]

EXPRESSCLUSTER X 在本手册的图中,为了表示EXPRESSCLUSTER,使用该图标。

1.5. 最新信息来源

关于最新的产品信息,请参考以下Web站点。

https://www.nec.com/global/prod/expresscluster/

2. 确定系统配置

本章介绍如何确定EXPRESSCLUSTER集群系统的系统配置。

本章中说明的项目如下所示。

2.1. 从设计集群系统到开始操作前的测试流程

构筑使用了EXPRESSCLUSTER的集群系统前,需要充分考虑所需的硬件环境,所用的软件,运行形态等,进行系统设计。

此外,构筑集群后开始操作前,需要测试集群系统是否构筑妥当。

本指南对这一系列的流程进行说明。请在实际执行导入集群系统的步骤的同时,一步一步阅读本手册。下面对从使用了EXPRESSCLUSTER的集群系统的设计到开始操作前的流程进行说明。

参见

要按照本指南流程进行操作,在遵照本指南的步骤的同时,还需随时参考《EXPRESSCLUSTER X 参考指南》。此外,关于运行环境及Release信息等最新信息,请参考《EXPRESSCLUSTER X开始指南》。

步骤分别与下述的章节相对应。

设计集群系统

实际安装EXPRESSCLUSTER前,进行硬件配置,集群系统设计以及集群配置信息的创建。

  • 2. 确定系统配置

    理解EXPRESSCLUSTER的概要,确定要构建的集群系统的硬件配置,网络配置及软件配置。

  • 3. 设计集群系统

    设计失效切换的单位失效切换组,确定安装时所需的信息。

安装和设置EXPRESSCLUSTER X

安装EXPRESSCLUSTER,进行License注册及集群配置信息的应用。

开始操作前的集群系统测试

实际操作集群系统前,进行必要的故障测试,参数调整及业务模拟。此外还对卸载及重装步骤进行了说明。

2.2. 何谓EXPRESSCLUSTER

EXPRESSCLUSTER是指通过冗余化(集群化)的系统配置,当正在操作的服务器出现故障时,自动将业务交接到待机服务器,从而能够飞跃性地提高系统的可用性和扩展性。

正常运行的Active server和Standby server

图 2.1 集群系统(正常运行时)

发生错误的Active server和正常运行的Standby server

图 2.2 集群系统(发生错误时)

通过导入使用了EXPRESSCLUSTER的集群系统,可以获得以下效果。

  • 高可用性
    即使由于故障等,构成集群的服务器中的一台停止了,也可以自动将该服务器正在处理的业务交接到其他正常的服务器上,从而将故障时的业务停止时间控制在最小程度。
  • 高扩展性
    最多同时支持Windows版,Linux版的32台大规模集群配置。

参见

关于EXPRESSCLUSTER的详细信息,请参考《开始指南》的"关于EXPRESSCLUSTER"。

2.2.1. EXPRESSCLUSTER的软件配置

EXPRESSCLUSTER由以下2个软件构成。

  1. EXPRESSCLUSTER本体
    EXPRESSCLUSTER的主模块。安装在构成集群的各服务器上。
  2. Cluster WebUI
    用于EXPRESSCLUSTER的配置信息创建和操作管理的管理工具。
    使用Web浏览器作为用户接口。实体嵌入在EXPRESSCLUSTER本体中,但在管理终端的Web浏览器上进行操作,因此区别于EXPRESSCLUSTER本体。
Server和Management PC

图 2.3 软件配置

2.3. 关于系统配置的讨论

确认了要构筑的集群的用途和运行形态后,再确定硬件配置。下面描述了EXPRESSCLUSTER的配置示例。

参见

运行环境及Release信息等最新信息请参考《开始指南》的"EXPRESSCLUSTER的运行环境"及"最新版本信息"。

2.3.1. 共享磁盘方式与镜像磁盘方式

系统配置分为共享磁盘方式和镜像磁盘方式两种。进一步还提供了融合两种方式的共享型镜像方式(Hybrid)。

  • 共享磁盘方式
    共享磁盘方式是在双方的服务器中将数据保存在物理连接的共享磁盘中,从而在失效切换后也可访问同一数据。
    一般会设置防护,当一方的服务器在使用共享磁盘的特定空间时,另一方则不能访问。
    由于数据写入时不会出现性能下降,因此用于数据库服务器等数据写入量较多的系统。
  • 镜像磁盘方式
    镜像磁盘方式在2台服务器的磁盘间对业务数据进行镜像,从而在失效切换后也能访问同一数据。
    运行服务器写入了数据时,也需要将该数据写入待机服务器,因此写入性能低。
    但由于不需要共享磁盘等特殊的外部磁盘,由服务器内置的磁盘即可构筑集群,因此可降低系统价格。
    此外,为了防止灾害等将待机服务器放置在异地构成远程集群时,不能使用共享磁盘,此时也可使用镜像磁盘方式。
  • 共享型镜像方式
    共享型镜像方式是共享磁盘方式和镜像磁盘方式的结合。该方式通过镜像化共享磁盘的数据,将共享磁盘的数据存放在第三方服务器上,从而能够防止共享磁盘成为SPOF(Single Point of Failure)。该方式又称作镜像磁盘方式的扩展配置。
    数据的写入性能,使用概念图,使用时的注意事项可参考镜像磁盘方式。

下面讲述使用了共享磁盘,镜像磁盘和共享型镜像方式的配置示例。请在参考这些示例的同时进行系统配置。

2.3.2. 在2个节点上使用共享磁盘时的配置示例

此为最普通的系统配置。

  • 服务器可以是不同的机型,但需要在所有的服务器上可见的共享磁盘的盘符一致。

  • 连接心跳线(与3节点时一样,也可设置专用的HUB进行连接)。

  • 使用交叉电缆连接COM (RS-232C)端口。

集群服务器和同一个LAN上的客户端(Client 1),可以使用浮动IP连接到集群服务器。 远程LAN上的客户端(Client 2)也可以使用浮动IP连接到集群服务器。 在路由器(Router)中不需要进行特殊的设置,即可使用浮动IP。

同一LAN上的Server 1,Server 2,Client 1和通过Router连接的 Client 2

图 2.4 在2个节点上使用共享磁盘时的配置示例

2.3.3. 在2个节点上使用镜像磁盘时的配置示例

在集群服务器Server 1,Server 2中需要设置相同的盘符。 也可以配置不同的机型。 但是,镜像分区必须是以字节为单位大小完全相同。如果磁盘几何结构不同,可执行无法创建相同大小的分区。 连接私网。 推荐服务器之间用电缆直接连接,但也可以通过HUB等连接。 集群服务器和同一个LAN上的客户端(Client 1),可以使用浮动IP连接到集群服务器。 远程LAN上的客户端(Client 2)也可以使用浮动IP连接到集群服务器。 在路由器(Router)中不需要进行特殊的设置,即可使用浮动IP。

同一LAN上的Server 1,Server 2,Client 1和通过Router连接的 Client 2

图 2.5 在2个节点上使用镜像磁盘时的配置示例

2.3.4. 在2个节点上共用镜像空间和OS空间时的配置示例

在Server 1,Server 2中需要设置相同的盘符。 也可以配置不同的机型。 但是,镜像分区必须是以字节为单位大小完全相同。 如果磁盘几何结构不同,可执行无法创建相同大小的分区。 镜像分区可以与OS所用的磁盘保留在同一磁盘上。 集群服务器和同一个LAN上的客户端(Client 1),可以使用浮动IP连接到集群服务器。 远程LAN上的客户端(Client 2)也可以使用浮动IP连接到集群服务器。 在路由器(Router)中不需要进行特殊的设置,即可使用浮动IP。

同一LAN上的Server 1,Server 2,Client 1和通过Router连接的 Client 2

图 2.6 在2个节点上共用镜像空间和OS空间时的配置示例

参见

镜像分区的设置请参考《参考指南》的"组资源的详细信息"的"理解镜像磁盘资源"。

2.3.5. 在2个节点上通过异步镜像磁盘构筑远程集群时的配置示例

在Server 1,Server 2中需要设置相同的盘符。 也可以配置不同的机型。 但是,镜像分区必须是以字节为单位大小完全相同。 如果磁盘几何结构不同,可执行无法创建相同大小的分区。 为了使用VIP,需要使用承载RIP主机路由的路由器。 客户端可以使用VIP与集群服务器连接。

  • 为了防止灾难,可以如下图所示通过WAN在异地间构筑集群。

  • 通过使用异步方式的镜像磁盘,可以防止由于网络延迟导致的磁盘性能下降,但发生失效切换时可执行丢失之前更新的磁盘信息。

  • 需要确保镜像磁盘上的数据更新所需的足够的通信带宽。如果带宽太窄,则会发生与业务客户端之间的通信延迟和镜像中断。

  • 连接目的端的切换使用浮动DNS资源或虚拟IP资源。

Server 1和路由器,Server 2和路由器,Client1和路由器

图 2.7 在2个节点上通过异步镜像磁盘构筑远程集群时的配置示例

参见

关于网络分区解决与VIP的设置,请参考《参考指南》的"组资源的详细信息"的"理解虚拟IP资源"及"网络分区解决资源的详细信息"。

2.3.6. 在3个节点上使用共享磁盘时的配置示例

  • 与2节点时一样,连接共享磁盘(所有服务器上可见的共享磁盘的盘符必须一致)。

  • 私网LAN连接到私网专用HUB(Interconnect HUB)。 私网专用HUB不能连接其他的服务器和客户端。

  • 无需通过RS-232C进行服务器之间的连接。

通过FC交换机连接到共享磁盘的Server 1,Server 2,Server 3

图 2.8 在3个节点上使用共享磁盘时的配置示例

2.3.7. 在3个节点上共用镜像磁盘与共享磁盘时的配置示例

在Server 1,Server 2中需要设置相同的盘符。 也可以配置不同的机型。 但是,镜像分区必须是以字节为单位大小完全相同。 如果磁盘几何结构不同,可执行无法创建相同大小的分区。

  • 可在一个集群中共用镜像磁盘和共享磁盘。在该配置示例中,将共享磁盘方式的集群与镜像磁盘方式的集群以及集群各自的待机服务器都集中到一台上,形成3节点配置。

  • 在不运行使用共享磁盘的业务应用程序的服务器中,无需连接共享磁盘,但连接的所有服务器上可见的共享磁盘的盘符必须一致。

  • 通过专用HUB连接心跳线。

  • 无需通过RS-232C在服务器间进行连接。

具有镜像分区的Server 1,Server 2,连接共享磁盘的Server 2,Server 3

图 2.9 在3个节点上共用镜像磁盘与共享磁盘时的配置示例

2.3.8. 在3个节点上使用共享型镜像时的配置示例

下图是由通过共享磁盘连接的2个节点和一个作为镜像化对象的磁盘的节点组成的3节点配置示例。

  • 服务器可以为不同机型。

  • 通过专用HUB连接兼作心跳线和镜像磁盘连接线的LAN。

  • 请尽量使用高速HUB。

连接到共享磁盘的Server 1,Server 2以及属于不同服务器组的Server 3

图 2.10 在3个节点上使用共享型镜像方式时的配置示例

私网LAN连接到私网专用HUB(Interconnect HUB)。私网专用HUB不能连接其他的服务器和客户端。

2.3.9. 在2个节点上使用BMC相关功能的配置示例

使用物理机的强行停止功能和机箱ID指示灯联动功能,还有BMC心跳资源,消息接收监视器的BMC联动功能,在2个节点集群上的配置示例。

  • 服务器可以为不同机型,但是需要可以支持BMC联动功能。关于可使用的机型,请参阅《开始指南》的"EXPRESSCLUSTER的运行环境"的"硬件运行环境"。

  • 使用BMC心跳以外的BMC相关功能时,通过专用HUB连接私网和BMC的管理用LAN。

  • 请尽量使用高速HUB。

连接到HUB的Server 1和Server 2

图 2.11 在2个节点上使用BMC相关功能时的配置示例

将私网LAN以及BMC LAN连接到HUB。该HUB无法连接其他服务器和客户端。

2.4. 确认各EXPRESSCLUSTER模块的运行环境

EXPRESSCLUSTER的基本模块由EXPRESSCLUSTER Server(本体模块)(本体),Cluster WebUI 构成。请分别确认使用各模块的机器的运行环境。运行方法请参照《开始指南》的"EXPRESSCLUSTER的运行环境"。

2.5. 确定硬件配置

确定硬件配置时需要考虑集群系统上进行二重化的应用程序和设计集群系统。请先确认下一章的"3. 设计集群系统"。

参见

请参考"3.1. 设计集群系统"。

2.6. 配置硬件后的设置

确定硬件配置并实际设置了硬件后,请确认以下事项。

  1. 设置共享磁盘(使用共享磁盘时必须)

  2. 设置镜像分区(使用镜像磁盘时必须)

  3. 调整OS启动时间(必须)

  4. 确认网络(必须)

  5. 确认防火墙(必须)

  6. 同步服务器时间(推荐)

  7. 关闭节电功能(必须)

  8. 设置SNMP服务(使用ESMPRO/SM功能时必须)

  9. 设置BMC和ipmiutil(使用物理机的强行停止功能和机箱ID指示灯联动时必须)

  10. 设置网络警告灯的供应商提供的 rsh同等功能 (必须)

2.6.1. 设置共享磁盘(使用共享磁盘时必须)

按照以下步骤设置共享磁盘。

重要

如果要继续使用共享磁盘上的数据(重装服务器时等),请不要确保分区及创建文件系统。如果确保分区或创建文件系统,则共享磁盘上的数据将被删除。

注解

下述保留的分区不能mount到NTFS文件夹使用。

  1. 确保磁盘心跳分区

    在共享磁盘上创建EXPRESSCLUSTER单独使用的分区。该分区用于DISK网络分区解决资源。
    通过使用共享磁盘的集群中的一台服务器创建分区。
    与普通分区一样,使用OS的"磁盘管理"创建分区,设置盘符,不进行格式化,直接设置为RAW分区。

    在连接了共享磁盘的任一服务器上进行该操作。

    其后,在使用同一共享磁盘的其他服务器上也设置相同的盘符。由于已经创建了分区,因此无需重新创建分区。不通过OS的磁盘管理进行格式化,仅设置盘符。

    注解

    请申请17MB(17,825,792字节)以上的磁盘心跳分区。此外,磁盘心跳分区不进行格式化,保留为RAW分区。

  2. 确保集群分区(仅限使用共享方式时)

    使用共享型镜像时,除通过共享型镜像磁盘资源进行镜像化的共享磁盘之外,需要创建用于管理共享型镜像磁盘状态的分区。
    分区的创建方法与磁盘心跳分区相同。

    注解

    请确保集群分区大小在1024MB(1,073,741,824字节)及以上。此外,集群分区请勿进行格式化,保留为RAW分区。

  3. 确保磁盘资源切换分区/共享型镜像磁盘资源数据分区

    在共享磁盘上创建磁盘资源使用的切换分区或共享型镜像磁盘资源所使用的分区。使用OS的"磁盘管理"创建分区,设置盘符,并通过NTFS进行格式化。在连接了共享磁盘的任一服务器上进行该操作。

    其后,在使用同一共享磁盘的其他服务器上也设置相同的盘符。由于已经创建了分区,因此无需再次创建分区,格式化。

    此外,在EXPRESSCLUSTER的设置完成以前,不对共享磁盘进行访问控制,因此如果在连接了共享磁盘的状态下启动多个服务器,则共享磁盘上的文件和文件夹可执行被损坏。因此,从格式化磁盘资源分区到安装并启动EXPRESSCLUSTER前,请不要同时启动多个连接到共享磁盘的服务器。

    重要

    请不要同时启动多个连接到共享磁盘的服务器。可执行会损坏共享磁盘上的数据。

2.6.2. 设置用于镜像的分区(使用镜像磁盘时必须)

按照以下步骤设置镜像分区。该操作也需要对通过共享型镜像方式与共享磁盘进行镜像化的本地磁盘(仅在一台服务器上连接的磁盘)进行。

注解

集群化单个服务器等,要继续使用既存分区上的数据时,请不要重新创建该分区等。如果重建该分区,则既存分区上的数据会被删除。

注解

下述保留的分区不能mount到NTFS文件夹使用。

  1. 确保集群分区

    创建镜像磁盘资源/共享型镜像磁盘资源单独使用的分区。该分区用于镜像磁盘资源/共享型镜像磁盘资源的状态管理。

    在使用镜像资源的集群中的所有服务器上创建分区。使用OS的"磁盘管理"创建分区,不进行格式化,保留为RAW分区并设置盘符。

    注解

    请确保集群分区大小在1024MB(1,073,741,824字节)以上。此外,集群分区请勿进行格式化,保留为RAW分区。

  2. 确保数据分区

    创建通过镜像磁盘资源/共享型镜像磁盘资源进行镜像的数据分区。镜像磁盘资源时,在进行镜像的两台服务器上创建数据分区。

    使用OS的"磁盘管理",通过NTFS进行格式化,设置盘符。

    注解

    重装EXPRESSCLUSTER时等,如果镜像对象的分区(驱动器)已经存在,无需重新创建分区。特别要注意的是,如果分区上已经存在要镜像化的数据,此时重建分区或进行格式化会删除这些数据。

    系统驱动器和有页面文件的驱动器,安装了EXPRESSCLUSTER的驱动器不能用作镜像资源分区。

    进行镜像的两个数据分区需要在字节单位上大小完全一致。磁盘的几何信息不一样时可执行会造成无法创建相同大小的分区,请使用clpvolsz命令确认调整分区大小。同时,必须在每台服务器上为各个分区分配相同的盘符。

2.6.3. 调整OS启动时间(必须)

从对构成集群系统的各服务器供电开始,到服务器的OS启动为止的时间要设为比下面的两个时间长的值。

  • 从对共享磁盘供电到可用为止的时间(使用共享磁盘时)

  • 心跳超时时间 ※默认值30秒

这种设置是为了避免下述问题。

  • 如果开启共享磁盘和服务器的电源启动集群系统,则共享磁盘的启动赶不上OS的启动处理,在不识别共享磁盘的状态下启动OS,从而导致磁盘资源的启动失败

  • 想要重启服务器进行失效切换时,如果在心跳超时时间内重启该服务器,则另一方的服务器会认为心跳继续,导致无法进行失效切换

计算上述2点的时间,使用[bcdedit]命令对启动时间进行调整。

注解

如果OS只有一个,则即使设置了启动等待时间也可执行被忽视。此时,请根据以下步骤添加Entry。第二个Entry为第一个Entry的复制则没有问题。

使用[bcdedit]命令的/copy选项,添加复制。

2.6.4. 确认网络设置(必须)

在集群内的所有服务器上通过ipconfig 命令和ping 命令确认下列网络资源是否正常运行

  • 公网(用于与其它机器进行通信)

  • 私网(用于EXPRESSCLUSTER服务器间的连接)

  • 主机名

注解

集群使用的浮动IP资源,虚拟IP资源的IP地址无需在OS端进行设置。

2.6.5. 确认防火墙设置(必须)

EXPRESSCLUSTER各模块之间的通信使用多个端口号。使用的端口号请参照《开始指南》的"注意限制事项"的"安装EXPRESSCLUSTER前"。

2.6.7. 关闭节电功能(必须)

EXPRESSCLUSTER环境下不可以使用通过OnNow,ACPI,APM功能实现的节电(待机或睡眠)功能。请务必关闭该功能。

2.6.8. 设置SNMP服务(使用ESMPRO/SM结合使用功能时必须)

使用ESMPRO/SM功能的场合必须设置SNMP服务。在安装EXPRESSCLUSTER前,请设置SNMP服务。

2.6.9. 设置BMC和ipmiutil(使用物理机的强行停止功能和机箱ID指示灯联动时必须)

使用物理机的强行停止功能和机箱ID指示灯联动时,为了保证管理基板管理控制器 (BMC) 的LAN板卡所使用的IP地址和OS所使用的IP地址之间的通信,请设置各服务器的BMC。服务器上没有安装BMC或者管理BMC所使用的网络处于关闭状态时无法使用该功能。BMC的设置方法请参考各服务器的手册。

这些功能使用已经作为BSD许可证的开源代码被公开的IPMI Management Utilities (ipmiutil),通过网络控制各服务器的BMC固件。因此,要使用这些功能,需要在各集群服务器上安装ipmiutil。

2018年1月开始,可以从以下网站上下载ipmiutil。

http://ipmiutil.sourceforge.net/

ipmiutil版本请使用2.0.0~3.0.8版本。

在EXPRESSCLUSTER中使用Ipmiutil的hwreset命令或者ireset命令,alarms命令或者ialarms命令。为了使这些命令在不指定路径的情况下也可以执行,请在系统环境变量"PATH"中包含ipmiutil执行文件的路径,或者将执行文件复制到已经被包含在内的某个文件夹(如EXPRESSCLUSTER安装文件夹下的bin文件夹)中。

在EXPRESSCLUSTER中,因为没有需要使用IPMI驱动程序的功能,因此可以不安装IPMI驱动程序。

使用上述命令通过LAN控制BMC时,需要用有Administrator权限的账号登录各服务器。使用NEC Express5800/100系列的服务器时,因为User ID 3以内已经被其他工具占用,所以如果需要添加或更改账号,请使用User ID 4以后的数字。确认更改账号设置时请使用基于IPMI标准的IPMITool等工具。

2.6.10. 设置网络警告灯供应商提供的rsh同等功能(必须设置)

使用网络警告灯功能时,请设置警告灯供应商所支持的rsh同等命令。

3. 设计集群系统

本章将介绍进行二重化的应用程序,运行形态,集群构筑信息等内容,提供设计集群时的必要信息。

本章的内容如下。

3.1. 设计集群系统

设计集群系统主要由以下内容构成。

  1. 决定集群系统的运行形态

  2. 决定要二重化的应用程序

  3. 创建集群配置信息

下图以构筑典型的2节点,单向待机的集群环境为例进行说明。

连接到Shared disk的Server 1,Server 2

图 3.1 2个节点,单向待机集群的示例

FIP1

10.0.0.11
(从Cluster WebUI客户端访问)

FIP2

10.0.0.12
(从业务客户端访问)

NIC1-1

192.168.0.1

NIC1-2

10.0.0.1

NIC2-1

192.168.0.2

NIC2-2

10.0.0.2

串行端口

COM1

  • 共享磁盘 (Shared disk)

    DISK心跳 盘符

    Q

    文件系统

    RAW

    切换资源的分区盘符

    R

    文件系统

    NTFS

3.2. 确定操作形态

EXPRESSCLUSTER支持多种形式的操作形态。有以一方服务器作为运行服务器,另一方作为待机服务器的单向待机形式和双方服务器互为不同业务的当前和待机服务器的双向待机形式。

  • 单向待机集群
    集群系统中,同一业务应用程序只有1个在运行的系统形态。发生失效切换后不会有性能下降等问题,但正常运行时,待机服务器的资源被浪费。
    连接共享磁盘的2台服务器

    图 3.2 单向待机集群

  • 同一应用程序双向待机集群
    集群系统中,运行多个同一业务应用程序的系统形态。构筑这样的形态,需要支持业务的多重启动。
    连接共享磁盘的2台服务器

    图 3.3 同一应用程序双向待机集群

  • 不同种类应用程序的双向待机集群
    多种业务应用程序在不同的服务器上运行,相互处于待机的系统形态。正常运行时资源也不浪费。但发生失效切换后,由于同一台服务器上运行2种业务,业务性能会降低。
    连接共享磁盘的2台服务器

    图 3.4 不同种类应用程序的双向待机集群

3.2.1. 单向待机集群的失效切换流程

单向待机集群中,某一业务运行的组在集群内通常被限制在1台服务器上运行。

3.2.1.1. 使用共享磁盘时

1. 在Server 1上执行业务A(Application A)。 在此,在同一集群内,业务A不能被执行多次。

连接共享磁盘的2台服务器

图 3.5 单向待机集群(使用共享磁盘): (1) 一般使用时

  1. 某处发生异常,Server 1宕机。

    连接共享磁盘的2台服务器

    图 3.6 单向待机集群(使用共享磁盘): (2) 服务器宕机时

  2. 业务从Server 1交接到Server 2。

    连接共享磁盘的2台服务器

    图 3.7 单向待机集群(使用共享磁盘): (3) 失效切换时

  3. 恢复Server 1后,可以将业务A(Application A)的组从Server 2移动到Server 1。

    连接共享磁盘的2台服务器

    图 3.8 单向待机集群(使用共享磁盘): (4) 服务器恢复后

3.2.1.2. 使用镜像磁盘时

1. 在Server 1上执行业务A(Application A)。 在此,在同一集群内,业务A不能被执行多次。

连接到各种Mirror disk的Server 1,Server 2

图 3.9 单向待机集群(使用镜像磁盘): (1) 一般使用时

  1. 某处发生异常,Server 1宕机。

    连接到各种Mirror disk的Server 1,Server 2

    图 3.10 单向待机集群(使用镜像磁盘): (2) 服务器宕机时

  2. 业务从Server 1交接到Server 2。

    连接到各种Mirror disk的Server 1,Server 2

    图 3.11 单向待机集群(使用镜像磁盘): (3) 失效切换时

  3. 为了恢复业务,将从连接到Server 2的Mirror disk中恢复数据。

    连接到各种Mirror disk的Server 1,Server 2

    图 3.12 单向待机集群(使用镜像磁盘): (4) 恢复数据时

  4. 恢复Server 1后,可以将业务A(Application A)的组从Server 2移动到Server 1。

    连接到各种Mirror disk的Server 1,Server 2

    图 3.13 单向待机集群(使用镜像磁盘): (5) 服务器恢复后

3.2.2. 双向待机集群失效切换流程

双向待机集群中,各服务器上可以运行多种业务。如果发生失效切换,由于单个服务器上运行多个业务,故负荷比正常状态增加,性能下降。

3.2.2.1. 使用共享磁盘时

  1. 在Server 1执行业务A(Application A),在Server 2上执行业务B(Application B)。

    连接共享磁盘的2台服务器

    图 3.14 双向待机集群(使用共享磁盘): (1) 一般使用时

  2. 某处发生异常,Server 1宕机。

    连接共享磁盘的2台服务器

    图 3.15 双向待机集群(使用共享磁盘): (2) 服务器宕机时

  3. 业务A从Server 1交接到Server 2。

    连接共享磁盘的2台服务器

    图 3.16 双向待机集群(使用共享磁盘): (3) 失效切换时

  4. 恢复Server 1后,可以将业务A(Application A)的组从Server 2移动到Server 1。

    连接共享磁盘的2台服务器

    图 3.17 双向待机集群(使用共享磁盘): (4) 服务器恢复后

3.2.2.2. 使用镜像磁盘时

  1. 在Server 1执行业务A(Application A),在Server 2上执行业务B(Application B)。

    连接到各种Mirror disk的Server 1,Server 2

    图 3.18 双向待机集群(使用镜像磁盘): (1) 一般使用时

  2. 某处发生异常,Server 1宕机。

    连接到各种Mirror disk的Server 1,Server 2

    图 3.19 双向待机集群(使用镜像磁盘): (2) 服务器宕机时

  3. 业务A从Server 1交接到Server 2。

    连接到各种Mirror disk的Server 1,Server 2

    图 3.20 双向待机集群(使用镜像磁盘): (3) 失效切换时

  4. 为了恢复业务A,将从Server 2的Mirror partition1中恢复数据。

    连接到各种Mirror disk的Server 1,Server 2

    图 3.21 双向待机集群(使用镜像磁盘): (4) 恢复数据时

  5. 恢复Server 1后,可以将业务A(Application A)的组从Server 2移动到Server 1。

    连接到各种Mirror disk的Server 1,Server 2

    图 3.22 双向待机集群(使用镜像磁盘): (5) 服务器恢复后

3.3. 决定要二重化的应用程序

二重化的应用程序作为EXPRESSCLUSTER集群系统上的集群对象是否合适,需对以下内容进行充分讨论后再判断。

3.3.1. 对象应用程序的注意事项

3.3.1.1. 注意事项1:出现故障时的数据修复

发生故障时运行服务器的应用程序更新的文件,在失效切换后待机服务器中应用程序访问该文件时,可执行会处于数据不完整的状态。

非集群(单个服务器)发生故障后重启时也会出现相同的情况,因此需要应用程序有处理此类故障的机制,而集群系统上更是需要不用手动(通过脚本)就可以进行恢复的机制。

3.3.1.2. 注意事项2:结束应用程序

EXPRESSCLUSTER停止/移动业务组(在线故障恢复)时,将对业务组使用的文件系统进行Unmount。因此,在应用程序的结束指示中,需要停止对共享磁盘或者镜像磁盘上所有文件的访问。

一般通过结束脚本执行应用程序结束指示命令,但需要注意结束指示命令有时候会异步(同应用程序的结束)结束。

3.3.1.3. 注意事项3:保存数据的位置

EXPRESSCLUSTER 可以在服务器间继承的数据如下。

  • 磁盘资源的切换分区上的数据或者镜像磁盘资源/共享型镜像磁盘资源的数据分区上的数据
  • 通过注册表同步资源同步的注册表键值。
    需要将应用程序的数据和服务器间共享的数据,服务器固有的数据保存在不同的配置位置。

数据种类

配置位置

想继承的数据

用户数据等

磁盘资源的切换分区或者镜像磁盘资源/共享型镜像磁盘资源的数据分区

不想继承的数据

程序,设置信息等

服务器的本地磁盘

3.3.1.4. 注意事项4:多个业务组

在双向待机的运行形态中,必须假定(由于故障而进行降级运行时) 1个服务器上同一应用程序的多个业务组在运行。
需要单一服务器能够同时执行多个业务组。另外,应用程序必须通过以下任一方法继承资源。

下图为共享磁盘型的示例,镜像磁盘型的情况也一样。

连接共享磁盘的Server 1,Server 2

图 3.23 各服务器上业务正常运行(双向待机集群)

  • 多个实例启动
    是启动新的其他实例 (进程)的方法。需要能运行多个应用程序。
    连接共享磁盘的Server 1,Server 2

    图 3.24 多个实例启动

  • 应用程序重启
    通过停止,重启本来正在运行的应用程序,
    使添加的资源变得可处理的方法。
    连接共享磁盘的Server 1,Server 2

    图 3.25 应用程序重启

  • 动态添加
    对运行中的应用程序,通过自动或者脚本
    指示添加资源的方法。
    连接共享磁盘的Server 1,Server 2

    图 3.26 动态添加

3.3.1.5. 注意事项5:与应用程序的相互干涉,亲和性问题

因与EXPRESSCLUSTER的功能和运行所需的OS功能相互干涉,应用程序或 EXPRESSCLUSTER有时会不能正常运行。

  • 共享磁盘与镜像磁盘的访问控制
    资源停止状态下,磁盘资源所管理的共享磁盘上的切换分区及镜像磁盘资源/共享型镜像磁盘资源所镜像的数据分区被限制访问,无法读入和写入。若应用程序访问停止状态的(即无法通过用户和应用程序进行访问)共享磁盘或镜像磁盘,则出现I/O错误。
    一般可以假定从EXPRESSCLUSTER启动的应用程序在其启动的时点上,应该访问的切换分区或镜像分区已处于可访问状态。
  • Multihome环境及IP地址的移动
    集群系统中一般一个服务器有多个IP地址。此外由于浮动IP地址和虚拟IP地址在服务器间移动,因此各服务器的IP地址的结构是动态变化的。如果业务应用程序不支持这样的Multihome环境,则可执行出现例如要获取本地服务器的IP地址,结果错误地获取了私网的地址,由于与客户端进行通信所使用的地址不同,因此造成错误运行这样的情况。因此,如果为需要知道服务器端的IP地址的业务应用程序,则需要明确指示使用的IP地址。
  • 应用程序对共享磁盘或镜像磁盘的访问
    业务组的停止不会通知与业务应用程序共存的其他应用程序。若在停止业务组时正在对该组所使用的切换分区或数据分区进行访问,则分离磁盘将失败。
    在提供系统监视服务的应用程序中,有定期访问所有磁盘分区这样的功能。此时需要可以指定监视对象分区的功能等。

3.3.2. 注意事项的结构

将对象应用程序设为不同的待机形态,其注意事项也将不同。注意事项与"注意事项"(1~5)相对应。

  • 单向待机[操作-待机] 注意事项:1 2 3 5

  • 双向待机[操作-操作] 注意事项:1 2 3 4 5

  • 共存运行 注意事项:5
    以共享的方式运行,不进行集群系统下失效切换的运行形态。

3.3.3. 注意事项的对策

问题点

对策

注意事项对应的编号

数据文件更新中发生故障时,待机服务器中的应用程序不能正常运行

修改程序,或者添加/修改脚本资源,在失效切换时执行更新过程中的数据恢复处理

注意事项 1

即使停止应用程序,在一定的时间内,还在继续访问共享磁盘或镜像磁盘

在停止脚本中使用sleep命令,等待

注意事项 2

一台服务器上不能启动多个同一应用程序

双向待机操作中,失效切换时通过重启应用程序继承共享数据

注意事项 3

3.3.4. 确定业务形态

了解本章的大致内容后,请确认业务形态。

  • 何时启动哪个应用程序

  • 启动时或失效切换时需要进行哪些必要的处理

  • 切换分区或磁盘分区中应保存哪些信息

3.4. 设计失效切换组的结构

失效切换组(以下称为组)是指执行集群系统中的某个独立的业务时所必须的资源的集合,是进行失效切换的单位。

组拥有组名,组资源的属性。

连接共享磁盘的2台服务器

图 3.27 失效切换组和组资源

各组的资源分别以组的形式被集体处理。即,如果拥有磁盘资源1和浮动IP资源1的Group1中发生了失效切换,则磁盘资源1和浮动IP资源1将发生失效切换(不会发生仅磁盘资源1进行失效切换的现象)。
另外,同一资源不会包含在其他组中。

3.5. 讨论组资源

要在集群系统实现失效切换,需要创建构成失效切换单位的组。组由组资源构成。为了创建最合适的集群,需要很好地理解添加什么样的组资源,如何设置等内容。

参见

各资源的详细信息请参考《参考指南》的"组资源的详细信息"。

当前支持的组资源如下。

组资源名

略称

应用程序资源

appli

CIFS资源

cifs

浮动DNS资源

ddns

浮动IP资源

fip

共享型镜像磁盘资源

hd

镜像磁盘资源

md

NAS资源

nas

注册表同步资源

regsync

脚本资源

script

磁盘资源

sd

服务资源

service

打印机spool资源

spool

虚拟计算机名资源

vcom

虚拟IP资源

vip

虚拟机资源

vm

AWS Elastic IP资源

awseip

AWS虚拟IP资源

awsvip

AWS DNS资源

awsdns

Azure 探头端口资源

azurepp

Azure DNS资源

azuredns

Google Cloud 虚拟 IP 资源

gcvip

Google Cloud DNS 资源

gcdns

Oracle Cloud 虚拟 IP 资源

ocvip

3.6. 理解监视资源

监视资源用来监视指定的监视对象。查出监视对象的异常时,进行组资源的重启或失效切换等。
监视资源的可监视状态的范围分为常时监视和启动时监视2 种。
常时监视

监视从集群启动时到集群停止时的期间。

启动时监视

监视从组启动时到组停止时的期间。

参见

关于各资源的详细信息,请参考《参考指南》的"监视资源的详细信息"。

当前支持的监视资源如下。

监视资源名

略称

不间断监视

启动时监视

应用程序监视资源

appliw

CIFS监视资源

cifsw

DB2监视资源

db2w

动态DNS监视资源

ddnsw

磁盘RW监视资源

diskw

浮动IP监视资源

fipw

FTP监视资源

ftpw

自定义监视资源

genw

共享型镜像磁盘监视资源

hdw

共享型镜像磁盘TUR监视资源

hdtw

HTTP监视资源

httpw

IMAP4监视资源

imap4w

IP监视资源

ipw

镜像磁盘监视资源

mdw

镜像连接监视资源

mdnw

NIC Link Up/Down监视资源

miiw

Multi-Target监视资源

mtw

NAS监视资源

nasw

ODBC监视资源

odbcw

Oracle监视资源

oraclew

WebOTX监视资源

otxw

POP3监视资源

pop3w

PostgreSQL监视资源

psqlw

注册表同步监视资源

regsyncw

磁盘TUR监视资源

sdw

服务监视资源

servicew

SMTP监视资源

smtpw

打印机spool监视资源

spoolw

SQL Server监视资源

sqlserverw

Tuxedo监视资源

tuxw

虚拟计算机名监视资源

vcomw

虚拟IP监视资源

vipw

Websphere监视资源

wasw

Weblogic监视资源

wlsw

虚拟机监视资源

vmw

消息接收监视资源

mrw

JVM监视资源

jraw

系统监视资源

sraw

进程资源监视资源

psrw

进程名监视资源

psw

用户空间监视资源

userw

AWS Elastic IP监视资源

awseipw

AWS虚拟IP监视资源

awsvipw

AWS AZ监视资源

awsazw

AWS DNS监视资源

awsdnsw

Azure 负载均衡器监视资源

azureppw

Azure 探头端口监视资源

azurelbw

Azure DNS监视资源

azurednsw

Google Cloud 虚拟 IP 监视资源

gcvipw

Google Cloud 负载均衡监视资源

gclbw

Google Cloud DNS 监视资源

gcdnsw

Oracle Cloud 虚拟 IP 监视资源

ocvipw

Oracle Cloud 负载均衡监视资源

oclbw

3.7. 理解心跳资源

集群内的服务器对其它服务器进行死活监视。服务器间的死活监视使用心跳资源。

  1. 内核模式LAN心跳(Primary interconnect)

    连接共享磁盘的2台服务器

    图 3.28 内核模式LAN心跳(Primary interconnect)

  2. 内核模式LAN心跳(Secondary interconnect)

    连接共享磁盘的2台服务器

    图 3.29 内核模式LAN心跳(Secondary interconnect)

  3. BMC心跳

    连接共享磁盘的2台服务器

    图 3.30 BMC心跳

  4. Witness心跳

    连接共享磁盘的2台服务器

    图 3.31 Witness心跳

心跳资源的种类

略称

功能概要

内核模式LAN心跳
资源 (1)(2)

lankhb

内核模式的模块使用LAN进行服务器的死活监视

BMC 心跳资源 (3)

bmchb

使用BMC,进行服务器的死活监视

Witness 心跳资源 (4)

witnesshb

使用Witness,进行服务器的死活监视。

  • 至少需要设置一个内核模式LAN心跳资源。推荐设置两个以上。

  • 必须设置一个以上的所有服务器间能通信的内核模式LAN心跳。

3.8. 理解网络分区解决资源

网络分区状态是指集群服务器间的所有通信路径都发生故障,导致网络切断的状态。

在无法处理网络分区状态的集群系统中,无法区分通信路径的故障和服务器的故障,有时会发生多个服务器访问同一资源导致数据被损坏的情况。在EXPRESSCLUSTER中,如果查出其他服务器的心跳中断,就会判断是服务器的故障还是网络分区状态。判定为服务器宕机时,在正常的服务器上启动各种资源,启动业务应用程序,来执行失效切换。判定为网络分区状态时,与维持业务运行相比要优先保护数据,所以会实施紧急关机等处理。

网络分区解决有如下方法。

  • COM方式

    • 可以在2节点集群中使用。

    • 需要串行交叉电缆。

    • 使用COM通信路径对对方服务器进行生存确认,来判断网络分区状态。

    • 在COM通信路径(COM端口或串行交叉电缆)发生异常的状态下发生服务器宕机时,由于网络分区解决失败,所以无法进行失效切换。对正常的服务器也需实施紧急关机。

    • 在COM通信路径正常的状态下如果所有的网络通信路径发生故障,则查出网络分区,对除主服务器以外的所有服务器实施紧急关机。

    • 在COM通信路径(COM端口或串行交叉电缆)发生异常的状态下所有网络通信路径发生故障时,紧急关掉所有的服务器。

    • 万一集群服务器间所有的网络通信路径与COM通信路径同时发生了故障,则在两台服务器间执行失效切换。此时可执行会发生多个服务器访问同一资源导致数据被损坏的情况。

  • PING方式

    • 需要可以接收ping命令,返回应答的常时运行的装置(以下简称为"ping 装置")。

    • 可以指定多个用于ping的装置。

    • 查出其他服务器的心跳中断时,如果用于ping的装置对ping命令做出的应答,则判断心跳中断的服务器宕机,实施失效切换,如果没有对ping命令做出的应答,则根据网络分区状态判断其自身独立于网络并紧急关机。据此,发生网络分区状态时,可以在能与客户端进行通信的服务器上继续业务。

  • HTTP 方式

    • 必须配备始终处于运行状态的Web服务器。

    • 查出其他服务器心跳中断时,如果对HTTP HEAD的请求有响应,则判断心跳中断的服务器宕机,实施故障转移;如果没有响应,则根据网络分区状态判断其自身独立于网络并对其实施紧急关机。据此,发生网络分区状态时,可以在能与客户端进行通信的服务器上继续业务。

    • 如果由于Web服务器故障等导致心跳中断之前,持续对HTTP HEAD 请求没有响应,则由于解决网络分区失败,在这种状态下查出心跳中断时,所有服务器全部紧急关机。

  • DISK方式

    • 可以在使用共享磁盘的集群中选择。

    • 共享磁盘上需要专用的磁盘分区(用于磁盘心跳的分区)。

    • 在共享磁盘上定期写入数据,通过计算其他服务器的最终生存时刻判断网络分区状态。

    • 在共享磁盘或共享磁盘的路径(SCSI路径等)发生异常的状态下,查出其他服务器的心跳中断时,由于解决网络分区失败,而无法执行失效切换。正常的服务器也要紧急关机。

    • 在共享磁盘正常的状态下所有的网络通信路径发生故障时,查出网络分区,对主服务器及可以和主服务器通信的服务器实施失效切换处理。其他服务器全部紧急关机。

    • 与其他方式相比,由于需要考虑磁盘I/O的延迟,解决网络分区比较花费时间。此时间约是集群的属性中设置的心跳超时时间和磁盘IO等待时间中较长的时间的2倍。

    • 如果共享磁盘的IO时间比磁盘IO等待时间长,则可执行发生解决网络分区处理超时无法进行失效切换的情况。

    注解

    使用VERITAS Storage Foundation时无法使用DISK方式。

  • COM+ DISK方式

    • 组合COM方式与DISK方式的方式。可以在使用2节点的共享磁盘的集群中选择。

    • 需要串行交叉电缆。此外,共享磁盘上需要专用的磁盘分区(用于磁盘心跳的分区)。

    • 在COM通信路径(COM端口及串行交叉电缆)处于正常状态时与COM方式进行相同动作,但如COM通信路径发生异常,将切换为DISK方式。因此,与仅使用COM方式时相比实现了高可用性,同时,与仅使用DISK方式相比,也能够高速完成网络分区解决。

    • 万一集群服务器间的所有网络通信路径与COM通信路径同时发生故障,由于至少会对一方的服务器实施紧急关机,所以可以避免数据被损坏。

  • PING+DISK方式

    • 组合PING方式与DISK方式的方式。

    • 需要可以接收ping命令,返回应答的常时运行的装置(用于ping的装置)。可以指定多个用于ping的装置。此外,共享磁盘上需要专用的磁盘分区(用于磁盘心跳的分区)。

    • 通常与PING方式进行相同动作,但如因用于ping的装置发生故障等原因,在心跳停止前持续ping命令全服务器无应答的状态,则切换为DISK方式。但是,如使用PING方式与DISK方式各自的NP解决资源的服务器不一致(例如,有在所有服务器上使用的PING方式的资源与仅在连接共享磁盘装置的部分服务器上使用的DISK方式的资源等)时,各自的资源将分别动作,因此,无论用于ping的装置状态如何,都将运行DISK方式。

    • 在共享磁盘或共享磁盘的路径发生异常的状态下,如果查出其他服务器的心跳中断,则在对ping命令做出应答的状态下也会紧急关机。

  • 多数决定方式

    • 可以在3节点以上的集群中使用。

    • 通过对由于网络故障无法与整个集群的大多数服务器通信的服务器实施紧急关机,防止由于网络分区症状导致数据被损坏。
      此外,若刚好无法与半数的服务器通信时,将对无法与主服务器通信的服务器执行紧急关机。
    • 超过半数的服务器宕机时,剩余的所有正常的服务器也宕机。

    • 由于集线器的故障等导致所有服务器分离时所有服务器宕机。

  • 不进行网络分区解决

    • 可以在不使用磁盘资源(共享磁盘)的集群中进行选择。

    • 万一集群服务器间的所有网络通信路径发生故障,则对所有服务器执行失效切换。

推荐的网络分区解决方式如下。

  • 在3节点以上使用共享磁盘的集群中,推荐PING+DISK方式。使用共享型镜像磁盘时,在连接了共享磁盘的服务器上使用PING+DISK方式,在未连接共享磁盘的服务器上只使用PING方式。

  • 在3节点以上不使用共享磁盘的集群中,推荐PING方式。

  • 在2节点以上使用共享磁盘的集群中,推荐COM+DISK方式或PING+DISK方式。

  • 在2节点间不使用共享磁盘的集群中,推荐COM方式或PING方式。

  • 使用Witness心跳资源,不使用共享磁盘的集群,推荐HTTP方式。

网络分区
解决方式
节点数
所需HW
无法失效切换
的情况
全部网络路径中断时
两台服务器失效切换的情况
网络分区解决
所需的时间

COM

2

串行线缆

COM异常

主服务器生存

整个网络中断的同时发生COM异常

0

DISK
没有限制
共享磁盘
磁盘异常
主服务器生存
需要通过心跳超时与磁盘IO等待时间计算出的时间

PING

没有限制

接收ping命令并返回应答的装置

对ping命令有应答的服务器生存

ping命令进行指定次数的连接超时后,整个网络中断

0

HTTP

没有限制

Web 服务器

Web 服务器故障

能与Web 服务器通信的服务器可判定为在线

0

COM+
DISK
2
串行线缆,
共享磁盘
COM异常并且
磁盘异常

主服务器生存

0

PING +
DISK
没有限制
接收ping命令并返回应答的装置,
共享磁盘

对ping命令有应答的服务器生存

0

多数决定

3以上

超过半数的服务器宕机

可以与超过半数的服务器进行通信的服务器生存

0

没有限制

全体服务器进行失效切换

整个网络中断时

0

4. 安装EXPRESSCLUSTER

本章就EXPRESSCLUSTER的安装步骤进行说明。

本章说明的项目如下。

4.1. 从安装EXPRESSCLUSTER到生成集群的流程

从安装EXPRESSCLUSTER到注册License,生成集群系统到确认集群状态为止的流程如下所示。

在介绍以下步骤前,请务必先阅读"2. 确定系统配置" "设计集群系统",确认所需的运行环境及生成的集群的配置内容。

  1. 安装EXPRESSCLUSTER Server

    在构成集群的各服务器中安装EXPRESSCLUSTER的主模块EXPRESSCLUSTER Server。安装时,也要注册License
    (4. 安装EXPRESSCLUSTER)。(需要重启服务器OS)
  2. 创建使用Cluster WebUI的集群配置信息

    使用Cluster WebUI,创建集群配置信息
  3. 生成集群

    使用Cluster WebUI创建的集群配置信息生成集群
  4. 确认使用了Cluster WebUI的设置

    使用Cluster WebUI,确认生成的集群的状态。

参见

为了能够按照本指南的流程进行操作,需要在遵守本指南的步骤的同时,随时参考《EXPRESSCLUSTER X 参考指南》。此外,关于运行环境及Release信息等的最新信息,请参考《EXPRESSCLUSTER X 开始指南》的"EXPRESSCLUSTER的运行环境"及"最新版本信息"。

4.2. 安装EXPRESSCLUSTER Server

在构成集群系统的各服务器上安装EXPRESSCLUSTER的本体模块EXPRESSCLUSTER Server。

安装时需要注册License。备有所需的License文件或License Sheet。

EXPRESSCLUSTER Server由以下的系统服务构成

服务显示名
服务名
说明
启动类型
服务状态
(通常时)

EXPRESSCLUSTER

clpstartup

EXPRESSCLUSTER本体

自动

正在运行

EXPRESSCLUSTER API

clprstd

EXPRESSCLUSTER Restfl API 控制

自动

停止

EXPRESSCLUSTER Disk Agent

clpdiskagent

控制共享磁盘,镜像磁盘,共享型镜像磁盘

手动

正在运行

EXPRESSCLUSTER Event

clpevent

输出事件日志

自动

正在运行

EXPRESSCLUSTER Information Base

clpibsv

集群信息管理

自动

正在运行

EXPRESSCLUSTER Java Resource Agent

clpjra

Java Resource Agent

手动

停止

EXPRESSCLUSTER Manager

clpwebmgr

WebManager服务器

自动

正在运行

EXPRESSCLUSTER Old API Support

clpoldapi

兼容API处理

自动

正在运行

EXPRESSCLUSTER Server

clppm

EXPRESSCLUSTER服务器

自动

正在运行

EXPRESSCLUSTER System Resoruce Agent

clpsra

System Resource Agent

手动

停止

EXPRESSCLUSTER Transaction

clptrnsv

通信处理

自动

正在运行

EXPRESSCLUSTER Web Alert

clpwebalt

同步警报

自动

正在运行

注解

设定了JVM监视资源的时候,EXPRESSCLUSTER Java Resource Agent 是正在运行状态。

注解

设定了系统监视资源和进程资源监视资源的时候,或者[集群属性] - [监视]标签页- [收集系统资源信息] 的复选框选中的时候,EXPRESSCLUSTER System Resoruce Agent是正在运行状态。

4.2.1. 全新安装EXPRESSCLUSTER Server

按照以下步骤在构成集群的各服务器中安装EXPRESSCLUSTER Server。

重要

使用共享磁盘时,请不要在与共享磁盘相连的,未安装EXPRESSCLUSTER的服务器上同时启动多个OS。否则可执行会损坏共享磁盘上的数据。

注解

请使用拥有Administrator权限的账号安装EXPRESSCLUSTER Server。

注解

安装EXPRESSCLUSTER Server,Windows的媒体感知功能(在因LAN电缆拔除等而发生链接断开的情况下IP地址为停止的功能)变为无效。

注解

已安装Windows SNMP Service时,通过安装EXPRESSCLUSTER Server可以自动设置SNMP联动功能。但是,未安装时则不能被设置。
关于安装EXPRESSCLUSTER Server后的设置方法,请参考"手动设置SNMP联动功能"。
  1. 将安装盘放入CD-ROM驱动器。

  2. 显示菜单画面后选择EXPRESSCLUSTER® for Windows。

    注解

    菜单画面无法自动启动时,双击CD-ROM的根文件夹中的menu.exe。

  3. 选择EXPRESSCLUSTER X 4.3 for Windows。

  4. 显示[EXPRESSCLUSTER安装]。点击[下一步]。

  5. 显示[选择安装地址]。更改时点击[参照]指定目录。点击[下一步]。

  6. 显示[可以安装该程序了]。点击[安装]开始安装。

  7. 结束安装后,会显示[端口号]画面。通常选择默认值点击[下一步]。

    注解

    在此设置的端口号需要在创建集群配置信息时再次设置。关于设置端口号的详细信息请参考《参考指南》的"参数的详细信息"。

  8. 显示[共享磁盘的过滤设定]。右击与共享磁盘相连接的SCSI控制器或HBA,点击[过滤]。点击[下一步]。

    重要

    使用共享磁盘时,必须对连接共享磁盘的SCSI控制器或HBA进行过滤设置。如果在没有设置过滤的状态下连接共享磁盘则可执行会损坏共享磁盘上的数据。磁盘路径二重化时,虽然看上去共享磁盘像是只连接在其中某一个HBA下,但是需要对共享磁盘物理连接的所有HBA进行过滤设置。

    重要

    使用镜像磁盘资源时,对连接镜像化对象的内置磁盘的SCSI控制器或HBA,请不要进行过滤设置。镜像磁盘资源启动失败。另外,使用共享型镜像磁盘资源镜像化共享磁盘时,必须进行过滤设置。

  9. 显示是否进行过滤设置的确认画面。点击[]。

  10. 显示[License 管理]。点击[登录],注册License。注册方法请参考本指南的"5. 注册License"。

  11. 点击[结束],结束License 管理。

  12. 显示[完成安装向导]。显示是否重启的确认画面后,选择重启点击[完成]。服务器重启。

注解

在使用共享磁盘的环境下,OS的重启完成后,由于设有访问限制,所以处于无法访问共享磁盘的状态。

4.2.2. 静默模式安装EXPRESSCLUSTER Server

静默模式是指执行安装的过程中,不显示需要用户应答的对话框,自动执行安装的方式。所有服务器上的安装目录和安装选项都相同的情况下使用这种功能比较便利。使用这个功能不仅可以减少用户在安装时的操作,也可以防止设定失误导致的安装错误。
按照以下步骤,在配置集群的各个服务器上安装EXPRESSCLUSTER Server。

注解

配置共享磁盘时不能使用本功能。
配置共享磁盘时,请按照「全新安装EXPRESSCLUSTER Server」进行安装。

注解

请由拥有Administrator权限的账户进行安装。

注解

安装EXPRESSCLUSTER Server,Windows的媒体感知功能(在因LAN电缆拔除等而发生链接断开的情况下IP地址为停止的功能)变为无效。

注解

已安装Windows SNMP Service时,通过安装EXPRESSCLUSTER Server可以自动设置SNMP联动功能。但是,未安装时则不能被设置。
关于安装EXPRESSCLUSTER Server 后的设置方法,请参考"4.2.4. 手动设置SNMP联动功能"。

<事前准备>

如果要改变安装目录(默认值是 "C:\Program Files\EXPRESSCLUSTER" ),须事先做成应答文件。请按照以下的步骤做成应答文件。

  1. 把应答文件从安装盘复制到服务器可以访问的目录下。
    复制安装盘里的 Windows\4.3\common\server\x64\response\setup_inst_jp.iss
  2. 用文本编辑器打开响应文件(setup_inst_jp.iss),更改写在szDir行上的文件夹。

    Count=4
    Dlg1={8493CDB6-144B-4330-B945-1F2123FADD3A}-SdAskDestPath-0
    Dlg2={8493CDB6-144B-4330-B945-1F2123FADD3A}-SdStartCopy2-0
    Dlg3={8493CDB6-144B-4330-B945-1F2123FADD3A}-SdFinishReboot-0
    [{8493CDB6-144B-4330-B945-1F2123FADD3A}-SdWelcome-0]
    Result=1
    [{8493CDB6-144B-4330-B945-1F2123FADD3A}-SdAskDestPath-0]
    szDir=C:\Program Files\CLUSTERPRO
    Result=1
    

<安装步骤>

  1. 从命令提示符执行下列命令,启动安装。
    # "<silent-install.bat的路径>\silent-install.bat" -i <应答文件的路径>
    ※<silent-install.bat的路径>是:
    安装盘里的 Windows\4.3\common\server\x64\silent-install.bat
    ※向默认路径("C:\Program Files\EXPRESSCLUSTER")安装时,请省略<应答文件的路径>。
  2. 重启服务器。

  3. 从命令提示符执行下列命令,注册License。
    # "<安装目录>\bin\clplcnsc.exe" -i <License文件的路径>

4.2.3. 从旧版EXPRESSCLUSTER Server升级

首先请确认以下注意事项。

  • 可以从Windows版EXPRESSCLUSTER X 1.0/2.0/2.1/3.0/3.1/3.2/3.3升级到Windows版EXPRESSCLUSTER X 4.3 。其他版本无法升级。

  • 从Windows版EXPRESSCLUSTER X 1.0/2.0/2.1/3.0/3.1/3.2/3.3升级到Windows 版EXPRESSCLUSTER X 4.3 时,需要使用X 4.3 的许可证(使用各种可选产品时还包括这些产品的许可证)以及包含X 4.3 的CD媒体。

  • 使用比本产品更新的版本创建的EXPRESSCLUSTER 的配置信息,不能在本产品中使用。

  • Windows版 X1.0/2.0/2.1/3.0/3.1/3.2/3.3/4.0/4.1/4.2/4.3 的EXPRESSCLUSTER的配置信息可在本产品中使用。

  • 使用镜像磁盘资源/共享型镜像磁盘资源时,集群分区空间的大小要在1024MB以上。此外,需要镜像磁盘资源/共享型镜像磁盘资源的全复制。

  • 使用镜像磁盘资源/共享型镜像磁盘资源时,推荐事前做数据的备份。关于备份请参考《维护指南》的"维护信息"的"执行快照备份"。

  • 请使用拥有Administrator权限的账号升级EXPRESSCLUSTER Server。

参见

从X 4.0 / 4.1/ 4.2升级到X 4.3 的步骤请参考《升级步骤手册》。

以下,就有关从Windows版EXPRESSCLUSTER X 1.0/2.0/2.1/3.0/3.1/3.2/3.3进行升级的步骤进行说明。

  1. 开始升级前,请使用WebManager或命令确认正在运行集群的各服务器的状态以及所有资源的状态是否正常。

  2. 备份集群配置信息。集群配置信息除了在做成时通过Builder保存外,通过clpcfctrl命令也可以做成备份。详细请参考《参考指南》的"EXPRESSCLUSTER命令参考"- "生成集群,备份集群配置信息(clpcfctrl命令)" - "备份集群配置信息(clpcfctrl --pull)"。

  3. 关于各服务器,如果EXPRESSCLUSTER Server服务自动启动,请更改为手动启动。

  4. 停止集群。

  5. 启动一台服务器,卸载EXPRESSCLUSTER。卸载步骤请参考"10. 卸载/重装EXPRESSCLUSTER "的"10.1.1. 卸载EXPRESSCLUSTER Server"。

  6. 步骤5卸载的服务器上,安装EXPRESSCLUSTER X 4.3。安装步骤请参考本章的"4.2.1. 全新安装EXPRESSCLUSTER Server"。

  7. 停止安装了EXPRESSCLUSTER X 4.3 的服务器。

  8. 在构成集群的所有服务器上执行5~7的步骤。

  9. 启动构成集群的所有服务器。

  10. 使用镜像磁盘资源/共享型镜像磁盘资源时,要准备1024MB以上的分区作为集群分区。

  11. 访问以下网址启动WebManager
    http://安装的服务器的实际IP地址:29003/main.htm
    导入集群配置信息,读取备份的配置信息。
    镜像磁盘资源/共享型镜像磁盘资源使用的集群分区的盘符和配置信息不一致时,修改配置信息。另外,镜像磁盘资源/共享型镜像磁盘资源所属的组的[属性]的[属性]标签页的[组启动属性]是自动启动的场合,设置成手动启动。
    此外,由于失效切换次数的计数单位与版本升级前的操作相同,因此,[集群属性] - [扩展] 标签页 - [失效切换次数的计数单位] 更改为 [集群]。
  12. 应用配置信息。
    显示[配置信息中存在某个磁盘信息与服务器上的磁盘信息不一致。是否进行自动修正?]消息的时候,选择[是]。

    使用期间定制License时,执行以下命令。

    clplcnsc --distribute
    
  13. 启动Cluster WebUI,开始集群。

  14. 使用镜像磁盘资源/共享型镜像磁盘资源时,从镜像磁盘列表,持有最新信息的服务器作为复制源,执行全复制。

  15. 启动组,确认各资源正常启动。

  16. 步骤11的[组启动属性]是自动启动变为手动启动的场合,通过Cluster WebUI 的编辑模式设置回自动启动,点击 [应用配置文件],将集群配置信息应用到集群。

  17. 至此EXPRESSCLUSTER Server升级完毕。通过使用Cluster WebUI或clpstat指令,请确认各服务器作为集群是否正常运行。

4.2.4. 手动设置SNMP联动功能

注解

仅使用SNMP陷阱发送送信功能时,不需要进行本步骤。

要支持SNMP 发出的信息获取请求,需要另外准备Windows SNMP Service及登录SNMP联动功能。
通常,安装EXPRESSCLUSTER Server时,如果存在Windows SNMP Service,就会自动登录SNMP联动功能,如果不存在就不登录该功能。

在此情况下,请根据以下步骤手动登录。

注解

请使用拥有Administrator权限的账号执行设置。

  1. 安装Windows SNMP Service。

  2. 停止Windows SNMP Service。

  3. 在Windows SNMP Service上登录EXPRESSCLUSTER的SNMP联动功能。
    3-1. 启动注册表编辑器。
    3-2. 打开以下的键值。
    HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\SNMP\Parameters\ExtensionAgents
    3-3. 在打开的键值中以以下的内容来创建字符串值。
    值的名称 :mgtmib
    值的种类 :REG_SZ
    值的数据 :SOFTWARE\NEC\EXPRESSCLUSTER\SnmpAgent\mgtmib\CurrentVersion
    3-4. 结束注册表编辑器。
  4. 启动Windows SNMP Service。

注解

SNMP 通信所需的设置在Windows SNMP Service侧进行。

5. 注册License

为了实际运行创建的集群,需要注册License。本章就EXPRESSCLUSTER的Licence注册步骤进行说明。

本章说明的项目如下。

5.1. 注册License

除安装时注册License外,也可以通过添加对EXPRESSCLUSTER的License进行注册/参照/删除。

5.1.1. 注册CPU License

以下EXPRESSCLUSTER X Professional Edition 4.3 for Windows,在构筑集群的服务器中设置为主服务器的服务器上注册CPU Lincese。

本体产品

  • EXPRESSCLUSTER X Professional Edition 4.3 for Windows

  • EXPRESSCLUSTER X Professional Edition SingleServerSafe 4.3 for Windows

  • EXPRESSCLUSTER X Professional Edition SingleServerSafe for Windows 升级License

5.1.2. 注册 节点License

使用以下EXPRESSCLUSTER X Professional Edition 4.3 for Windows节点License的场合,需要在使用的各服务器上逐一注册License。

本体产品

  • EXPRESSCLUSTER X Professional Edition 4.3 for Windows VM

  • EXPRESSCLUSTER X Professional Edition SingleServerSafe 4.3 for Windows VM

  • EXPRESSCLUSTER X Professional Edition SingleServerSafe for Windows VM 升级License

可选产品

  • EXPRESSCLUSTER X Professional Edition Replicator 4.3 for Windows

  • EXPRESSCLUSTER X Professional Edition Replicator DR 4.3 for Windows

  • EXPRESSCLUSTER X Professional Edition Replicator DR 4.3 Upgrade License for Windows

  • EXPRESSCLUSTER X Professional Edition Database Agent 4.3 for Windows

  • EXPRESSCLUSTER X Professional Edition Internet Server Agent 4.3 for Windows

  • EXPRESSCLUSTER X Professional Edition Application Server Agent 4.3 for Windows

  • EXPRESSCLUSTER X Professional Edition Java Resource Agent 4.3 for Windows

  • EXPRESSCLUSTER X Professional Edition System Resource Agent 4.3 for Windows

  • EXPRESSCLUSTER X Professional Edition Alert Service 4.3 for Windows

注解

没有安装可选产品的License时,对应License的资源及监视资源就不能显示在Cluster WebUI的列表中。

注册形式有输入License Sheet中描述的信息和指定License文件2种方法。

5.1.3. License的注意事项

使用License时的注意事项如下所示。

  • 在主服务器中注册CPULicense后,要创建和反映"6. 创建集群配置信息"中的集群配置信息时,需要从连接主服务器的Cluster WebUI中实施。

5.1.4. 输入License信息注册License

以下说明输入License信息注册License的步骤。
执行本步骤前,请确认以下内容。

注册CPU License时

  • 手头有从经销商处正式获取的License Sheet。购买产品,则经销商会提供License Sheet。输入此License Sheet中的记载值。

  • 在构筑集群系统的服务器中,请确认是否可以作为管理员登录设为主服务器的服务器。

注册节点Lincese时

  • 手头有从经销商处正式获取的License Sheet。购买产品,则经销商会提供License Sheet。在多少台服务器上使用,就要有相应数量的节点License的License Sheet。输入此License Sheet中的记载值。

  • 在构筑集群系统的服务器中,请确认是否可以作为管理员登录到使用可选产品的服务器。

  1. 在[开始]菜单中,点击[EXPRESSCLUSTER Server]的[License管理]。

  2. 显示[License 管理]对话框。点击[登录]。

  3. 显示License注册方法的选择画面。点击[输入License项目之后进行登录]。

  4. 显示[产品选择]对话框。选择注册的License的产品区分,点击[下一步]。

  5. 显示[输入序列号] 对话框。输入产品附带的License Sheet的串行No和License健值。点击[下一步]。

  6. 显示[License登录确认]对话框。确认输入的信息是否有误。如果无误,点击[下一步]。

  7. 确认显示弹出消息"license登录"。如果显示,则表示完成License注册。注册License失败时,从步骤2开始重新注册License。

5.1.5. 指定License文件注册License

以下说明指定License文件注册License的步骤。

执行本步骤前,请确认以下内容。

注册CPU License时

  • 在构筑集群系统的服务器中,可以作为管理员登录到准备设为主服务器的服务器。

  • 在构筑集群系统的服务器中,License文件存在于主服务器的任意位置。

注册节点License时

  • 可以作为管理员登录使用的服务器。

  • 在构筑集群系统的服务器中,License文件存在于要使用的服务器的任意位置。

  1. 在[开始]菜单的中,点击[EXPRESSCLUSTER Server]的[License 管理]。

  2. 显示[License 管理]对话框。点击[登录]。

  3. 显示License注册方法的选择画面。点击[使用License文件进行登录]。

  4. 显示[指定License文件]对话框。指定注册的License文件,点击[打开]。

  5. 显示License注册的确认消息。点击[确定]。

  6. 点击[结束],关闭License 管理。

5.2. 参照/删除License

5.2.1. 参照/删除注册的License

下面对参照及删除注册的License的步骤进行说明。

  1. 在[开始]菜单中,点击[EXPRESSCLUSTER Server]的[License 管理]。

  2. 显示[License 管理]对话框。点击[参照/删除]。

  3. 显示注册的License列表。

  4. 删除时,选择要删除的License,点击[删除]。

  5. 显示确认是否删除的消息。点击[确定]。

5.3. 注册期间定制License

除安装时注册License外,也可以通过添加对EXPRESSCLUSTER的License进行注册/参照/删除。
构筑的集群在期间定制的方式下运行时,使用期间定制License。
使用该License时,License将在注册License后的一段固定期间内有效。
可以注册同一产品的多个License,以备使用中的License到期后其余的License会被启动。
以下是对应于EXPRESSCLUSTER X Professional Edition 4.3 for Windows本体产品以及可选产品的期间定制License。不管是本体产品,还是可选产品,通过要搭建集群的服务器中设置为主服务器的服务器执行期间定制License的注册。

本体产品

  • EXPRESSCLUSTER X Professional Edition 4.3 for Windows

可选产品

  • EXPRESSCLUSTER X Professional Edition Replicator 4.3 for Windows

  • EXPRESSCLUSTER X Professional Edition Replicator DR 4.3 for Windows

  • EXPRESSCLUSTER X Professional Edition Database Agent 4.3 for Windows

  • EXPRESSCLUSTER X Professional Edition Internet Server Agent 4.3 for Windows

  • EXPRESSCLUSTER X Professional Edition Application Server Agent 4.3 for Windows

  • EXPRESSCLUSTER X Professional Edition Java Resource Agent 4.3 for Windows

  • EXPRESSCLUSTER X Professional Edition System Resource Agent 4.3 for Windows

  • EXPRESSCLUSTER X Professional Edition Alert Service 4.3 for Windows

注解

如果没有安装可选产品的License,License对应的资源及监视资源就不能显示在Cluster WebUI的列表中。

注册期间定制License是通过指定License文件进行的。
注册License的步骤请参考"5.3.2. 关于注册期间定制License"。

5.3.1. 期间定制License的注意事项

以下是使用期间定制License的注意事项。

  • 仅部分服务器注册了期间定制License时,集群是不能使用的。

  • 在主服务器上注册License后,"6. 创建集群配置信息"中的集群配置信息的创建和保存,需要通过连接到主服务器的Cluster WebUI来执行。

  • 需要注册集群系统中服务器台数以上的期间定制License。

  • 集群开始运用后,期间定制License的注册也必须在主服务器上进行。

  • 期间定制License一旦被启动,即使删除服务器,更换服务器或者删除License,在有效期内都无法再次注册。

5.3.2. 关于注册期间定制License

下面说明如何注册期间定制Lincense。

执行本步骤前,请确认以下内容。

  • 在构筑集群系统的服务器中,可以作为管理员登录到准备设为主服务器的服务器。

  • 在构筑集群系统的服务器中,使用产品的全部License文件存在于主服务器的任意位置。

用以下步骤注册所用产品的全部License文件。同一产品有多个License时,以备使用中的License到期,用相同的步骤注册剩余的License。

  1. 在[开始]菜单的中,点击[EXPRESSCLUSTER Server]的[License 管理]。

  2. 显示[License 管理]对话框。点击[登录]。

  3. 显示License注册方法的选择画面。点击[使用License文件进行登录]。

  4. 显示[指定License文件]对话框。指定注册的License文件,点击[打开]。

  5. 显示License注册的确认消息。点击[确定]。

  6. 点击[结束],关闭License 管理。

5.4. 参照/删除期间定制License

5.4.1. 参照/删除注册的期间定制License

参照及删除注册的期间定制License的步骤同"5.2.1. 参照/删除注册的License"。

6. 创建集群配置信息

在EXPRESSCLUSTER中,记述集群系统的配置内容的数据称为集群配置信息。使用Cluster WebUI 创建集群配置信息。在本章中,使用配置示例说明Cluster WebUI的启动方法及集群配置信息的步骤。

本章说明的项目如下。

6.1. 创建集群配置信息

使用用于创建/更改集群配置信息的功能的Cluster WebUI的编辑模式创建集群配置信息。

通过从管理PC访问的Cluster WebUI ,启动创建集群配置信息。通过Cluster WebUI将创建的集群配置信息反映给集群系统。

6.2. 启动Cluster WebUI

创建集群配置信息需要访问Cluster WebUI。在此首先说明Cluster WebUI的概要,之后说明访问Cluster WebUI,创建集群配置信息的方法。

参见

关于Cluster WebUI的运行环境,请参考《开始指南》的"EXPRESSCLUSTER的运行环境"。

6.2.1. 何谓Cluster WebUI

所谓Cluster WebUI ,就是通过Web 浏览器进行集群的设置及状态监视,启动/停止服务器/组,以及收集集群运行日志等的功能。下图显示Cluster WebUI的概要。

  1. EXPRESSCLUSTER Server (Main module)

  2. Cluster WebUI

2台服务器和Management PC

图 6.1 Cluster WebUI

图中的2台服务器中已安装EXPRESSCLUSTER。使用管理PC(Management PC)上的浏览器连接到任意一台服务器时,将显示Cluster WebUI画面。 在这种情况下,请指定管理组的浮动IP(FIP)地址或虚拟IP(VIP)地址作为连接目标。

在从管理PC的Web浏览器连接时,URL指定为连接所使用的浮动IP地址或虚拟IP地址。这些地址将注册成为管理组的资源。不存在管理组时,也可以指定构成集群的某一服务器的实际IP地址(固定分配给该服务器的地址)进行连接,但是,此时如果连接目标服务器宕机,则将无法获取集群的状态。

6.2.2. Cluster WebUI支持的浏览器

关于Cluster WebUI已经进行确认的浏览器请参考《开始指南》。

6.2.3. 启动Cluster WebUI

Cluster WebUI的启动步骤如下所示。

  1. 启动Web浏览器。

  2. 在浏览器的地址栏中输入安装了EXPRESSCLUSTER Server的服务器的实际IP地址和端口号。

    http://ip-address:port/
    ip-address

    由于安装后,管理组不存在,因此请指定配置集群的第一台服务器的真实IP地址。

    port

    指定与安装期间指定的WebManager的端口号相同的编号(默认值29003)。

  3. 启动Cluster WebUI。生成集群配置信息时,从工具栏的下拉菜单中选择[编辑模式]。

  4. 点击[集群生成向导]开始生成向导。

参见

与启用加密通信的EXPRESSCLUSTER 服务器连接时,请参考《参考指南》的"参数的详细信息" - "集群属性" - "Web管理器标签页"。使用加密通信时,请输入如下的地址。
https://ip-address:29003/

6.3. 确认设置值

在利用集群生成向导实际创建集群配置信息之前,需要确认集群配置信息的设置值。写出值,确认是否有效创建了集群,信息有无遗漏。

6.3.1. 集群环境的示例

在本章中,以下图中描述的典型的构筑2 节点的集群环境和共享型镜像3节点集群构成为例进行说明。

使用2节点共享磁盘时

连接到Shared disk的Server 1,Server 2

图 6.2 2 节点集群的示例(使用共享磁盘时)

FIP1

10.0.0.11
(从Cluster WebUI客户端访问)

FIP2

10.0.0.12
(从业务客户端访问)

NIC1-1

192.168.0.1

NIC1-2

10.0.0.1

NIC2-1

192.168.0.2

NIC2-2

10.0.0.2

串行端口

COM1

  • 共享磁盘 (Shared disk)

    DISK心跳 盘符

    E

    文件系统

    RAW

    切换分区 盘符

    F

    文件系统

    NTFS

使用2节点镜像磁盘时

连接各种磁盘的Server 1,Server 2

图 6.3 2 节点集群的示例(使用2节点镜像磁盘时)

FIP1

10.0.0.11
(从Cluster WebUI客户端访问)

FIP2

10.0.0.12
(从业务客户端访问)

NIC1-1

192.168.0.1

NIC1-2

10.0.0.1

NIC2-1

192.168.0.2

NIC2-2

10.0.0.2

集群分区 盘符

E

文件系统

RAW

数据分区 盘符

F

文件系统

NTFS

使用2节点远距离构成镜像磁盘资源时

此配置是WAN为第2层类型(基地之间可以使用相同的网络地址)时的示例。

互相离得较远的,连接各磁盘的2台服务器

图 6.4 2 节点集群的示例(使用远距离构成镜像磁盘资源时)

FIP1

10.0.0.11
(从Cluster WebUI客户端访问)

FIP2

10.0.0.12
(从业务客户端访问)

NIC1

10.0.0.1

NIC2

10.0.0.2

集群分区 盘符

E

文件系统

RAW

数据分区 盘符

F

文件系统

NTFS

使用3节点共享型镜像磁盘时

连接到Shared disk的Server 1,Server 2,连接到Disk的Server 3,连接各服务器的2个HUB

图 6.5 3节点集群的示例(使用3节点共享型镜像磁盘时)

FIP1

10.0.0.11
(从Cluster WebUI客户端访问)

FIP2

10.0.0.12
(从业务客户端访问)

NIC1-1

192.168.0.1

NIC1-2

10.0.0.1

NIC2-1

192.168.0.2

NIC2-2

10.0.0.2

NIC3-1

192.168.0.3

NIC3-2

10.0.0.3

  • 共享磁盘

    心跳分区 盘符

    E

    文件系统

    RAW

    集群分区 盘符

    F

    文件系统

    RAW

    数据分区 盘符

    G

    文件系统

    NTFS

  • 磁盘

    集群分区 盘符

    F

    文件系统

    RAW

    数据分区 盘符

    G

    文件系统

    NTFS

以下记载了构筑上图的集群系统所需的集群配置信息的样例值。以下逐一说明在此条件下创建集群配置信息的步骤。实际设置值时,请换成构筑的集群配置信息后输入。关于取值方法,请参考《参考指南》。

2节点的配置设置示例

设置对象
设置参数
设置值
(使用共享磁盘时)
设置值
(使用镜像磁盘时)
设置值
(远距离构成)

集群配置

集群名

cluster

cluster

cluster

服务器数

2

2

2

管理组数

1

1

1

失效切换组数

1

1

1

监视资源数

5

6

6

心跳资源

内核模式LAN心跳数

2

2

1

第1台服务器的信息
(主服务器)

服务器名

server1

server1

server1

私网IP地址
(主用)

192.168.0.1

192.168.0.1

10.0.0.1

私网IP地址
(备用)

10.0.0.1

10.0.0.1

-

公网IP地址

10.0.0.1

10.0.0.1

10.0.0.1

镜像连接I/F

-

192.168.0.1

10.0.0.1

HBA

与共享磁盘相连接的HBA

-

-

第2台服务器的信息

服务器名

server2

server2

server2

私网IP地址
(主用)

192.168.0.2

192.168.0.2

10.0.0.2

私网IP地址
(备用)

10.0.0.2

10.0.0.2

-

公网IP地址

10.0.0.2

10.0.0.2

10.0.0.2

镜像连接I/F

-

192.168.0.2

10.0.0.2

HBA

与共享磁盘相连接的HBA

-

-

第1个NP解决资源

类型

COM

-

Ping

Ping对象

-

-

10.0.0.254

server1

COM1

-

使用

server2

COM1

-

使用

第2个NP解决资源

类型

DISK

-

-

Ping对象

-

-

-

server1

E:

-

-

server2

E:

-

-

管理组
(Cluster WebUI用)

类型

集群

集群

集群

组名

ManagementGroup

ManagementGroup

ManagementGroup

启动服务器

所有服务器

所有服务器

所有服务器

组资源数

1

1

1

管理组的组资源 1

类型

浮动IP资源

浮动IP资源

浮动IP资源

组资源名

ManagementIP

ManagementIP

ManagementIP

IP地址

10.0.0.11

10.0.0.11

10.0.0.11

失效切换组

类型

失效切换

失效切换

失效切换

组名

failover1

failover1

failover1

启动服务器

所有服务器

所有服务器

所有服务器

组资源数

3

3

3

第1个组资源

类型

浮动IP资源

浮动IP资源

浮动IP资源

组资源名

fip1

fip1

fip1

IP地址

10.0.0.12

10.0.0.12

10.0.0.12

第2个组资源

类型

磁盘资源

镜像磁盘资源

镜像磁盘资源

组资源名

sd1

md1

md1

磁盘资源盘符

F:

-

-

镜像磁盘资源集群分区盘符

-

E:

E:

镜像磁盘资源数据分区盘符

-

F:

F:

第3个组资源

类型

应用程序资源

应用程序资源

应用程序资源

组资源名

appli1

appli1

appli1

常驻类型

常驻

常驻

常驻

开始路径

执行文件的路径

执行文件的路径

执行文件的路径

第1个监视资源
(默认创建)

类型

用户空间监视

用户空间监视

用户空间监视

监视资源名

userw

userw

userw

第2个监视资源

类型

磁盘RW监视

磁盘RW监视

磁盘RW监视

监视资源名

diskw1

diskw1

diskw1

文件名

C:\check.txt 2

C:\check.txt 2

C:\check.txt 2

I/O大小

2000000

2000000

2000000

查出停止(Stall)异常时的运行

有意使其发生停止错误

有意使其发生停止错误

有意使其发生停止错误

磁盘满时的运行

执行复归动作

执行复归动作

执行复归动作

恢复对象

LocalServer

LocalServer

LocalServer

最终运行

有意使其发生停止错误

有意使其发生停止错误

有意使其发生停止错误

第3个监视资源
(创建磁盘资源后自动创建)

类型

磁盘TUR监视

-

-

监视资源名

sdw1

-

-

磁盘资源

sd1

-

-

恢复对象

sd1

-

-

最终运行

不操作

-

-

第4个监视资源
(创建ManagementIP资源后自动创建)

类型

浮动IP监视

浮动IP监视

浮动IP监视

监视资源名

fipw1

fipw1

fipw1

监视对象

ManagementIP

ManagementIP

ManagementIP

恢复对象

ManagementIP

ManagementIP

ManagementIP

第5个监视资源
(创建fip1资源后自动创建)

类型

浮动IP监视

浮动IP监视

浮动IP监视

监视资源名

fipw2

fipw2

fipw2

监视对象

fip1

fip1

fip1

恢复对象

fip1

fip1

fip1

第6个监视资源

类型

IP监视

IP监视

IP监视

监视资源名

ipw1

ipw1

ipw1

监视IP地址

192.168.0.254
(网关)
192.168.0.254
(网关)
192.168.0.254
(网关)

恢复对象

All Groups

All Groups

All Groups

重新启动界限值

1

1

1

第7个监视资源
(应用程序常驻时,创建应用程序后自动创建)

类型

应用程序监视

应用程序监视

应用程序监视

监视资源名

appliw1

appliw1

appliw1

对象资源

appli1

appli1

appli1

恢复对象

appli1

failover1

failover1

第8个监视资源
(创建镜像磁盘资源后自动创建)

类型

-

镜像连接监视

镜像连接监视

监视资源名

-

mdnw1

mdnw1

镜像磁盘资源

-

md1

md1

恢复对象

-

md1

md1

最终运行

-

不操作

不操作

第9个监视资源
(创建镜像磁盘资源后自动创建)

类型

-

镜像磁盘监视

镜像磁盘监视

监视资源名

-

mdw1

mdw1

镜像磁盘资源

-

md1

md1

恢复对象

-

md1

md1

最终运行

-

不操作

不操作

1

准备连接Cluster WebUI的浮动IP。发生故障时也可以使用此IP通过Web 浏览器访问正在运行的服务器上执行的Cluster WebUI。

2(1,2,3)

进行本地磁盘监视时,在磁盘RW监视的文件名中指定系统分区上的文件名。

共享型镜像磁盘的的配置设置示例

设置对象

设置参数

设置值

集群构成

集群名

cluster

服务器数

3

管理用组数

1

失效切换组数

1

监视资源数

6

心跳资源

内核模式LAN心跳数

2

第1台服务器的信息
(主服务器)

服务器名

server1

私网IP地址(专用)

192.168.0.1

私网IP地址(备份)

10.0.0.1

公网IP地址

10.0.0.1

镜像连接I/F

192.168.0.1

HBA

连接共享磁盘的HBA

第2台服务器的信息

服务器名

server2

私网IP地址(专用)

192.168.0.2

私网IP地址(备份)

10.0.0.2

公网IP地址

10.0.0.2

镜像连接I/F

192.168.0.2

HBA

连接共享磁盘的HBA

第3台服务器的信息

服务器名

server3

私网IP地址(专用)

192.168.0.3

私网IP地址(备份)

10.0.0.3

公网IP地址

10.0.0.3

镜像连接I/F

192.168.0.3

HBA

-

第1个NP解决资源

类型

DISK

Ping对象

-

server1

E:

server2

E:

server3

不使用

第2个NP解决资源

类型

Ping

Ping对象

192.168.0.254 (网关)

server1

使用

server2

使用

server3

使用

第3个NP解决资源 3

类型

Ping

Ping对象

192.168.0.254 (网关)

server1

使用

server2

使用

server3

不使用

第1个服务器组

服务器组名

svg1

所属服务器

server1,server2

第2个服务器组

服务器组名

svg2

所属服务器

server3

管理用组
(Cluster WebUI用)

类型

失效切换

组名

ManagementGroup

启动服务器

所有服务器

组资源数

1

管理用组的组资源 4

类型

浮动IP资源

组资源名

ManagementIP

IP地址

10.0.0.11

失效切换组

类型

失效切换

组名

failover1

服务器组

svg1→svg2

组资源数

3

第1个组资源

类型

浮动IP资源

组资源名

fip1

IP地址

10.0.0.12

第2个组资源

类型

共享型镜像磁盘资源

组资源名

hd1

集群分区盘符

F:

数据分区盘符

G:

第3个组资源

类型

应用程序资源

组资源名

appli1

常驻类型

常驻

开始路径

执行文件的路径

第1个监视资源

类型

用户空间监视

监视资源名

userw

第2个监视资源

类型

磁盘RW監視

监视资源名

diskw1

文件名

C:\check.txt 5

I/O大小

2000000

查出停止(Stall)异常时的运行

有意使其发生停止错误

磁盘满时的运行

执行复归动作

恢复对象

LocalServer

最终运行

有意使其发生停止错误

第3个监视资源
(共享型镜像磁盘资源创建后自动生成)

类型

共享型镜像磁盘监视

监视资源名

hdw1

共享型镜像磁盘资源

hd1

恢复对象

failover1

最终运行

不操作

第4个监视资源
(共享型镜像磁盘资源创建后自动生成)

类型

共享型镜像磁盘TUR监视

监视资源名

hdtw1

共享型镜像磁盘资源

hd1

恢复对象

failover1

最终运行

不操作

第5个监视资源
(创建ManagementIP资源后自动创建)

类型

浮动IP监视

监视资源名

fipw1

监视对象

ManagementIP

恢复对象

ManagementIP

第6个监视资源
(创建fip1资源后自动创建)

类型

浮动IP监视

监视资源名

fipw2

监视对象

fip1

恢复对象

fip1

第7个监视资源

类型

IP监视

监视资源名

ipw1

监视 IP 地址

10.0.0.254(网关)

恢复对象

All Groups

第8个监视资源
(应用程序常驻时,创建应用程序后自动创建)

类型

应用程序监视

监视资源名

appliw1

对象资源

appli1

恢复对象

appli1

3

由于只有连接了共享磁盘的第1台和第2台服务器使用ping+共享磁盘方式作为网络分区解决方式,因此,除了在所有服务器上使用的Ping方式的NP解决资源以外,还需设置只在第1台和第2台服务器上使用的Ping方式的资源。

4

准备了连接Cluster WebUI的浮动IP。通过该IP,在发生故障时也能够通过Web浏览器访问正在运行服务器所执行的Cluster WebUI。

5

进行本地磁盘监视时,请将系统分区上的文件名指定为磁盘RW监视的文件名。

6.4. 创建集群配置信息的步骤

创建集群配置信息基本分为创建集群,创建组,创建监视资源3步。新建配置信息时,使用集群生成向导。以下说明步骤。

注解

创建的集群配置信息只能在使用名称更改功能或属性显示功能后进行更改。

6.4.1. 创建集群

首先创建集群。在创建的集群中添加构成集群的服务器,决定优先度和心跳的优先度。

6.4.1.1. 创建集群

  1. 通过[集群生成向导]的[集群] 画面,在[语言]下拉框中选择使用Cluster WebUI 的机器OS所使用的语言。

    注解

    在1个集群内可以使用的语言只有1种。在集群中使用多语言的OS时,为防止乱码请指定"English"。

  2. 在[集群名]框内输入集群名(Cluster)。

  3. 将用于Cluster WebUI连接的浮动IP地址(192.168.0.11)输入[管理IP地址] 框内。点击[下一步]。
    显示服务器的 [基本设定]。Cluster WebUI启动时通过URL指定的IP地址的服务器(server1)已登录在列表中。

6.4.1.2. 添加服务器

添加构成集群的第2台以后的服务器。

  1. 在[服务器的定义列表]中点击[添加]。

  2. 打开[添加服务器]对话框。输入第2台服务器的服务器名,FQDN或IP地址,点击 [确定]按钮。第2台服务器(server2 )将添加入[服务器的定义列表] 。

  3. 配置共享型镜像磁盘时,以相同步骤添加第3台服务器(server3)。

  4. 配置共享型镜像磁盘时,执行[6.4.1.3. 创建服务器组]。

  5. 点击[下一步]。

6.4.1.3. 创建服务器组

配置共享型镜像磁盘时,创建共享型镜像磁盘之前,先创建连接各个镜像磁盘的服务器组。

  1. 点击[设定服务器组]的[设置]。

  2. 在[服务器组的定义列表]中点击[添加]。

  3. 打开[设定服务器组]对话框。在[名称]栏里输入服务器组名(svg1)。

  4. 点击[可用服务器]里的[server1],点击[添加]。[server1]被追加到[可以启动组的服务器]。同样的,添加[server2]。

  5. 点击[确定]按钮。[服务器组的定义列表]里出现[svg1]。

  6. 点击[添加]打开[设定服务器组]对话框,在[名称] 栏里输入服务器组名(svg2)。

  7. 点击[可用服务器]里的[server3],点击[添加]。[server3]被追加到[可以启动组的服务器]。

  8. 点击[确定]。[服务器组的定义列表]里出现[svg1]和[svg2]。
  9. 点击[关闭]按钮。

  10. 点击[下一步]

6.4.1.4. 设置网络配置

设置构筑集群的服务器间的网络配置。

  1. 请通过 [添加][删除]按钮添加或删除通信路径,并点击各服务器列表的单元格选择或输入IP地址。部分没有连接服务器的通信线路,请预留未连接的服务器的单元格。

  2. 用于接收或发送心跳信息的通信路径(私网)请点击 [种类] 列表的单元格并选择 [内核模式]。不使用于心跳,仅使用于镜像磁盘资源,共享型镜像磁盘资源的通信路径请选择[镜像通信专用]。
    必须将一个或一个以上的通信路径设置为私网。尽量将全部通信路径设置为私网。
    此外,如设有多个私网, [优先级]列表中编号较小的通信路径将优先用于集群服务器间的内部通信。如需更改优先级,请点击箭头按钮更改通信路径的排列顺序。
  3. 使用BMC心跳时,点击[种类] 列表的单元并选择[BMC]。点击各服务器的单元后,输入BMC 的IP地址。对于不使用BMC心跳的服务器,请留空该服务器的单元。

  4. 使用Witness心跳时,点击 [种类]列表的单元格并选择 [Witness]。点击 [属性]按钮,在[目标主机] 中输入Witness 服务器的服务器地址,在 [服务端口]中输入端口号。不使用Witness 心跳的服务器时,请点击该服务器单元,选择[不使用]。

  5. 用于镜像磁盘资源及共享型镜像资源的数据镜像通信的通信线路(镜像磁盘连接),点击[MDC] 列中的单元格,选择分配给该通信线路的镜像磁盘连接名称(mdc1~mdc16)。不用于数据镜像通信的通信路径请选择 [不使用] 。

  6. 点击[下一步]。

6.4.1.5. 设置网络分区解决处理

设置网络分区解决资源。

  1. 如进行COM方式的NP解决,点击[添加]后在[NP解决一览]里添加一行,点击[种类]列的单元格选择[COM],点击各服务器单元格,选择通过交叉电缆连接的各服务器的COM端口。存在没有被连接的服务器的场合,请留空该服务器的单元格。
    在本章的设置示例中,使用共享磁盘时追加COM方式行,各服务器的单元格选择[COM1]。
  2. 如进行DISK方式的NP解决,点击[添加]后在[NP解决一览]里添加一行,点击[种类]选择[DISK],点击各服务器的单元格,选择做为磁盘心跳分区的驱动器。没有连接到共享磁盘装置的服务器存在的场合,请留空该服务器的单元格。
    在本章的设置示例中,使用共享磁盘时先添加DISK方式行,点击各服务器列的单元格选E:驱动器。如使用共享型镜像磁盘,需添加[DISK方式]行再点击server1及server2的单元格,选择E:驱动器。请留空server3的单元格。

  3. 如进行PING方式的NP解决,点击[添加]后在[NP解决一览]里添加一行,点击[种类]列的单元格选择[Ping],点击[Ping对象]列的单元格,输入ping发送的目标机器(网关等)的IP地址。输入以逗号隔开的多个IP地址后,如这些地址全部没有ping响应,则可判断为孤立于网络的状态。只有部分服务器使用PING方式的场合,不使用的服务器的单元格选择[不使用]。
    在本章的设置示例中,使用共享型镜像磁盘时,先追加[PING方式]的1行,[Ping对象] 中设为192.168.0.254。

  4. 进行HTTP 方式的NP 解决时,点击 [添加]后在[NP 解决一览]里添加一行,点击 [种类]列的单元格,选择[HTTP/HTTPS]。 点击[属性] 按钮,在 [目标主机] 中输入Web 服务器的服务器地址,在 [服务端口]中输入端口号。只有一部分的服务器使用HTTP 方式时,不使用的服务器的单元格请选择[不使用]。
    在本章的设置示例中,不使用HTTP方式。
  5. 进行多数决定方式的NP解决时,点击[追加]后在[NP解决一览]里追加一行,点击[种类]选择[多数决定]。
    在本章的设置示例中不使用多数决方式
  6. 点击[下一步]。

6.4.2. 创建失效切换组

在集群中添加运行业务应用程序的失效切换组(以下有时简称"组")。

6.4.2.1. 添加失效切换组

设置发生故障时进行失效切换的单位——组。

  1. 在[组一览]中点击[添加]。打开[组定义]界面。在本章的设置示例中使用共享型镜像磁盘时,选中[使用服务器组设定]的复选框。在[名称]栏中输入组名(failover1),点击[下一步]。

  2. 设置可以启动失效切换组的服务器。在本章的设置示例中,使用共享磁盘或镜像磁盘时,选中 [所有服务器都可以进行失效切换] 的复选框或从 [可用的服务器组] 的列表中按 [server1] ,[server2] 的顺序添加入[可以启动组的服务器] 。使用共享型镜像磁盘时,按照顺序依次把[svg1]与 [svg2]添加到[可以启动组的服务器组]中。

  3. 点击[下一步]。

  4. 设置失效切换组的各属性值。在本章的设置示例中,由于全部使用了默认值,因此直接点击[下一步] 。
    显示[组资源列表]。

6.4.2.2. 添加组资源(浮动IP地址)

在步骤 "6.4.2.1. 添加失效切换组"中创建的失效切换组中添加组的配置要素——组资源。

  1. [组资源列表] 中点击[添加]。

  2. 打开[组资源定义 | failover1]界面。在[类型]框中选择组资源的类型(floating IP resource),在[名称]框中输入组资源名(fip1)。点击[下一步]。

  3. 打开依赖资源界面。什么都不指定。点击[下一步]

  4. 出现[检测到组资源的启动异常时的流程],[检测到组资源的停止异常时的流程]的界面。点击[下一步]。

  5. 在[IP地址]框中输入IP地址(10.0.0.12),点击[完成]。
    浮动IP资源被添加到[组资源列表]。

6.4.2.3. 添加组资源(磁盘资源/镜像磁盘资源/共享型镜像磁盘资源)

共享磁盘时

作为组资源添加共享磁盘。

  1. 在[组资源列表]中点击[添加]。

  2. 打开[组资源定义 | failover1]界面。在[类型]框中选择组资源的类型(磁盘资源),在[名称]框中输入资源名(sd1)。点击[下一步]。

  3. 出现依赖资源界面。不进行任何指定。点击[下一步]

  4. 出现[检测到组资源的启动异常时的流程],[检测到组资源的停止异常时的流程]的界面。点击[下一步]。

  5. 在[可以启动组的服务器]中选择[server1],点击[添加]。

  6. 显示[选择分区]对话框。选择分区(F:),点击[确定]。

    重要

    在磁盘资源中指定的分区中指定与设置过滤的HBA连接的共享磁盘上的分区。

    此外,不要在心跳分区或镜像磁盘资源的集群分区,数据分区中指定磁盘资源中指定的分区。因为可执行会损坏共享磁盘上的数据。

  7. 同样,将[server2]添加到可启动的服务器中,点击[完成]。
    磁盘资源被添加到[组资源列表]中。

镜像磁盘时

作为组资源添加镜像磁盘。

  1. 在[组资源列表]中点击[添加]。

  2. 打开[组资源定义 | failover1]界面。在[类型]框中选择组资源的类型(镜像磁盘资源),在[名称]框中输入资源名(md1)。点击[下一步]。

  3. 出现依赖资源界面。不进行任何指定。点击[下一步]

  4. 出现[检测到组资源的启动异常时的流程],[检测到组资源的停止异常时的流程]的界面。点击[下一步]。

  5. 在[可以启动组的服务器]中选择server1,点击[添加]。

  6. 显示[选择分区]对话框。点击[连接],选择数据分区(F:)和集群分区(E:),点击[确定]。

    重要

    在不同的分区中指定数据分区,集群分区。指定为同一分区时,可执行会损坏数据。
    此外,不要将共享磁盘上的分区指定为镜像磁盘资源的数据分区,集群分区。
  7. 同样,将[server2]添加到可启动的服务器中,点击[完成]。
    镜像磁盘资源即被添加到[组资源定义列表]中。

共享型镜像磁盘时

将共享型镜像磁盘添加为组资源。

  1. 在[组资源列表]中点击[添加]。

  2. 打开[组资源定义 | failover1]界面。在[类型]框中选择组资源的类型(共享型镜像磁盘资源),在[名称]框中输入资源名(sd1)。点击[下一步]。

  3. 出现依赖资源界面。不进行任何指定。点击[下一步]

  4. 出现[检测到组资源的启动异常时的流程],[检测到组资源的停止异常时的流程]的界面。点击[下一步]。

  5. 在[数据分区的盘符]框中输入要进行镜像化的数据分区的盘符(G:),在[集群分区的盘符]框中输入集群分区的盘符(F:)。

    重要

    在不同的分区中指定数据分区,集群分区。指定为同一分区时,可执行会损坏数据。

  6. 点击[信息获取]。获取并显示各服务器的数据分区和集群分区的GUID信息。
    点击[完成]。
    共享型镜像磁盘资源即被添加到[组资源定义列表]中。

6.4.2.4. 添加组资源(应用程序资源)

添加启动/结束应用程序的应用程序资源。

  1. 在[组资源定义列表]中点击[添加]。

  2. 打开[组资源定义 | failover1]界面。在[类型]框中选择组资源的类型(应用程序资源),在[名称]框中输入组名(appli1)。点击[下一步]。

  3. 出现[依赖资源]界面。不进行任何指定。点击[下一步]

  4. 出现[检测到组资源的启动异常时的流程],[检测到组资源的停止异常时的流程]的界面。点击[下一步]。

  5. 在[常驻类型]中选择[常驻]。此外,在[起始路径]中指定执行文件的路径。

    注解

    在[起始路径]及[终了路径]中设置可执行文件名的绝对路径,或环境变量中设置的路径完整的可执行文件名。不要指定相对路径。指定相对路径时,应用程序资源的启动可执行会失败。

  6. 点击[完成]。

    [应用程序资源]即被添加到[组资源列表]中。

  7. 点击[完成]。

6.4.3. 创建监视资源

在集群中添加监视指定对象的监视资源。

6.4.3.1. 添加监视资源(磁盘RW监视资源)

为监视本地磁盘添加磁盘RW监视资源。

  1. 在[组列表]中点击[下一步]。

  2. 显示[监视资源列表]。点击[添加]。在[类型]框中选择监视资源的类型(磁盘RW监视),在[名称]框中输入监视资源名(diskw1)。点击[下一步]。

  3. 输入监视设置。监视时机设置为常时,点击[下一步]。

  4. 设置文件名(C:\check.txt),I/O大小(2000000),查出停止(stall)异常时的运行(有意使其发生停止错误),磁盘满时的运行 (执行复归动作)。点击[下一步]。文件名指定为安装OS的分区的文件的文件名。

  5. [复归动作]里选择[只在最终动作时执行]。并且,将[复归对象]设置为[LocalServer]。

  6. 在[最终动作]框中选择[生成主动停止错误],点击[完成]。
    磁盘RW监视资源(diskw1)被添加到[监视资源列表]中。

    注解

    在磁盘RW监视资源的监视对象中指定本地磁盘的文件,可以作为本地磁盘监视进行监视。此时,[最终动作]选择[生成主动停止错误]。

6.4.3.2. 添加监视资源(IP监视资源)

添加监视IP的监视资源。

  1. 在[监视资源列表]中点击[添加]。在[类型]框中选择监视资源的类型(IP监视),在[类型]框中输入监视资源名(ipw1)。点击[下一步]。

  2. 输入监视设置。设定为默认值,点击[下一步]。

  3. 显示[IP地址列表]。点击[添加]。
    在[IP地址]框中输入监视IP地址(192.168.0.254),点击[确定]。

    注解

    在IP监视资源的监视对象中指定可以在公网上常时运行的机器(例如网关)的IP地址。

  4. 在[IP地址列表]设置中输入IP地址。点击[下一步]。

  5. 设置恢复对象。点击[参照]。

  6. 在显示的树形图中选择[All Groups],点击[确定]。[All Groups]被设置在[恢复对象]中。

  7. 点击[完成]。
    IP监视资源(ipw1)被添加到[监视资源列表]中。

6.4.4. 禁用集群动作

创建监视资源,点击[完成]后,显示以下的弹出消息框。

点击[否],则不进行组的自动启动,组资源启动·停止异常时的复归动作,以及监视资源异常时的复归动作。创建集群配置信息后,初次启动集群时,推荐禁用自动启动和复归·恢复动作,确认集群配置信息是否无误。

此外,本功能可以在[集群属性] 的 [扩展] 标签页的 [禁用集群动作] 中设置。

注解

即使禁用集群动作,也会由于服务器宕机而引起失效切换。

禁用监视资源异常时的复归动作,不适用于磁盘RW监视资源的停顿检测功能。

对集群配置信息的创建至此完毕。下面进入"保存集群配置信息"。

6.5. 保存集群配置信息

已创建的集群配置信息能够保存到正在使用的PC的目录下或外部媒体中。

6.5.1. 保存集群配置信息

请按照以下步骤保存集群配置信息。

  1. 在Cluster WebUI 的编辑模式中点击[导出配置文件]。

  2. 选择保存地址保存。

    注解

    保存的是1个文件(clp.conf)和1个目录(scripts)。如果这些文件和目录不齐备,则不能成功生成集群,因此移动时请务必将它们作为一个整体进行移动。另外,更改了新建的配置信息时,除上述2点外,还会再创建一个clp.conf.bak。

注解

安装EXPRESSCLUSTER时,如果在[通信端口号设置]画面中指定了和默认值不同的端口号,则保存集群配置信息前,请在[集群属性]-[端口号]标签页中将[WebManager HTTP端口号]和[磁盘Agent端口号]设置为和安装时相同的值。

6.6. 生成集群

通过Cluster WebUI创建集群配置信息后,在构成集群的服务器中反映配置信息并生成集群系统。

6.6.1. 生成集群

通过Cluster WebUI创建完集群配置信息后,按照以下步骤生成集群。

  1. 在Cluster WebUI 的编辑模式中点击[应用配置文件]。
    显示"要继续反映修改吗?"的消息,点击[确定]。
    上传成功后,显示"修改已经被成功反映。"的消息。点击[确定]。
    若上传失败,则请按照显示的消息进行操作。
  2. 从Cluster WebUI 的工具栏的下拉菜单选择[操作模式],切换为操作模式。

  3. 从Cluster WebUI 的[状态]标签页中点击 [开始集群] ,在确认界面中点击 [开始]。
    集群状态在Cluster WebUI上显示。不能启动时依据错误消息一览进行处理。

    Cluster WebUI的操作和确认方法,可以参考在线手册。点击画面右上的[ ]打开在线手册。

注解

安装EXPRESSCLUSTER时,如果在[通信端口号设置]画面中指定了和默认值不同的端口号,则生成集群前,请在[集群属性]-[端口号]标签页中将[WebManager HTTP端口号]和[磁盘Agent端口号]设置为和安装时相同的值。

7. 确认集群系统

本章中对已创建的集群系统是否正常启动进行确认。

本章中说明的主要内容如下所示。

7.1. 通过Cluster WebUI确认状态

本节对使用Cluster WebUI确认集群系统的方法进行说明。Cluster WebUI在安装EXPRESSCLUSTER Server 时已经被安装。因此无需单独安装。本章中首先介绍Cluster WebUI概要,然后介绍访问Cluster WebUI并确认集群状态的方法。

参见

关于Cluster WebUI的运行环境,请参考《开始指南》。

生成集群并连接Cluster WebUI后,按照以下步骤对运行进行确认。

参见

关于Cluster WebUI的操作方法,请参考在线手册。另外,确认状态时如果发生了异常,请参考《参考指南》的"疑难解答"排除故障。

  1. 心跳资源
    确认在Cluster WebUI中各服务器的状态为已启动。
    另外,确认各服务器的心跳资源的状态正常。
    还需确认Cluster WebUI的警报日志中未记录警告及异常。
  2. 监视资源
    确认在Cluster WebUI中各监视资源的状态正常。
  3. 组启动
    启动组。
    确认在Cluster WebUI中组的状态为已启动。
    另外,确认组中包含的各组资源的状态为已启动。
    还需确认Cluster WebUI的警报日志中未记录警告及异常。
  4. 磁盘资源/镜像磁盘资源/共享型镜像磁盘资源
    确认在已启动磁盘资源/镜像磁盘资源/共享型镜像磁盘资源的服务器上中,是否可以访问该资源的切换分区/数据分区。同时确认在没有启动该资源的服务器上,是否不能访问该资源的切换分区/数据分区。
  5. 浮动IP资源
    确认在浮动IP资源已启动的状态下对浮动IP地址的ping命令成功。
  6. 应用程序资源
    确认在应用程序资源已启动的服务器中应用程序正在运行。
  7. 服务资源
    确认在服务资源已启动的服务器中服务正在运行。
  8. 组停止
    停止组。
    确认在Cluster WebUI中组的状态为已停止。另外,确认组中包含的各组资源的状态为已停止。
    还需确认在Cluster WebUI的警报日志中未记录警告及异常。
  9. 组启动
    启动组。
    确认在Cluster WebUI中组的状态为已启动。
  10. 组移动
    把组移动到其它服务器中。
    确认在Cluster WebUI中组的状态为在移动目标服务器中已启动。
    另外,确认各组资源已正常启动。
    还需确认在Cluster WebUI的警报日志中未记录警告及异常。
    对失效切换策略中包含的所有服务器移动组,并进行上述确认。
  11. 失效切换
    关闭已启动组的服务器。
    心跳超时后,确认组进行失效切换。另外,还需确认在Cluster WebUI中,失效切换目标的服务器中组的状态为已启动。
  12. 故障恢复(已设置时)
    设置了自动故障恢复时,为进行失效切换确认,启动已关机的服务器,使之复原到集群中,确认组进行了故障恢复。另外,还需确认在Cluster WebUI中,故障恢复目标的服务器中组的状态为已启动。

    注解

    包含镜像磁盘资源/共享型镜像磁盘资源的组,需要进行镜像复归,因此不能设置自动故障恢复。

  13. 通告选项(已设置时)
    设置了通告选项时,确认执行失效切换并由此发送邮件。
  14. 集群关机
    关闭集群。确认集群内的所有服务器正常关机。
    另外,确认重启所有服务器后正常启动。
    其间,还需确认在Cluster WebUI的警报日志中未记录警告及异常。

7.2. 通过命令确认集群的状态

生成集群后,使用命令行从构成集群的服务器确认集群的状态时,需要按照以下步骤确认状态。

参见

关于命令的操作方法,请参考《参考指南》的"EXPRESSCLUSTER命令参考"。另外,确认状态时如果发生了异常,请参考《参考指南》的"疑难解答"排除故障。

  1. 心跳资源
    使用clpstat命令确认各服务器的状态为已启动。
    确认各服务器的心跳资源的状态正常。
  2. 监视资源
    使用clpstat命令确认各监视资源的状态正常。
  3. 组启动
    使用clpgrp命令启动组。
    使用clpstat命令确认组的状态为已启动。
  4. 磁盘资源/镜像磁盘资源/共享型镜像磁盘资源
    确认在已启动磁盘资源/镜像磁盘资源/共享型镜像磁盘资源的服务器上中,是否可以访问该资源的切换分区/数据分区。同时确认在没有启动这些资源的服务器上是否不能访问这些资源的切换分区/数据分区。
  5. 浮动IP资源
    确认在浮动IP资源已启动的状态下,对浮动IP地址的ping命令成功。
  6. 应用程序资源
    确认在应用程序资源已启动的服务器中应用程序正在运行。
  7. 服务资源
    确认在服务资源已启动的服务器中服务正在运行。
  8. 组停止
    使用clpgrp命令停止组。
    使用clpstat命令确认组的状态为已停止。
  9. 组启动
    使用clpgrp命令启动组。
    使用clpstat命令确认组的状态为已启动。
  10. 组移动
    使用clpgrp命令把组移动到其它服务器中。
    使用clpstat命令确认组的状态为已启动。
    对失效切换策略中包含的所有服务器移动组,并确认状态为ONLINE。
  11. 失效切换
    关闭已启动组的服务器。
    心跳超时后,使用clpstat命令,确认组进行失效切换。另外,使用clpstat命令,确认在失效切换目标的服务器中组的状态为已启动。
  12. 故障恢复(已设置时)
    设置了自动故障恢复时,启动在11失效切换中关机的服务器。启动服务器后,使用clpstat命令确认组进行故障恢复。另外,使用clpstat命令,确认在故障恢复目标的服务器中组的状态为已启动。
  13. 通告选项(已设置时)
    设置了通告选项时,确认执行失效切换并由此发送邮件。
  14. 集群关机
    使用clpstdn命令关闭集群。确认集群内的所有服务器正常关机。

8. 进行运行检查

本章中模拟发生故障并对集群系统进行运行检查。另外进行参数的调整。

本章中介绍的主要内容如下所示。

8.1. 运行确认测试

通过执行共享磁盘的模拟故障测试,备份/恢复操作,确认能够查出监视资源的异常,未发生假设外的异常情况,且查出异常的监视资源的复归动作如设计目标一样正常运行。
查出监视资源的异常,以及发生服务器或OS停止等时,需要调整超时值等。
  1. 由于发生模拟故障而使复归动作迁移
    使用故障检测功能,确认查出异常的监视资源的复归动作如设计目标一样正常运行。
    可以适用Cluster WebUI或clpmonctrl 命令来测试本功能。有关详细信息,请参考在线版手册或者《参考指南》的"EXPRESSCLUSTER命令参考"。
  2. 共享磁盘的模拟故障
    (共享磁盘被RAID化且可进行模拟故障测试时)
    进行假设共享磁盘的RAID发生故障需交换,复原时的测试。
    • 使共享磁盘发生模拟故障

    • 将RAID从降级运行状态复原到正常状态

    有些共享磁盘在切换到降级运行或重新构筑RAID时,有可执行会暂时发生I/O的停止,延迟。
    在磁盘RW监视资源,磁盘TUR监视资源等中发生了超时及延迟警告时,请调整各监视资源的超时值。
  3. 模拟共享磁盘路径的故障
    (共享磁盘的路径二重化且可进行模拟故障测试时)
    请进行包含路径的故障,切换的测试。
    • 对主路径发生的故障进行模拟

    因为路径切换软件(驱动程序)不同,需要花费一定时间切换到正常路径,有可执行无法向OS(软件)端返回控制。
    在磁盘RW监视资源,磁盘TUR监视资源等中发生了超时及延迟警告时,请调整各监视资源的超时值。
  4. 备份/恢复
    若要定期进行备份等时,请在实际操作环境下进行试行备份操作。
    备份软件及存档命令使得CPU负荷及磁盘的I/O负荷较高。
    发生了心跳及各种监视资源的延迟警告/超时时,请调整心跳超时值及各监视资源的超时值。

以下描述不同设备的模拟故障以及故障发生时的现象。另外,发生模拟故障时的故障现象依据系统配置及资源的设置而有所不同。下表中描述常用设置和配置下的运行示例。

装置

模拟故障

故障现象

磁盘装置
SCSI/FC路径

拔下运行服务器中连接的磁盘线缆(磁盘线缆二重化时,要拔下2根线缆)

监视共享磁盘时,查出异常并向待机服务器进行失效切换(未监视磁盘时停止业务)。
失效切换时,磁盘资源的停止可执行会失败。

拔下待机服务器中连接的磁盘线缆(二重化时,要拔下2根线缆)

通过磁盘TUR监视资源监视待机服务器的磁盘路径时,查出异常。
仍然在运行服务器中继续运行业务。

磁盘路径二重化时,拔下主路径的线缆(使用FC-HUB时,还要关闭FC-HUB的电源)

通过路径切换软件切换磁盘路径。
EXPRESSCLUSTER中未查出异常,业务仍然继续运行。

在上述单一路径状态下通过移动组及集群关机来进行重启

运行情况与磁盘路径正常时相同。

降级运行/复原磁盘装置的RAID

EXPRESSCLUSTER中未查出异常,业务仍然继续运行。

磁盘装置的控制器二重化时,停止一个控制器

路径二重化时,通过路径切换软件切换磁盘路径。EXPRESSCLUSTER中未查出异常,业务仍然继续运行。
路径未二重化,各服务器直接连接磁盘时,在连接已停止的控制器的服务器中磁盘TUR监视资源查出异常,并向待机服务器发生失效切换(停止了待机服务器端的控制器时,业务仍然继续运行)。

私网

拔下私网的线缆

私网心跳资源变为OFFLINE, Alert日志中显示警告。
服务器间通信使用公网(备份的私网)继续进行=业务继续运行

公网

拔下公网的线缆,或者关闭HUB的电源

和业务客户端的通信中断。有些业务应用程序可执行会发生应用程序停止(Stall)/错误。
公网心跳资源变为停止,Alert日志中显示警告。
使用IP监视资源及NIC Link Up/Down监视资源时,查出异常。如果拔下了运行服务器的线缆,则会发生失效切换(如果切断了HUB的电源,重复失效切换直至达到设置的失效切换最大次数)。
远程集群配置等服务器之间仅有公网这一通信路径时,通过ping方式的网络分区解决方式,紧急关闭拔下了网线的服务器。

服务器端UPS

从插座拔下运行服务器的UPS的电源线

运行服务器关机=向待机服务器进行失效切换

共享磁盘端UPS

共享磁盘的电源二重化时,从插座拔下一个UPS的电源线

EXPRESSCLUSTER中未查出异常,业务仍然继续运行。
UPS给一台服务器提供电源时,也发生服务器关机(为运行服务器时向待机服务器进行失效切换)。

UPS用LAN

拔下网线

不能控制UPS,但EXPRESSCLUSTER中未查出异常,业务仍然继续运行。

COM

拔下COM网络分区解决的RS-232C线缆

Alert日志中显示警告。
业务仍然继续运行。

OS故障

在运行服务器中执行关机命令

运行服务器关机=向待机服务器进行失效切换

镜像磁盘连接

镜像连接上设有多条LAN电缆,且有1条以上的LAN电缆连接时
仅拔除一条用作镜像连接的LAN电缆

继续镜像化

镜像连接上未设置多条LAN电缆,或虽设有多条LAN电缆但所有LAN电缆均未连接时
仅拔除一条用作镜像连接的LAN电缆
Alert日志中显示警告(镜像停止)
业务在运行服务器中继续运行,但无法切换到待机服务器

在镜像磁盘监视资源,镜像磁盘连接监视资源或共享型镜像磁盘监视资源中查出异常

磁盘资源

在磁盘路径不通的服务器中启动镜像资源。

磁盘资源未启动
向待机服务器进行失效切换

应用程序资源

暂时改写应用程序资源的开始路径中设置的文件/文件夹名的服务器中,启动组应用资源。

应用程序资源未启动
向待机服务器进行失效切换

应用程序监视资源

通过任务管理器等停止监视对象的进程。

查出异常。重启应用程序,或在待机服务器中进行失效切换

服务资源

暂时改写服务的执行文件的路径/文件名的服务器中,启动服务资源。

服务资源未启动
向待机服务器进行失效切换

服务监视资源

停止监视对象的服务。

查出异常。重启服务,或在待机服务器进行失效切换

浮动IP资源

将与浮动IP资源中设置的IP地址相同的IP地址设置到同一段内的机器上,启动浮动IP资源。

浮动IP资源未启动
向待机服务器进行失效切换
(失效切换目标中启动失败,重复失效切换直至达到已设置的失效切换最大次数)

虚拟机资源

切断有虚拟机图像的共享磁盘

虚拟机资源不被启动

虚拟机监视资源

关闭虚拟机

通过重启资源来启动虚拟机

参见

关于各参数的更改方法请参考《参考指南》。

8.2. 确认备份/恢复步骤

以下为数据的备份/恢复示例图。关于备份方法的具体内容,请参考《维护指南》的"维护信息"以及备份软件的手册。

共享磁盘(Shared Disk),本地磁盘(Local Disk)的数据备份到连接到运行服务器(Server 1)的设备中。

有Local Disk的2台服务器和与它们相连的Shared Disk,连接到Server 1的Backup device

图 8.1 单向待机中的备份示例 (1)

如果运行服务器(Server1)中发生故障,则将共享磁盘(Shared Disk),本地磁盘(Local Disk)的数据备份到连接待机服务器(Server 2)的设备中。

有Local Disk的2台服务器和与它们相连的Shared Disk,连接到Server 2的Backup device

图 8.2 单向待机中的备份示例 (2)

9. 操作前的准备工作

本章介绍操作集群系统前需要注意的重要事项。
本章中介绍的主要内容如下所示。

9.1. 理解基本的操作,操作步骤

介绍集群系统的基本操作步骤。开始操作前,请实际执行这些步骤,按照正确的步骤进行操作并确认集群系统是否正常运行。

可以使用Cluster WebUI或者EXPRESSCLUSTER命令来执行这些操作,Cluster WebUI的详细功能请参考在线版手册。关于EXPRESSCLUSTER 命令的具体内容,请参考《参考指南》的"EXPRESSCLUSTER命令参考"。

下面介绍集群启动,集群关机,服务器关机的操作步骤。

9.1.1. 启动集群

请按照以下步骤启动集群。

  1. 使用共享磁盘及外接的扩展磁盘时,打开磁盘的电源。

  2. 打开构成集群的所有服务器的电源。

等待服务器之间的集群启动的同步结束后,各个服务器的集群才会启动。集群启动后,根据设定在适当的服务器上启动组。

注解

打开集群内所有服务器的电源时,请在Cluster WebUI的[集群的属性]-[超时]标签页中设置的[同步等待时间]时间内打开。请注意,如果在此时间内确定不到服务器是否启动,则会发生失效切换。

注解

共享磁盘在电源打开后的几分钟内进行初始化处理。若在初始化处理过程中启动服务器,则不能识别共享磁盘。请设置在共享磁盘的初始化完成后再启动服务器。

9.1.2. 执行集群关机,服务器关机

请使用EXPRESSCLUSTER命令或Cluster WebUI 执行集群的关机及服务器的关机操作。

注解

使用Replicator/Replicator DR时,不使用EXPRESSCLUSTER命令或Cluster WebUI而执行集群的关机操作,可执行会发生Mirror Break。

9.1.3. 集群整体的关机

通过使用clpstdn命令或Cluster WebU执行集群关机,以及从开始菜单执行集群关机,都可以关闭集群。关闭集群时,等待所有的组停止后再关闭各个服务器。通过集群关机,可以正常关闭集群内作为一个集群整体的所有服务器。

9.1.4. 服务器单体的关机

使用clpdown命令或从Cluster WebUI执行服务器关机可以关闭服务器。
服务器关机后会发生失效切换。使用Replicator/Replicator DR时,通过镜像磁盘资源/共享型镜像磁盘资源中断镜像。
硬件维护时等,想要由待机服务器来代替运行时,请先关闭服务器。

9.1.5. 执行集群挂起,集群复原

更新集群设置信息时,在业务继续进行的状态下也可停止EXPRESSCLUSTER服务。将此状态称为挂起状态。从挂起状态恢复到通常的业务状态称为复原。
挂起/复原对集群内的所有服务器请求处理。挂起在集群内的所有服务器的Expresscluster服务启动状态时执行。
集群的挂起,复原使用Expresscluster命令或者Cluster WebUI进行。

挂起状态中启动了的资源处于启动状态中,为了停止Expresscluster服务需要停止以下的功能。

  • 停止所有的心跳资源。

  • 停止所有的网络分区解决资源。

  • 停止所有的监视资源。

  • 无法进行组或者组资源的操作。(启动,停止,移动)

  • 不可使用以下命令。

    • clpcl 的 --resume以外的选项

    • clpdown

    • clpstdn

    • clpgrp

    • clptoratio

    • clpmonctrl

    • clprsc

    • clpcpufreq

9.1.6. 挂起集群

使用clpcl命令或者通过Cluster WebUI执行集群挂起可以使集群挂起。

9.1.7. 复原集群

使用clpcl命令或者通过Cluster WebUI执行集群复原可以使集群复原。

9.2. 暂时停止EXPRESSCLUSTER

有两种停止EXPRESSCLUSTER运行的方法。一种方法是停止EXPRESSCLUSTER Server服务,另一种是设置EXPRESSCLUSTER Server服务为手动启动。

9.2.1. 停止EXPRESSCLUSTER Server服务

若不关闭OS而只停止EXPRESSCLUSTER Server服务,请使用clpcl命令或从Cluster WebUI执行[停止集群]。

参见

关于clpcl命令的具体内容,请参考《参考指南》的"EXPRESSCLUSTER命令参考"。

9.2.2. 设置EXPRESSCLUSTER Server服务为手动启动

为了在OS启动时不启动EXPRESSCLUSTER Server服务,在OS的服务管理器中设置手动启动EXPRESSCLUSTER Server服务。这样,从下次OS启动之时开始,EXPRESSCLUSTER的运行处于停止状态。

9.2.3. 将设置为手动启动的EXPRESSCLUSTER Server服务设为自动启动

与设置手动启动时相同,在OS的服务管理器中重新将EXPRESSCLUSTER Server服务设为自动启动。更改设置后,在重启服务器或直接启动EXPRESSCLUSTER Server服务之前,EXPRESSCLUSTER一直处于停止状态。

9.3. 更改集群配置信息

介绍创建集群后更改配置信息时的操作步骤和注意事项。

9.3.1. 使用Cluster WebUI更改集群配置信息

  1. 启动Cluster WebUI。

  2. 在Cluster WebUI的工具栏内的下拉菜单中选择[编辑模式]。

  3. 显示当前的集群配置信息,更改配置信息。

  4. 上传更改后的配置信息。
    这样,依据更改后的信息可执行需要暂停或停止集群,以及通过集群关机进行重启等。此时,一旦取消上传会显示需要执行的操作,请根据显示的消息进行操作,重新上传。

9.3.2. 更改集群配置信息时的反映方法

使用Cluster WebUI或clpcfctrl命令上传更改后的集群配置信息时,需要根据更改内容执行以下任意一项操作。关于反映各参数更改所需的操作,请参考《参考指南》的"参数的详细信息"。

有些反映方法,有可执行会影响业务应用程序及EXPRESSCLUSTER服务器的运行。关于具体内容请参考下表。

反映方法

影响

1

仅上传

不影响业务应用程序及EXPRESSCLUSTER服务器的运行。
不停止心跳资源及组资源,监视资源。

2

上传后重启 API 服务

3

上传后重启WebManager服务器

4

上传后重启 Information Base 服务

5

停止已更改设置的组后上传

组资源停止。因此,从上传到组启动为止,此组中控制的业务应用程序一直处于停止状态。

6

暂停集群后上传

EXPRESSCLUSTER服务器的运行部分停止。
EXPRESSCLUSTER Server服务暂停期间,心跳资源和监视资源一直停止。因为组资源未停止,所以业务应用程序继续运行。

7

停止集群后上传

EXPRESSCLUSTER服务器的运行全部停止。因为组也处于停止状态,所以从上传,启动集群到组启动为止,业务应用程序也一直停止。

8

上传后关机并重启集群

从重启集群到组启动为止,业务应用程序一直处于停止状态。

注解

作为反映方法如果需要暂停及停止集群时,在反映集群配置信息的内容之前,需要确认暂停及停止是否已完成。
请确认在Cluster WebUI的警报日志中是否输出了"type: information, Module type: pm,Event ID: 2"的消息。关于消息的具体内容,请参考《参考指南》的"错误消息一览表"。
不能使用Cluster WebUI时,请确认在事件查看器中是否输出了"Source: EXPRESSCLUSTER, Event type: information, Event ID: 2"的消息。
请在确认上述消息后,将集群配置信息的内容反映到EXPRESSCLUSTER服务器的环境中。

10. 卸载/重装EXPRESSCLUSTER

本章介绍EXPRESSCLUSTER的卸载/重装步骤。

本章中介绍的主要内容如下所示。

10.1. 卸载步骤

10.1.1. 卸载EXPRESSCLUSTER Server

注解

请必须由具有administrator权限的用户卸载EXPRESSCLUSTER服务器。推荐卸载前收集配置信息。详细信息请参照《参考指南》的"EXPRESSCLUSTER命令参考"。

按照以下步骤卸载EXPRESSCLUSTER服务器。

  1. 将服务启动类型更改为手动启动。

    clpsvcctrl.bat --disable -a
    
  2. 关闭服务器。

  3. 使用共享磁盘时,由于访问限制在完成卸载后不再生效,因此需先拔除所有连接服务器的磁盘电缆。

  4. 重启服务器。

  5. 选择OS中的[控制面版]->[程序和功能],启动程序的卸载和更改画面。

  6. 选择EXPRESSCLUSTER Server,点击[卸载]。

  7. 启动[EXPRESSCLUSTER Server Setup]对话框。

  8. 显示卸载的确认消息后,选择[是]。若选择了[否],则停止卸载。

  9. SNMP服务开始时,显示如下的停止SNMP服务的确认消息,选择[是]。若选择了[否],则停止卸载。
  10. 如下所示,显示是否将媒体感知(查出TCP/IP线路中断)功能返回到EXPRESSCLUSTER服务器安装前的状态的确认消息。要返回到EXPRESSCLUSTER服务器安装前的状态时,选择[是]。若选择了[否],则在媒体感知功能保持无效的状态下卸载EXPRESSCLUSTER。
  11. 在[EXPRESSCLUSTER Server Setup]对话框中显示卸载结束的消息,点击[完成]。

  12. 显示计算机重启的确认消息。请根据需要选择现在马上重启,点击[完成]。EXPRESSCLUSTER Server的卸载完成。

重要

使用共享磁盘时,卸载EXPRESSCLUSTER后请不要在共享磁盘连接的状态下启动OS。可执行会损坏共享磁盘上的数据。

注解

在通过EXPRESSCLUSTER的CPU时钟控制功能更改CPU时钟的状态下,卸载EXPRESSCLUSTER,则之后CPU频率不会返回到原来的状态。这时,请通过以下方法,将CPU的频率级别返回到默认值。

请在[控制面板]的[电源选项] ->[选择或自定义电源计划] 中选择 [平衡]。

注解

卸载EXPRESSCLUSTER后,有时安装目录下还残留文件夹。此时,请手动删除该目录。

10.2. 重装步骤

10.2.1. 重装EXPRESSCLUSTER本体

重装EXPRESSCLUSTER本体时,需要有Cluster WebUI创建的集群配置信息(如果更改了配置则需要最新的集群配置信息)。

更改配置后,请务必保存最新的集群配置信息。集群配置信息在创建时可保存在Cluster WebUI中,还可以使用clpcfctrl命令创建它的备份信息。关于具体内容,请参考《参考指南》的"EXPRESSCLUSTER命令参考" - "生成集群,备份集群配置信息(clpcfctrl命令)" - "备份集群配置信息(clpcfctrl --pull)"。

重装全部集群时

按照以下步骤重装EXPRESSCLUSTER本体。

  1. 使用共享磁盘时,重装完成前访问限制会失效,因此要拔下与所有服务器连接的所有磁盘线缆。

  2. 在构成集群的所有服务器中卸载EXPRESSCLUSTER本体。
    重装OS时,无需卸载EXPRESSCLUSTER。但是如果在EXPRESSCLUSTER以前的安装文件夹下进行重装时,则需要删除该安装文件夹下的文件。
    关于卸载步骤的具体内容,请参考"卸载EXPRESSCLUSTER Server本体"。
  3. 卸载完成,关闭OS。

    重要

    在使用共享磁盘的环境中,请不要在卸载了EXPRESSCLUSTER的状态下启动连接共享磁盘的服务器。可执行会破环数据。

  4. 安装EXPRESSCLUSTER本体,并根据需要注册License。安装完成后,关闭OS。使用共享磁盘时,请连接共享磁盘并启动OS。不使用共享磁盘时,请直接启动OS。
    关于EXPRESSCLUSTER本体安装的具体内容,请参考"4. 安装EXPRESSCLUSTER"。关于注册License,请参考"5. 注册License"。

    重要

    使用共享磁盘时,请不要在未设置过滤的HBA及SCSI控制器中连接共享磁盘。可执行会损坏共享磁盘上的数据。

  5. 创建集群配置信息,生成集群。
    关于创建集群配置信息以及生成集群的具体内容,请参考"6.1. 创建集群配置信息"。

仅重装集群中的部分服务器时

按照以下步骤重装EXPRESSCLUSTER本体。

  1. 使用共享磁盘时,重装完成前访问限制会失效,因此要拔下所有与要重装的服务器连接的磁盘线缆。

  2. 卸载EXPRESSCLUSTER本体。
    重装OS时,无需卸载EXPRESSCLUSTER。但是如果在EXPRESSCLUSTER以前的安装文件夹下进行重装时,则需要删除该安装文件夹下的文件。
    关于卸载步骤的具体内容,请参考"卸载EXPRESSCLUSTER Server本体"。
  3. 卸载完成,关闭OS。

    重要

    在使用共享磁盘的环境中,请不要在卸载了EXPRESSCLUSTER的状态下启动连接共享磁盘的服务器。可执行会损坏数据。

  4. 在已卸载的服务器中安装EXPRESSCLUSTER本体,并根据需要注册License。安装完成后关闭OS。使用共享磁盘时,请连接共享磁盘并启动OS。不使用共享磁盘时,请直接启动OS。
    关于EXPRESSCLUSTER本体安装的具体内容,请参考"4. 安装EXPRESSCLUSTER"。关于注册License,请参考"5. 注册License"。

    重要

    使用共享磁盘时,请不要在安装时未设置过滤的HBA及SCSI控制器中连接共享磁盘。可执行会损坏共享磁盘上的数据。

  5. 连接集群内其它服务器的Cluster WebUI,变更为编辑模式。

  6. 在使用共享磁盘的环境中重装了OS时,或更改了连接共享磁盘的HBA时,在已重装的服务器的[属性]的[HBA]标签页中更新过滤信息。

    重要

    请在已重装的服务器的[属性]的[HBA]标签页中点击[连接],设置过滤。在未点击[连接]的状态下设置了过滤时,或未进行设置时,可执行会损坏共享磁盘上的数据。

  7. 在Cluster WebUI的Web浏览器已经连接成功的服务器中从命令提示符执行"clpcl --suspend --force",暂停集群。

  8. 通过Cluster WebUI的编辑模式上传配置信息。
    使用期间定制License时,执行以下命令。
    clplcnsc --reregister <保存License的文件夹路径>
  9. 配置信息发送正常结束后,会显示以下消息。

    上传成功.
    
  10. 返回到Cluster WebUI的操作模式,从WebManager恢复集群。

注解

从Cluster WebUI执行恢复后,会显示"恢复集群失败.点击刷新按钮,或稍后重试.."的错误消息,请继续下一步操作。

  1. 从Cluster WebUI中点击已重装的服务器的[开始服务器服务]。

  2. 集群的[集群属性]中[自动复归]设为了[关闭]时,在Cluster WebUI中点击已重装的服务器的[服务器复归]。

  3. 如有需要,则移动组。

11. 疑难解答

11.1. 安装EXPRESSCLUSTER Server时

运行及消息
原因
处理
Failed to set up

Error code: %x
%x:错误码

请参考该错误码。

请参考错误码对应的处理。

安装了9.0以下版本。
请在卸载后,重新安装。

安装了旧版本的EXPRESSCLUSTER。

卸载旧版本EXPRESSCLUSTER后,在安装现有版本的EXPRESSCLUSTER。

Failed to set up (%d)
Error code: %x

After restart, install it.
%d:内部代码
%x:错误码

请参考该错误码的说明。

请参考该错误码对应的处理。

11.2. 与License相关

运行及消息

原因

处理

Cluster WebUI中创建的集群配置信息发送到所有服务器后,若执行集群关机重启,则在Alert日志中显示以下消息,集群停止。
"The license is not registered. (Product ID: %1")
%1:产品名

未注册License而执行了集群关机重启。

请参照"5. 注册License"进行License的注册。

Cluster WebUI中创建的集群配置信息发送到所有服务器后,若执行集群关机重启,则在Alert日志中显示以下消息,但集群仍然正常运行。
" The number of licenses is insufficient. The number of insufficient licenses is %1. (Product name:%2)"

%1:License不足数
%2:产品名

License不足。

请从销售公司购买License,并注册License。

以试用版License进行集群操作时输出了以下消息,集群停止。
"The trial license has expired in %1. (Product name:%2)"
%1:试用结束日
%2:产品名

License过期。

请向销售商申请试用版License的延长使用,或购买产品版License并注册License。

期间定制版License时在集群运行过程中输出以下消息,禁用集群运行。

"The fixed term license has expired in %1. (Product name:%2)"
%1:有效期间终止日
%2:产品名称

"Cluster operation is forcibly disabled since a valid license has not been registered."

License过期。

请向销售商购买产品版License,进行License注册。

12. 词汇表

私网
集群服务器之间的通信路径。
(相关)私网,公网
虚拟IP地址

构筑远程集群时使用的资源(IP地址)。

管理客户端

已启动Cluster WebUI的机器。

启动属性
集群启动时,决定是自动还是手动启动失效切换组的失效切换组属性。
可在管理客户端进行设置。
共享磁盘

可从多台服务器访问的磁盘。

共享磁盘型集群

使用共享磁盘的集群系统。

切换分区
连接到多台计算机的,可切换使用的磁盘分区。
(相关)磁盘心跳用分区
集群系统

通过LAN等连接多台计算机,并作为1个系统进行操作的系统形态。

集群关机

关闭整个集群系统(构成集群的所有服务器)。

集群分区

镜像磁盘或共享型镜像磁盘中设定的分区。用于管理镜像磁盘及共享型镜像磁盘。相关(磁盘心跳用分区)

运行服务器
对某一业务装置来说,正在运行业务的服务器。
(相关)待机服务器
服务器组

连接在相同网络或共享磁盘设备上的服务器集合

从服务器 (服务器)
一般使用时,失效切换组进行失效切换的目标服务器。
(相关)主服务器
服务器组

连接在相同网络或共享磁盘设备上的服务器集合

待机服务器
非运行服务器。
(相关)运行服务器
磁盘心跳用分区

共享磁盘型集群中用于心跳通信的分区。

数据分区
可与共享磁盘的切换分区一样进行使用的本地磁盘
镜像磁盘中设置的数据用的分区。
(相关)集群分区
网络分区症状
所有的心跳中断。
(相关)私网,心跳
节点

在集群系统中,指构成集群的服务器。在网络用语中,指可以传输,接收和处理信号的,包括计算机和路由器在内的设备。

心跳
指为了监视服务器而在服务器之间定期进行相互间的通信。
(相关)私网,网络分区症状
公网
服务器 / 客户端之间的通信路径。
(相关)私网
失效切换

指由于查出故障,待机服务器继承运行服务器上的业务应用程序。

故障恢复

将某台服务器上已启动的业务应用程序通过失效切换交接给其他服务器后,再把业务返回到已启动业务应用程序的服务器。

失效切换组

执行业务所需的集群资源,属性的集合。

失效切换移动组

指用户有意识地将业务应用程序从运行服务器移动到待机服务器。

失效切换策略

可进行失效切换的服务器列表及其列表中具有失效切换优先顺序的属性。

私网
指仅连接构成集群的服务器的LAN。
(相关)私网,公网
主服务器 (服务器)
失效切换组中作为基准的主服务器。
(相关)从服务器(服务器)
浮动IP地址
发生了失效切换时,可忽视客户端的应用程序所连接服务器发生切换而使用的IP地址。
在与集群服务器所属的LAN相同的网络地址中,分配其他未使用的主机地址。
主服务器(Master Server)

Cluster WebUI 的编辑模式的[服务器共通属性]-[主服务器]中显示在最前面的服务器。

镜像磁盘连接

镜像磁盘型集群中用于进行数据镜像的LAN。可通过和内部主网的通用进行设置。

镜像磁盘系统
不使用共享磁盘的集群系统。
在服务器之间镜像服务器的本地磁盘。