1. 前言¶
1.1. 读者对象及用途¶
《EXPRESSCLUSTER® X安装&设置指南》面向导入使用了EXPRESSCLUSTER的集群系统的系统工程师以及导入集群系统后进行维护/操作的系统管理员,对从导入使用EXPRESSCLUSTER的集群系统到开始操作前的必需事项进行说明。
手册按照实际导入集群系统时的顺序,依次对使用了EXPRESSCLUSTER的集群系统的设计方法,EXPRESSCLUSTER的安装和设置步骤以及操作开始前所必需的测试步骤进行了说明。
1.2. 本手册的构成¶
4. 安装EXPRESSCLUSTER: 对安装EXPRESSCLUSTER的步骤进行说明。
10. 卸载/重装EXPRESSCLUSTER: 对卸载,重装信息进行说明。
1.3. EXPRESSCLUSTER X手册体系¶
EXPRESSCLUSTER 的手册分为以下6类。各指南的标题和用途如下所示。
《EXPRESSCLUSTER X 开始指南》 (Getting Started Guide)
本手册的读者对象为所有用户,对产品概要,运行环境,升级信息以及现有的问题等进行了说明。
《EXPRESSCLUSTER X 安装&设置指南》 (Installation and Configuration Guide)
本手册的读者对象为导入使用了EXPRESSCLUSTER的集群系统的系统工程师以及导入集群系统后进行维护和操作的系统管理员,对导入使用了EXPRESSCLUSTER的集群系统后到开始操作前的必备事项进行了说明。手册按照实际导入集群系统时的顺序,对使用EXPRESSCLUSTER的集群系统的设计方法,EXPRESSCLUSTER的安装设置步骤,设置后的确认以及开始操作前的测试方法进行了说明。
《EXPRESSCLUSTER X 参考指南》 (Reference Guide)
本手册的读者对象为管理员以及导入使用了EXPRESSCLUSTER的集群系统的系统工程师。手册对EXPRESSCLUSTER的操作步骤,各模块的功能以及疑难解答信息等进行了说明,是对《安装&设置指南》的补充。
《EXPRESSCLUSTER X 维护指南》(Maintenance Guide)
本手册的读者对象为管理员以及导入使用EXPRESSCLUSTER的集群系统后进行维护和操作的系统管理员,对EXPRESSCLUSTER的维护的相关信息进行了说明。
《EXPRESSCLUSTER X 硬件整合指南》 (Hardware Feature Guide)
本手册的读者对象为管理员以及导入使用EXPRESSCLUSTER的集群系统的系统工程师,对与特定硬件整合的功能进行了说明。是对《安装&设置指南》的补充。
《EXPRESSCLUSTER X 兼容功能指南》(Legacy Feature Guide)
本手册的读者对象为管理员以及导入使用EXPRESSCLUSTER的集群系统的系统工程师,对EXPRESSCLUSTER X 4.0 WebManager,Builder 以及EXPRESSCLUSTER Ver 8.0 兼容指令的相关信息等进行了说明。
1.4. 本手册的标记规则¶
在本手册中,需要注意的事项,重要的事项以及相关信息等用如下方法标记。
注解
表示虽然比较重要,但是并不会引起数据损失或系统以及机器损伤的信息。
重要
表示为避免数据损失和系统,机器损坏所必需的信息。
参见
表示参考信息的位置。
另外,在手册中使用以下标记法。
标记 |
使用方法 |
例 |
---|---|---|
[ ] 方括号
|
在命令名的前后,
显示在画面中的字句 (对话框,菜单等) 的前后。
|
点击[启动]
[详细信息]对话框
|
命令行中的[ ] 方括号 |
表示括号内的值可以不予指定(可省)。 |
|
等宽字体 |
路径名,命令行,系统输出(消息,提示等),目录,文件名,函数,参数。 |
|
粗体
|
用户在命令提示符后实际输入的值。
|
输入以下内容。
clpcl -s -a
|
斜体 |
用户将之替换为有效值后输入的项目。
|
|
在本手册的图中,为了表示EXPRESSCLUSTER,使用该图标。
2. 确定系统配置¶
本章介绍如何确定EXPRESSCLUSTER集群系统的系统配置。
本章中说明的项目如下所示。
2.1. 从设计集群系统到开始操作前的测试流程¶
构筑使用了EXPRESSCLUSTER的集群系统前,需要充分考虑所需的硬件环境,所用的软件,运行形态等,进行系统设计。
此外,构筑集群后开始操作前,需要测试集群系统是否构筑妥当。
本指南对这一系列的流程进行说明。请在实际执行导入集群系统的步骤的同时,一步一步阅读本手册。下面对从使用了EXPRESSCLUSTER的集群系统的设计到开始操作前的流程进行说明。
参见
要按照本指南流程进行操作,在遵照本指南的步骤的同时,还需随时参考《EXPRESSCLUSTER X 参考指南》。此外,关于运行环境及Release信息等最新信息,请参考《EXPRESSCLUSTER X开始指南》。
步骤分别与下述的章节相对应。
设计集群系统
安装和设置EXPRESSCLUSTER X
开始操作前的集群系统测试
2.2. 何谓EXPRESSCLUSTER¶
EXPRESSCLUSTER是指通过冗余化(集群化)的系统配置,当正在操作的服务器出现故障时,自动将业务交接到待机服务器,从而能够飞跃性地提高系统的可用性和扩展性。
通过导入使用了EXPRESSCLUSTER的集群系统,可以获得以下效果。
- 高可用性即使由于故障等,构成集群的服务器中的一台停止了,也可以自动将该服务器正在处理的业务交接到其他正常的服务器上,从而将故障时的业务停止时间控制在最小程度。
- 高扩展性最多同时支持Windows版,Linux版的32台大规模集群配置。
参见
关于EXPRESSCLUSTER的详细信息,请参考《开始指南》的"关于EXPRESSCLUSTER"。
2.2.1. EXPRESSCLUSTER的软件配置¶
EXPRESSCLUSTER由以下2个软件构成。
- EXPRESSCLUSTER本体EXPRESSCLUSTER的主模块。安装在构成集群的各服务器上。
- Cluster WebUI用于EXPRESSCLUSTER的配置信息创建和操作管理的管理工具。使用Web浏览器作为用户接口。实体嵌入在EXPRESSCLUSTER本体中,但在管理终端的Web浏览器上进行操作,因此区别于EXPRESSCLUSTER本体。
2.3. 关于系统配置的讨论¶
确认了要构筑的集群的用途和运行形态后,再确定硬件配置。下面描述了EXPRESSCLUSTER的配置示例。
参见
运行环境及Release信息等最新信息请参考《开始指南》的"EXPRESSCLUSTER的运行环境"及"最新版本信息"。
2.3.3. 在2个节点上使用镜像磁盘时的配置示例¶
在集群服务器Server 1,Server 2中需要设置相同的盘符。 也可以配置不同的机型。 但是,镜像分区必须是以字节为单位大小完全相同。如果磁盘几何结构不同,可执行无法创建相同大小的分区。 连接私网。 推荐服务器之间用电缆直接连接,但也可以通过HUB等连接。 集群服务器和同一个LAN上的客户端(Client 1),可以使用浮动IP连接到集群服务器。 远程LAN上的客户端(Client 2)也可以使用浮动IP连接到集群服务器。 在路由器(Router)中不需要进行特殊的设置,即可使用浮动IP。
2.3.4. 在2个节点上共用镜像空间和OS空间时的配置示例¶
在Server 1,Server 2中需要设置相同的盘符。 也可以配置不同的机型。 但是,镜像分区必须是以字节为单位大小完全相同。 如果磁盘几何结构不同,可执行无法创建相同大小的分区。 镜像分区可以与OS所用的磁盘保留在同一磁盘上。 集群服务器和同一个LAN上的客户端(Client 1),可以使用浮动IP连接到集群服务器。 远程LAN上的客户端(Client 2)也可以使用浮动IP连接到集群服务器。 在路由器(Router)中不需要进行特殊的设置,即可使用浮动IP。
2.3.5. 在2个节点上通过异步镜像磁盘构筑远程集群时的配置示例¶
在Server 1,Server 2中需要设置相同的盘符。 也可以配置不同的机型。 但是,镜像分区必须是以字节为单位大小完全相同。 如果磁盘几何结构不同,可执行无法创建相同大小的分区。 为了使用VIP,需要使用承载RIP主机路由的路由器。 客户端可以使用VIP与集群服务器连接。
为了防止灾难,可以如下图所示通过WAN在异地间构筑集群。
通过使用异步方式的镜像磁盘,可以防止由于网络延迟导致的磁盘性能下降,但发生失效切换时可执行丢失之前更新的磁盘信息。
需要确保镜像磁盘上的数据更新所需的足够的通信带宽。如果带宽太窄,则会发生与业务客户端之间的通信延迟和镜像中断。
连接目的端的切换使用浮动DNS资源或虚拟IP资源。
参见
关于网络分区解决与VIP的设置,请参考《参考指南》的"组资源的详细信息"的"理解虚拟IP资源"及"网络分区解决资源的详细信息"。
2.3.8. 在3个节点上使用共享型镜像时的配置示例¶
下图是由通过共享磁盘连接的2个节点和一个作为镜像化对象的磁盘的节点组成的3节点配置示例。
服务器可以为不同机型。
通过专用HUB连接兼作心跳线和镜像磁盘连接线的LAN。
请尽量使用高速HUB。
私网LAN连接到私网专用HUB(Interconnect HUB)。私网专用HUB不能连接其他的服务器和客户端。
2.3.9. 在2个节点上使用BMC相关功能的配置示例¶
使用物理机的强行停止功能和机箱ID指示灯联动功能,还有BMC心跳资源,消息接收监视器的BMC联动功能,在2个节点集群上的配置示例。
服务器可以为不同机型,但是需要可以支持BMC联动功能。关于可使用的机型,请参阅《开始指南》的"EXPRESSCLUSTER的运行环境"的"硬件运行环境"。
使用BMC心跳以外的BMC相关功能时,通过专用HUB连接私网和BMC的管理用LAN。
请尽量使用高速HUB。
将私网LAN以及BMC LAN连接到HUB。该HUB无法连接其他服务器和客户端。
2.4. 确认各EXPRESSCLUSTER模块的运行环境¶
EXPRESSCLUSTER的基本模块由EXPRESSCLUSTER Server(本体模块)(本体),Cluster WebUI 构成。请分别确认使用各模块的机器的运行环境。运行方法请参照《开始指南》的"EXPRESSCLUSTER的运行环境"。
2.6. 配置硬件后的设置¶
确定硬件配置并实际设置了硬件后,请确认以下事项。
设置共享磁盘(使用共享磁盘时必须)
设置镜像分区(使用镜像磁盘时必须)
调整OS启动时间(必须)
确认网络(必须)
确认防火墙(必须)
同步服务器时间(推荐)
关闭节电功能(必须)
设置SNMP服务(使用ESMPRO/SM功能时必须)
设置BMC和ipmiutil(使用物理机的强行停止功能和机箱ID指示灯联动时必须)
设置网络警告灯的供应商提供的 rsh同等功能 (必须)
2.6.2. 设置用于镜像的分区(使用镜像磁盘时必须)¶
按照以下步骤设置镜像分区。该操作也需要对通过共享型镜像方式与共享磁盘进行镜像化的本地磁盘(仅在一台服务器上连接的磁盘)进行。
注解
集群化单个服务器等,要继续使用既存分区上的数据时,请不要重新创建该分区等。如果重建该分区,则既存分区上的数据会被删除。
注解
下述保留的分区不能mount到NTFS文件夹使用。
确保集群分区
创建镜像磁盘资源/共享型镜像磁盘资源单独使用的分区。该分区用于镜像磁盘资源/共享型镜像磁盘资源的状态管理。
在使用镜像资源的集群中的所有服务器上创建分区。使用OS的"磁盘管理"创建分区,不进行格式化,保留为RAW分区并设置盘符。
注解
请确保集群分区大小在1024MB(1,073,741,824字节)以上。此外,集群分区请勿进行格式化,保留为RAW分区。
确保数据分区
创建通过镜像磁盘资源/共享型镜像磁盘资源进行镜像的数据分区。镜像磁盘资源时,在进行镜像的两台服务器上创建数据分区。
使用OS的"磁盘管理",通过NTFS进行格式化,设置盘符。
注解
重装EXPRESSCLUSTER时等,如果镜像对象的分区(驱动器)已经存在,无需重新创建分区。特别要注意的是,如果分区上已经存在要镜像化的数据,此时重建分区或进行格式化会删除这些数据。
系统驱动器和有页面文件的驱动器,安装了EXPRESSCLUSTER的驱动器不能用作镜像资源分区。
进行镜像的两个数据分区需要在字节单位上大小完全一致。磁盘的几何信息不一样时可执行会造成无法创建相同大小的分区,请使用clpvolsz命令确认调整分区大小。同时,必须在每台服务器上为各个分区分配相同的盘符。
2.6.3. 调整OS启动时间(必须)¶
从对构成集群系统的各服务器供电开始,到服务器的OS启动为止的时间要设为比下面的两个时间长的值。
从对共享磁盘供电到可用为止的时间(使用共享磁盘时)
心跳超时时间 ※默认值30秒
这种设置是为了避免下述问题。
如果开启共享磁盘和服务器的电源启动集群系统,则共享磁盘的启动赶不上OS的启动处理,在不识别共享磁盘的状态下启动OS,从而导致磁盘资源的启动失败
想要重启服务器进行失效切换时,如果在心跳超时时间内重启该服务器,则另一方的服务器会认为心跳继续,导致无法进行失效切换
计算上述2点的时间,使用[bcdedit]命令对启动时间进行调整。
注解
如果OS只有一个,则即使设置了启动等待时间也可执行被忽视。此时,请根据以下步骤添加Entry。第二个Entry为第一个Entry的复制则没有问题。
使用[bcdedit]命令的/copy选项,添加复制。
2.6.4. 确认网络设置(必须)¶
在集群内的所有服务器上通过ipconfig 命令和ping 命令确认下列网络资源是否正常运行
公网(用于与其它机器进行通信)
私网(用于EXPRESSCLUSTER服务器间的连接)
主机名
注解
集群使用的浮动IP资源,虚拟IP资源的IP地址无需在OS端进行设置。
2.6.5. 确认防火墙设置(必须)¶
EXPRESSCLUSTER各模块之间的通信使用多个端口号。使用的端口号请参照《开始指南》的"注意限制事项"的"安装EXPRESSCLUSTER前"。
2.6.6. 同步服务器的时间(推荐)¶
集群系统推荐定期对集群中的所有服务器的时间进行同步。进行相应设置,一天一次左右使用NTP等同步服务器的时间。
注解
如果各服务器的时间未同步,则失效切换或移动组时客户端看到的服务器端的系统时间会变,可执行给业务应用程序的运行带来故障。此外,还可执行导致服务器间的日志时间出现偏差,增加故障时解析原因的时间。
注解
如果系统监视资源/进程资源监视资源运行中改变OS的日期/时间时,有可执行不能正常运行。
2.6.7. 关闭节电功能(必须)¶
EXPRESSCLUSTER环境下不可以使用通过OnNow,ACPI,APM功能实现的节电(待机或睡眠)功能。请务必关闭该功能。
2.6.8. 设置SNMP服务(使用ESMPRO/SM结合使用功能时必须)¶
使用ESMPRO/SM功能的场合必须设置SNMP服务。在安装EXPRESSCLUSTER前,请设置SNMP服务。
2.6.9. 设置BMC和ipmiutil(使用物理机的强行停止功能和机箱ID指示灯联动时必须)¶
使用物理机的强行停止功能和机箱ID指示灯联动时,为了保证管理基板管理控制器 (BMC) 的LAN板卡所使用的IP地址和OS所使用的IP地址之间的通信,请设置各服务器的BMC。服务器上没有安装BMC或者管理BMC所使用的网络处于关闭状态时无法使用该功能。BMC的设置方法请参考各服务器的手册。
这些功能使用已经作为BSD许可证的开源代码被公开的IPMI Management Utilities (ipmiutil),通过网络控制各服务器的BMC固件。因此,要使用这些功能,需要在各集群服务器上安装ipmiutil。
2018年1月开始,可以从以下网站上下载ipmiutil。
http://ipmiutil.sourceforge.net/
ipmiutil版本请使用2.0.0~3.0.8版本。
在EXPRESSCLUSTER中使用Ipmiutil的hwreset命令或者ireset命令,alarms命令或者ialarms命令。为了使这些命令在不指定路径的情况下也可以执行,请在系统环境变量"PATH"中包含ipmiutil执行文件的路径,或者将执行文件复制到已经被包含在内的某个文件夹(如EXPRESSCLUSTER安装文件夹下的bin文件夹)中。
在EXPRESSCLUSTER中,因为没有需要使用IPMI驱动程序的功能,因此可以不安装IPMI驱动程序。
使用上述命令通过LAN控制BMC时,需要用有Administrator权限的账号登录各服务器。使用NEC Express5800/100系列的服务器时,因为User ID 3以内已经被其他工具占用,所以如果需要添加或更改账号,请使用User ID 4以后的数字。确认更改账号设置时请使用基于IPMI标准的IPMITool等工具。
2.6.10. 设置网络警告灯供应商提供的rsh同等功能(必须设置)¶
使用网络警告灯功能时,请设置警告灯供应商所支持的rsh同等命令。
3. 设计集群系统¶
本章将介绍进行二重化的应用程序,运行形态,集群构筑信息等内容,提供设计集群时的必要信息。
本章的内容如下。
3.1. 设计集群系统¶
设计集群系统主要由以下内容构成。
决定集群系统的运行形态
决定要二重化的应用程序
创建集群配置信息
下图以构筑典型的2节点,单向待机的集群环境为例进行说明。
FIP1 |
10.0.0.11
(从Cluster WebUI客户端访问)
|
FIP2 |
10.0.0.12
(从业务客户端访问)
|
NIC1-1 |
192.168.0.1 |
NIC1-2 |
10.0.0.1 |
NIC2-1 |
192.168.0.2 |
NIC2-2 |
10.0.0.2 |
串行端口 |
COM1 |
共享磁盘 (Shared disk)
DISK心跳 盘符
Q
文件系统
RAW
切换资源的分区盘符
R
文件系统
NTFS
3.2. 确定操作形态¶
EXPRESSCLUSTER支持多种形式的操作形态。有以一方服务器作为运行服务器,另一方作为待机服务器的单向待机形式和双方服务器互为不同业务的当前和待机服务器的双向待机形式。
- 单向待机集群集群系统中,同一业务应用程序只有1个在运行的系统形态。发生失效切换后不会有性能下降等问题,但正常运行时,待机服务器的资源被浪费。
- 同一应用程序双向待机集群集群系统中,运行多个同一业务应用程序的系统形态。构筑这样的形态,需要支持业务的多重启动。
- 不同种类应用程序的双向待机集群多种业务应用程序在不同的服务器上运行,相互处于待机的系统形态。正常运行时资源也不浪费。但发生失效切换后,由于同一台服务器上运行2种业务,业务性能会降低。
3.2.1. 单向待机集群的失效切换流程¶
单向待机集群中,某一业务运行的组在集群内通常被限制在1台服务器上运行。
3.2.1.1. 使用共享磁盘时¶
1. 在Server 1上执行业务A(Application A)。 在此,在同一集群内,业务A不能被执行多次。
某处发生异常,Server 1宕机。
业务从Server 1交接到Server 2。
恢复Server 1后,可以将业务A(Application A)的组从Server 2移动到Server 1。
3.2.1.2. 使用镜像磁盘时¶
1. 在Server 1上执行业务A(Application A)。 在此,在同一集群内,业务A不能被执行多次。
某处发生异常,Server 1宕机。
业务从Server 1交接到Server 2。
为了恢复业务,将从连接到Server 2的Mirror disk中恢复数据。
恢复Server 1后,可以将业务A(Application A)的组从Server 2移动到Server 1。
3.2.2. 双向待机集群失效切换流程¶
双向待机集群中,各服务器上可以运行多种业务。如果发生失效切换,由于单个服务器上运行多个业务,故负荷比正常状态增加,性能下降。
3.2.2.1. 使用共享磁盘时¶
在Server 1执行业务A(Application A),在Server 2上执行业务B(Application B)。
某处发生异常,Server 1宕机。
业务A从Server 1交接到Server 2。
恢复Server 1后,可以将业务A(Application A)的组从Server 2移动到Server 1。
3.2.2.2. 使用镜像磁盘时¶
在Server 1执行业务A(Application A),在Server 2上执行业务B(Application B)。
某处发生异常,Server 1宕机。
业务A从Server 1交接到Server 2。
为了恢复业务A,将从Server 2的Mirror partition1中恢复数据。
恢复Server 1后,可以将业务A(Application A)的组从Server 2移动到Server 1。
3.3. 决定要二重化的应用程序¶
二重化的应用程序作为EXPRESSCLUSTER集群系统上的集群对象是否合适,需对以下内容进行充分讨论后再判断。
3.3.1. 对象应用程序的注意事项¶
3.3.1.1. 注意事项1:出现故障时的数据修复¶
发生故障时运行服务器的应用程序更新的文件,在失效切换后待机服务器中应用程序访问该文件时,可执行会处于数据不完整的状态。
非集群(单个服务器)发生故障后重启时也会出现相同的情况,因此需要应用程序有处理此类故障的机制,而集群系统上更是需要不用手动(通过脚本)就可以进行恢复的机制。
3.3.1.2. 注意事项2:结束应用程序¶
EXPRESSCLUSTER停止/移动业务组(在线故障恢复)时,将对业务组使用的文件系统进行Unmount。因此,在应用程序的结束指示中,需要停止对共享磁盘或者镜像磁盘上所有文件的访问。
一般通过结束脚本执行应用程序结束指示命令,但需要注意结束指示命令有时候会异步(同应用程序的结束)结束。
3.3.1.3. 注意事项3:保存数据的位置¶
EXPRESSCLUSTER 可以在服务器间继承的数据如下。
磁盘资源的切换分区上的数据或者镜像磁盘资源/共享型镜像磁盘资源的数据分区上的数据 通过注册表同步资源同步的注册表键值。需要将应用程序的数据和服务器间共享的数据,服务器固有的数据保存在不同的配置位置。
数据种类
例
配置位置
想继承的数据
用户数据等
磁盘资源的切换分区或者镜像磁盘资源/共享型镜像磁盘资源的数据分区
不想继承的数据
程序,设置信息等
服务器的本地磁盘
3.3.1.4. 注意事项4:多个业务组¶
下图为共享磁盘型的示例,镜像磁盘型的情况也一样。
- 多个实例启动是启动新的其他实例 (进程)的方法。需要能运行多个应用程序。
- 应用程序重启通过停止,重启本来正在运行的应用程序,使添加的资源变得可处理的方法。
- 动态添加对运行中的应用程序,通过自动或者脚本指示添加资源的方法。
3.3.1.5. 注意事项5:与应用程序的相互干涉,亲和性问题¶
因与EXPRESSCLUSTER的功能和运行所需的OS功能相互干涉,应用程序或 EXPRESSCLUSTER有时会不能正常运行。
- 共享磁盘与镜像磁盘的访问控制资源停止状态下,磁盘资源所管理的共享磁盘上的切换分区及镜像磁盘资源/共享型镜像磁盘资源所镜像的数据分区被限制访问,无法读入和写入。若应用程序访问停止状态的(即无法通过用户和应用程序进行访问)共享磁盘或镜像磁盘,则出现I/O错误。一般可以假定从EXPRESSCLUSTER启动的应用程序在其启动的时点上,应该访问的切换分区或镜像分区已处于可访问状态。
- Multihome环境及IP地址的移动集群系统中一般一个服务器有多个IP地址。此外由于浮动IP地址和虚拟IP地址在服务器间移动,因此各服务器的IP地址的结构是动态变化的。如果业务应用程序不支持这样的Multihome环境,则可执行出现例如要获取本地服务器的IP地址,结果错误地获取了私网的地址,由于与客户端进行通信所使用的地址不同,因此造成错误运行这样的情况。因此,如果为需要知道服务器端的IP地址的业务应用程序,则需要明确指示使用的IP地址。
- 应用程序对共享磁盘或镜像磁盘的访问业务组的停止不会通知与业务应用程序共存的其他应用程序。若在停止业务组时正在对该组所使用的切换分区或数据分区进行访问,则分离磁盘将失败。在提供系统监视服务的应用程序中,有定期访问所有磁盘分区这样的功能。此时需要可以指定监视对象分区的功能等。
3.3.2. 注意事项的结构¶
将对象应用程序设为不同的待机形态,其注意事项也将不同。注意事项与"注意事项"(1~5)相对应。
单向待机[操作-待机] 注意事项:1 2 3 5
双向待机[操作-操作] 注意事项:1 2 3 4 5
- 共存运行 注意事项:5以共享的方式运行,不进行集群系统下失效切换的运行形态。
3.3.3. 注意事项的对策¶
问题点 |
对策 |
注意事项对应的编号 |
---|---|---|
数据文件更新中发生故障时,待机服务器中的应用程序不能正常运行 |
修改程序,或者添加/修改脚本资源,在失效切换时执行更新过程中的数据恢复处理 |
注意事项 1 |
即使停止应用程序,在一定的时间内,还在继续访问共享磁盘或镜像磁盘 |
在停止脚本中使用sleep命令,等待 |
注意事项 2 |
一台服务器上不能启动多个同一应用程序 |
双向待机操作中,失效切换时通过重启应用程序继承共享数据 |
注意事项 3 |
3.4. 设计失效切换组的结构¶
失效切换组(以下称为组)是指执行集群系统中的某个独立的业务时所必须的资源的集合,是进行失效切换的单位。
组拥有组名,组资源的属性。
3.5. 讨论组资源¶
要在集群系统实现失效切换,需要创建构成失效切换单位的组。组由组资源构成。为了创建最合适的集群,需要很好地理解添加什么样的组资源,如何设置等内容。
当前支持的组资源如下。
组资源名 |
略称 |
---|---|
应用程序资源 |
appli |
CIFS资源 |
cifs |
浮动DNS资源 |
ddns |
浮动IP资源 |
fip |
共享型镜像磁盘资源 |
hd |
镜像磁盘资源 |
md |
NAS资源 |
nas |
注册表同步资源 |
regsync |
脚本资源 |
script |
磁盘资源 |
sd |
服务资源 |
service |
打印机spool资源 |
spool |
虚拟计算机名资源 |
vcom |
虚拟IP资源 |
vip |
虚拟机资源 |
vm |
AWS Elastic IP资源 |
awseip |
AWS虚拟IP资源 |
awsvip |
AWS DNS资源 |
awsdns |
Azure 探头端口资源 |
azurepp |
Azure DNS资源 |
azuredns |
Google Cloud 虚拟 IP 资源 |
gcvip |
Google Cloud DNS 资源 |
gcdns |
Oracle Cloud 虚拟 IP 资源 |
ocvip |
3.6. 理解监视资源¶
- 常时监视
监视从集群启动时到集群停止时的期间。
- 启动时监视
监视从组启动时到组停止时的期间。
当前支持的监视资源如下。
监视资源名 |
略称 |
不间断监视 |
启动时监视 |
---|---|---|---|
应用程序监视资源 |
appliw |
✓ |
|
CIFS监视资源 |
cifsw |
✓ |
|
DB2监视资源 |
db2w |
✓ |
|
动态DNS监视资源 |
ddnsw |
✓ |
|
磁盘RW监视资源 |
diskw |
✓ |
|
浮动IP监视资源 |
fipw |
✓ |
|
FTP监视资源 |
ftpw |
✓ |
|
自定义监视资源 |
genw |
✓ |
|
共享型镜像磁盘监视资源 |
hdw |
✓ |
|
共享型镜像磁盘TUR监视资源 |
hdtw |
✓ |
|
HTTP监视资源 |
httpw |
✓ |
|
IMAP4监视资源 |
imap4w |
✓ |
|
IP监视资源 |
ipw |
✓ |
✓ |
镜像磁盘监视资源 |
mdw |
✓ |
|
镜像连接监视资源 |
mdnw |
✓ |
|
NIC Link Up/Down监视资源 |
miiw |
✓ |
✓ |
Multi-Target监视资源 |
mtw |
✓ |
|
NAS监视资源 |
nasw |
✓ |
|
ODBC监视资源 |
odbcw |
✓ |
|
Oracle监视资源 |
oraclew |
✓ |
|
WebOTX监视资源 |
otxw |
✓ |
|
POP3监视资源 |
pop3w |
✓ |
|
PostgreSQL监视资源 |
psqlw |
✓ |
|
注册表同步监视资源 |
regsyncw |
✓ |
|
磁盘TUR监视资源 |
sdw |
✓ |
|
服务监视资源 |
servicew |
✓ |
|
SMTP监视资源 |
smtpw |
✓ |
|
打印机spool监视资源 |
spoolw |
✓ |
|
SQL Server监视资源 |
sqlserverw |
✓ |
|
Tuxedo监视资源 |
tuxw |
✓ |
|
虚拟计算机名监视资源 |
vcomw |
✓ |
|
虚拟IP监视资源 |
vipw |
✓ |
|
Websphere监视资源 |
wasw |
✓ |
|
Weblogic监视资源 |
wlsw |
✓ |
|
虚拟机监视资源 |
vmw |
✓ |
|
消息接收监视资源 |
mrw |
✓ |
|
JVM监视资源 |
jraw |
✓ |
✓ |
系统监视资源 |
sraw |
✓ |
|
进程资源监视资源 |
psrw |
✓ |
|
进程名监视资源 |
psw |
✓ |
✓ |
用户空间监视资源 |
userw |
✓ |
|
AWS Elastic IP监视资源 |
awseipw |
✓ |
|
AWS虚拟IP监视资源 |
awsvipw |
✓ |
|
AWS AZ监视资源 |
awsazw |
✓ |
|
AWS DNS监视资源 |
awsdnsw |
✓ |
|
Azure 负载均衡器监视资源 |
azureppw |
✓ |
|
Azure 探头端口监视资源 |
azurelbw |
✓ |
|
Azure DNS监视资源 |
azurednsw |
✓ |
|
Google Cloud 虚拟 IP 监视资源 |
gcvipw |
✓ |
|
Google Cloud 负载均衡监视资源 |
gclbw |
✓ |
|
Google Cloud DNS 监视资源 |
gcdnsw |
✓ |
|
Oracle Cloud 虚拟 IP 监视资源 |
ocvipw |
✓ |
|
Oracle Cloud 负载均衡监视资源 |
oclbw |
✓ |
3.7. 理解心跳资源¶
集群内的服务器对其它服务器进行死活监视。服务器间的死活监视使用心跳资源。
内核模式LAN心跳(Primary interconnect)
内核模式LAN心跳(Secondary interconnect)
BMC心跳
Witness心跳
心跳资源的种类 |
略称 |
功能概要 |
---|---|---|
内核模式LAN心跳
资源 (1)(2)
|
lankhb |
内核模式的模块使用LAN进行服务器的死活监视 |
BMC 心跳资源 (3) |
bmchb |
使用BMC,进行服务器的死活监视 |
Witness 心跳资源 (4) |
witnesshb |
使用Witness,进行服务器的死活监视。 |
至少需要设置一个内核模式LAN心跳资源。推荐设置两个以上。
必须设置一个以上的所有服务器间能通信的内核模式LAN心跳。
3.8. 理解网络分区解决资源¶
网络分区状态是指集群服务器间的所有通信路径都发生故障,导致网络切断的状态。
在无法处理网络分区状态的集群系统中,无法区分通信路径的故障和服务器的故障,有时会发生多个服务器访问同一资源导致数据被损坏的情况。在EXPRESSCLUSTER中,如果查出其他服务器的心跳中断,就会判断是服务器的故障还是网络分区状态。判定为服务器宕机时,在正常的服务器上启动各种资源,启动业务应用程序,来执行失效切换。判定为网络分区状态时,与维持业务运行相比要优先保护数据,所以会实施紧急关机等处理。
网络分区解决有如下方法。
COM方式
可以在2节点集群中使用。
需要串行交叉电缆。
使用COM通信路径对对方服务器进行生存确认,来判断网络分区状态。
在COM通信路径(COM端口或串行交叉电缆)发生异常的状态下发生服务器宕机时,由于网络分区解决失败,所以无法进行失效切换。对正常的服务器也需实施紧急关机。
在COM通信路径正常的状态下如果所有的网络通信路径发生故障,则查出网络分区,对除主服务器以外的所有服务器实施紧急关机。
在COM通信路径(COM端口或串行交叉电缆)发生异常的状态下所有网络通信路径发生故障时,紧急关掉所有的服务器。
万一集群服务器间所有的网络通信路径与COM通信路径同时发生了故障,则在两台服务器间执行失效切换。此时可执行会发生多个服务器访问同一资源导致数据被损坏的情况。
PING方式
需要可以接收ping命令,返回应答的常时运行的装置(以下简称为"ping 装置")。
可以指定多个用于ping的装置。
查出其他服务器的心跳中断时,如果用于ping的装置对ping命令做出的应答,则判断心跳中断的服务器宕机,实施失效切换,如果没有对ping命令做出的应答,则根据网络分区状态判断其自身独立于网络并紧急关机。据此,发生网络分区状态时,可以在能与客户端进行通信的服务器上继续业务。
HTTP 方式
必须配备始终处于运行状态的Web服务器。
查出其他服务器心跳中断时,如果对HTTP HEAD的请求有响应,则判断心跳中断的服务器宕机,实施故障转移;如果没有响应,则根据网络分区状态判断其自身独立于网络并对其实施紧急关机。据此,发生网络分区状态时,可以在能与客户端进行通信的服务器上继续业务。
如果由于Web服务器故障等导致心跳中断之前,持续对HTTP HEAD 请求没有响应,则由于解决网络分区失败,在这种状态下查出心跳中断时,所有服务器全部紧急关机。
DISK方式
可以在使用共享磁盘的集群中选择。
共享磁盘上需要专用的磁盘分区(用于磁盘心跳的分区)。
在共享磁盘上定期写入数据,通过计算其他服务器的最终生存时刻判断网络分区状态。
在共享磁盘或共享磁盘的路径(SCSI路径等)发生异常的状态下,查出其他服务器的心跳中断时,由于解决网络分区失败,而无法执行失效切换。正常的服务器也要紧急关机。
在共享磁盘正常的状态下所有的网络通信路径发生故障时,查出网络分区,对主服务器及可以和主服务器通信的服务器实施失效切换处理。其他服务器全部紧急关机。
与其他方式相比,由于需要考虑磁盘I/O的延迟,解决网络分区比较花费时间。此时间约是集群的属性中设置的心跳超时时间和磁盘IO等待时间中较长的时间的2倍。
如果共享磁盘的IO时间比磁盘IO等待时间长,则可执行发生解决网络分区处理超时无法进行失效切换的情况。
注解
使用VERITAS Storage Foundation时无法使用DISK方式。
COM+ DISK方式
组合COM方式与DISK方式的方式。可以在使用2节点的共享磁盘的集群中选择。
需要串行交叉电缆。此外,共享磁盘上需要专用的磁盘分区(用于磁盘心跳的分区)。
在COM通信路径(COM端口及串行交叉电缆)处于正常状态时与COM方式进行相同动作,但如COM通信路径发生异常,将切换为DISK方式。因此,与仅使用COM方式时相比实现了高可用性,同时,与仅使用DISK方式相比,也能够高速完成网络分区解决。
万一集群服务器间的所有网络通信路径与COM通信路径同时发生故障,由于至少会对一方的服务器实施紧急关机,所以可以避免数据被损坏。
PING+DISK方式
组合PING方式与DISK方式的方式。
需要可以接收ping命令,返回应答的常时运行的装置(用于ping的装置)。可以指定多个用于ping的装置。此外,共享磁盘上需要专用的磁盘分区(用于磁盘心跳的分区)。
通常与PING方式进行相同动作,但如因用于ping的装置发生故障等原因,在心跳停止前持续ping命令全服务器无应答的状态,则切换为DISK方式。但是,如使用PING方式与DISK方式各自的NP解决资源的服务器不一致(例如,有在所有服务器上使用的PING方式的资源与仅在连接共享磁盘装置的部分服务器上使用的DISK方式的资源等)时,各自的资源将分别动作,因此,无论用于ping的装置状态如何,都将运行DISK方式。
在共享磁盘或共享磁盘的路径发生异常的状态下,如果查出其他服务器的心跳中断,则在对ping命令做出应答的状态下也会紧急关机。
多数决定方式
可以在3节点以上的集群中使用。
- 通过对由于网络故障无法与整个集群的大多数服务器通信的服务器实施紧急关机,防止由于网络分区症状导致数据被损坏。此外,若刚好无法与半数的服务器通信时,将对无法与主服务器通信的服务器执行紧急关机。
超过半数的服务器宕机时,剩余的所有正常的服务器也宕机。
由于集线器的故障等导致所有服务器分离时所有服务器宕机。
不进行网络分区解决
可以在不使用磁盘资源(共享磁盘)的集群中进行选择。
万一集群服务器间的所有网络通信路径发生故障,则对所有服务器执行失效切换。
推荐的网络分区解决方式如下。
在3节点以上使用共享磁盘的集群中,推荐PING+DISK方式。使用共享型镜像磁盘时,在连接了共享磁盘的服务器上使用PING+DISK方式,在未连接共享磁盘的服务器上只使用PING方式。
在3节点以上不使用共享磁盘的集群中,推荐PING方式。
在2节点以上使用共享磁盘的集群中,推荐COM+DISK方式或PING+DISK方式。
在2节点间不使用共享磁盘的集群中,推荐COM方式或PING方式。
使用Witness心跳资源,不使用共享磁盘的集群,推荐HTTP方式。
网络分区
解决方式
|
节点数
|
所需HW
|
无法失效切换
的情况
|
全部网络路径中断时
|
两台服务器失效切换的情况
|
网络分区解决
所需的时间
|
---|---|---|---|---|---|---|
COM |
2 |
串行线缆 |
COM异常 |
主服务器生存 |
整个网络中断的同时发生COM异常 |
0 |
DISK
|
没有限制
|
共享磁盘
|
磁盘异常
|
主服务器生存
|
无
|
需要通过心跳超时与磁盘IO等待时间计算出的时间
|
PING |
没有限制 |
接收ping命令并返回应答的装置 |
无 |
对ping命令有应答的服务器生存 |
ping命令进行指定次数的连接超时后,整个网络中断 |
0 |
HTTP |
没有限制 |
Web 服务器 |
Web 服务器故障 |
能与Web 服务器通信的服务器可判定为在线 |
无 |
0 |
COM+
DISK
|
2
|
串行线缆,
共享磁盘
|
COM异常并且
磁盘异常
|
主服务器生存 |
无 |
0 |
PING +
DISK
|
没有限制
|
接收ping命令并返回应答的装置,
共享磁盘
|
无 |
对ping命令有应答的服务器生存 |
无 |
0 |
多数决定 |
3以上 |
无 |
超过半数的服务器宕机 |
可以与超过半数的服务器进行通信的服务器生存 |
无 |
0 |
无 |
没有限制 |
无 |
无 |
全体服务器进行失效切换 |
整个网络中断时 |
0 |
4. 安装EXPRESSCLUSTER¶
本章就EXPRESSCLUSTER的安装步骤进行说明。
本章说明的项目如下。
4.1. 从安装EXPRESSCLUSTER到生成集群的流程¶
从安装EXPRESSCLUSTER到注册License,生成集群系统到确认集群状态为止的流程如下所示。
在介绍以下步骤前,请务必先阅读"2. 确定系统配置" "设计集群系统",确认所需的运行环境及生成的集群的配置内容。
安装EXPRESSCLUSTER Server
在构成集群的各服务器中安装EXPRESSCLUSTER的主模块EXPRESSCLUSTER Server。安装时,也要注册License(4. 安装EXPRESSCLUSTER)。(需要重启服务器OS)创建使用Cluster WebUI的集群配置信息
生成集群
确认使用了Cluster WebUI的设置
参见
为了能够按照本指南的流程进行操作,需要在遵守本指南的步骤的同时,随时参考《EXPRESSCLUSTER X 参考指南》。此外,关于运行环境及Release信息等的最新信息,请参考《EXPRESSCLUSTER X 开始指南》的"EXPRESSCLUSTER的运行环境"及"最新版本信息"。
4.2. 安装EXPRESSCLUSTER Server¶
在构成集群系统的各服务器上安装EXPRESSCLUSTER的本体模块EXPRESSCLUSTER Server。
安装时需要注册License。备有所需的License文件或License Sheet。
EXPRESSCLUSTER Server由以下的系统服务构成
服务显示名
|
服务名
|
说明
|
启动类型
|
服务状态
(通常时)
|
---|---|---|---|---|
EXPRESSCLUSTER |
clpstartup |
EXPRESSCLUSTER本体 |
自动 |
正在运行 |
EXPRESSCLUSTER API |
clprstd |
EXPRESSCLUSTER Restfl API 控制 |
自动 |
停止 |
EXPRESSCLUSTER Disk Agent |
clpdiskagent |
控制共享磁盘,镜像磁盘,共享型镜像磁盘 |
手动 |
正在运行 |
EXPRESSCLUSTER Event |
clpevent |
输出事件日志 |
自动 |
正在运行 |
EXPRESSCLUSTER Information Base |
clpibsv |
集群信息管理 |
自动 |
正在运行 |
EXPRESSCLUSTER Java Resource Agent |
clpjra |
Java Resource Agent |
手动 |
停止 |
EXPRESSCLUSTER Manager |
clpwebmgr |
WebManager服务器 |
自动 |
正在运行 |
EXPRESSCLUSTER Old API Support |
clpoldapi |
兼容API处理 |
自动 |
正在运行 |
EXPRESSCLUSTER Server |
clppm |
EXPRESSCLUSTER服务器 |
自动 |
正在运行 |
EXPRESSCLUSTER System Resoruce Agent |
clpsra |
System Resource Agent |
手动 |
停止 |
EXPRESSCLUSTER Transaction |
clptrnsv |
通信处理 |
自动 |
正在运行 |
EXPRESSCLUSTER Web Alert |
clpwebalt |
同步警报 |
自动 |
正在运行 |
注解
设定了JVM监视资源的时候,EXPRESSCLUSTER Java Resource Agent 是正在运行状态。
注解
设定了系统监视资源和进程资源监视资源的时候,或者[集群属性] - [监视]标签页- [收集系统资源信息] 的复选框选中的时候,EXPRESSCLUSTER System Resoruce Agent是正在运行状态。
4.2.1. 全新安装EXPRESSCLUSTER Server¶
按照以下步骤在构成集群的各服务器中安装EXPRESSCLUSTER Server。
重要
使用共享磁盘时,请不要在与共享磁盘相连的,未安装EXPRESSCLUSTER的服务器上同时启动多个OS。否则可执行会损坏共享磁盘上的数据。
注解
请使用拥有Administrator权限的账号安装EXPRESSCLUSTER Server。
注解
安装EXPRESSCLUSTER Server,Windows的媒体感知功能(在因LAN电缆拔除等而发生链接断开的情况下IP地址为停止的功能)变为无效。
注解
将安装盘放入CD-ROM驱动器。
显示菜单画面后选择EXPRESSCLUSTER® for Windows。
注解
菜单画面无法自动启动时,双击CD-ROM的根文件夹中的menu.exe。
选择EXPRESSCLUSTER X 4.3 for Windows。
显示[EXPRESSCLUSTER安装]。点击[下一步]。
显示[选择安装地址]。更改时点击[参照]指定目录。点击[下一步]。
显示[可以安装该程序了]。点击[安装]开始安装。
结束安装后,会显示[端口号]画面。通常选择默认值点击[下一步]。
显示[共享磁盘的过滤设定]。右击与共享磁盘相连接的SCSI控制器或HBA,点击[过滤]。点击[下一步]。
重要
使用共享磁盘时,必须对连接共享磁盘的SCSI控制器或HBA进行过滤设置。如果在没有设置过滤的状态下连接共享磁盘则可执行会损坏共享磁盘上的数据。磁盘路径二重化时,虽然看上去共享磁盘像是只连接在其中某一个HBA下,但是需要对共享磁盘物理连接的所有HBA进行过滤设置。
重要
使用镜像磁盘资源时,对连接镜像化对象的内置磁盘的SCSI控制器或HBA,请不要进行过滤设置。镜像磁盘资源启动失败。另外,使用共享型镜像磁盘资源镜像化共享磁盘时,必须进行过滤设置。
显示是否进行过滤设置的确认画面。点击[是]。
点击[结束],结束License 管理。
显示[完成安装向导]。显示是否重启的确认画面后,选择重启点击[完成]。服务器重启。
注解
在使用共享磁盘的环境下,OS的重启完成后,由于设有访问限制,所以处于无法访问共享磁盘的状态。
4.2.2. 静默模式安装EXPRESSCLUSTER Server¶
注解
注解
请由拥有Administrator权限的账户进行安装。
注解
安装EXPRESSCLUSTER Server,Windows的媒体感知功能(在因LAN电缆拔除等而发生链接断开的情况下IP地址为停止的功能)变为无效。
注解
<事前准备>
如果要改变安装目录(默认值是
"C:\Program Files\EXPRESSCLUSTER"
),须事先做成应答文件。请按照以下的步骤做成应答文件。
把应答文件从安装盘复制到服务器可以访问的目录下。复制安装盘里的Windows\4.3\common\server\x64\response\setup_inst_jp.iss
。用文本编辑器打开响应文件(setup_inst_jp.iss),更改写在szDir行上的文件夹。
Count=4 Dlg1={8493CDB6-144B-4330-B945-1F2123FADD3A}-SdAskDestPath-0 Dlg2={8493CDB6-144B-4330-B945-1F2123FADD3A}-SdStartCopy2-0 Dlg3={8493CDB6-144B-4330-B945-1F2123FADD3A}-SdFinishReboot-0 [{8493CDB6-144B-4330-B945-1F2123FADD3A}-SdWelcome-0] Result=1 [{8493CDB6-144B-4330-B945-1F2123FADD3A}-SdAskDestPath-0] szDir=C:\Program Files\CLUSTERPRO Result=1
<安装步骤>
从命令提示符执行下列命令,启动安装。# "<silent-install.bat的路径>\silent-install.bat" -i <应答文件的路径>※<silent-install.bat的路径>是:安装盘里的Windows\4.3\common\server\x64\silent-install.bat
※向默认路径("C:\Program Files\EXPRESSCLUSTER"
)安装时,请省略<应答文件的路径>。重启服务器。
从命令提示符执行下列命令,注册License。# "<安装目录>\bin\clplcnsc.exe" -i <License文件的路径>
4.2.3. 从旧版EXPRESSCLUSTER Server升级¶
首先请确认以下注意事项。
可以从Windows版EXPRESSCLUSTER X 1.0/2.0/2.1/3.0/3.1/3.2/3.3升级到Windows版EXPRESSCLUSTER X 4.3 。其他版本无法升级。
从Windows版EXPRESSCLUSTER X 1.0/2.0/2.1/3.0/3.1/3.2/3.3升级到Windows 版EXPRESSCLUSTER X 4.3 时,需要使用X 4.3 的许可证(使用各种可选产品时还包括这些产品的许可证)以及包含X 4.3 的CD媒体。
使用比本产品更新的版本创建的EXPRESSCLUSTER 的配置信息,不能在本产品中使用。
Windows版 X1.0/2.0/2.1/3.0/3.1/3.2/3.3/4.0/4.1/4.2/4.3 的EXPRESSCLUSTER的配置信息可在本产品中使用。
使用镜像磁盘资源/共享型镜像磁盘资源时,集群分区空间的大小要在1024MB以上。此外,需要镜像磁盘资源/共享型镜像磁盘资源的全复制。
使用镜像磁盘资源/共享型镜像磁盘资源时,推荐事前做数据的备份。关于备份请参考《维护指南》的"维护信息"的"执行快照备份"。
请使用拥有Administrator权限的账号升级EXPRESSCLUSTER Server。
参见
从X 4.0 / 4.1/ 4.2升级到X 4.3 的步骤请参考《升级步骤手册》。
以下,就有关从Windows版EXPRESSCLUSTER X 1.0/2.0/2.1/3.0/3.1/3.2/3.3进行升级的步骤进行说明。
开始升级前,请使用WebManager或命令确认正在运行集群的各服务器的状态以及所有资源的状态是否正常。
备份集群配置信息。集群配置信息除了在做成时通过Builder保存外,通过clpcfctrl命令也可以做成备份。详细请参考《参考指南》的"EXPRESSCLUSTER命令参考"- "生成集群,备份集群配置信息(clpcfctrl命令)" - "备份集群配置信息(clpcfctrl --pull)"。
关于各服务器,如果EXPRESSCLUSTER Server服务自动启动,请更改为手动启动。
停止集群。
启动一台服务器,卸载EXPRESSCLUSTER。卸载步骤请参考"10. 卸载/重装EXPRESSCLUSTER "的"10.1.1. 卸载EXPRESSCLUSTER Server"。
步骤5卸载的服务器上,安装EXPRESSCLUSTER X 4.3。安装步骤请参考本章的"4.2.1. 全新安装EXPRESSCLUSTER Server"。
停止安装了EXPRESSCLUSTER X 4.3 的服务器。
在构成集群的所有服务器上执行5~7的步骤。
启动构成集群的所有服务器。
使用镜像磁盘资源/共享型镜像磁盘资源时,要准备1024MB以上的分区作为集群分区。
- 访问以下网址启动WebManager
http://安装的服务器的实际IP地址:29003/main.htm
导入集群配置信息,读取备份的配置信息。镜像磁盘资源/共享型镜像磁盘资源使用的集群分区的盘符和配置信息不一致时,修改配置信息。另外,镜像磁盘资源/共享型镜像磁盘资源所属的组的[属性]的[属性]标签页的[组启动属性]是自动启动的场合,设置成手动启动。此外,由于失效切换次数的计数单位与版本升级前的操作相同,因此,[集群属性] - [扩展] 标签页 - [失效切换次数的计数单位] 更改为 [集群]。 - 应用配置信息。显示[配置信息中存在某个磁盘信息与服务器上的磁盘信息不一致。是否进行自动修正?]消息的时候,选择[是]。
使用期间定制License时,执行以下命令。
clplcnsc --distribute
启动Cluster WebUI,开始集群。
使用镜像磁盘资源/共享型镜像磁盘资源时,从镜像磁盘列表,持有最新信息的服务器作为复制源,执行全复制。
启动组,确认各资源正常启动。
步骤11的[组启动属性]是自动启动变为手动启动的场合,通过Cluster WebUI 的编辑模式设置回自动启动,点击 [应用配置文件],将集群配置信息应用到集群。
至此EXPRESSCLUSTER Server升级完毕。通过使用Cluster WebUI或clpstat指令,请确认各服务器作为集群是否正常运行。
4.2.4. 手动设置SNMP联动功能¶
注解
仅使用SNMP陷阱发送送信功能时,不需要进行本步骤。
在此情况下,请根据以下步骤手动登录。
注解
请使用拥有Administrator权限的账号执行设置。
安装Windows SNMP Service。
停止Windows SNMP Service。
- 在Windows SNMP Service上登录EXPRESSCLUSTER的SNMP联动功能。3-1. 启动注册表编辑器。3-2. 打开以下的键值。
HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\SNMP\Parameters\ExtensionAgents
3-3. 在打开的键值中以以下的内容来创建字符串值。值的名称 :mgtmib值的种类 :REG_SZ值的数据 :SOFTWARE\NEC\EXPRESSCLUSTER\SnmpAgent\mgtmib\CurrentVersion
3-4. 结束注册表编辑器。 启动Windows SNMP Service。
注解
SNMP 通信所需的设置在Windows SNMP Service侧进行。
5. 注册License¶
为了实际运行创建的集群,需要注册License。本章就EXPRESSCLUSTER的Licence注册步骤进行说明。
本章说明的项目如下。
5.1. 注册License¶
除安装时注册License外,也可以通过添加对EXPRESSCLUSTER的License进行注册/参照/删除。
5.1.1. 注册CPU License¶
以下EXPRESSCLUSTER X Professional Edition 4.3 for Windows,在构筑集群的服务器中设置为主服务器的服务器上注册CPU Lincese。
本体产品
EXPRESSCLUSTER X Professional Edition 4.3 for Windows
EXPRESSCLUSTER X Professional Edition SingleServerSafe 4.3 for Windows
EXPRESSCLUSTER X Professional Edition SingleServerSafe for Windows 升级License
5.1.2. 注册 节点License¶
使用以下EXPRESSCLUSTER X Professional Edition 4.3 for Windows节点License的场合,需要在使用的各服务器上逐一注册License。
本体产品
EXPRESSCLUSTER X Professional Edition 4.3 for Windows VM
EXPRESSCLUSTER X Professional Edition SingleServerSafe 4.3 for Windows VM
EXPRESSCLUSTER X Professional Edition SingleServerSafe for Windows VM 升级License
可选产品
EXPRESSCLUSTER X Professional Edition Replicator 4.3 for Windows
EXPRESSCLUSTER X Professional Edition Replicator DR 4.3 for Windows
EXPRESSCLUSTER X Professional Edition Replicator DR 4.3 Upgrade License for Windows
EXPRESSCLUSTER X Professional Edition Database Agent 4.3 for Windows
EXPRESSCLUSTER X Professional Edition Internet Server Agent 4.3 for Windows
EXPRESSCLUSTER X Professional Edition Application Server Agent 4.3 for Windows
EXPRESSCLUSTER X Professional Edition Java Resource Agent 4.3 for Windows
EXPRESSCLUSTER X Professional Edition System Resource Agent 4.3 for Windows
EXPRESSCLUSTER X Professional Edition Alert Service 4.3 for Windows
注解
没有安装可选产品的License时,对应License的资源及监视资源就不能显示在Cluster WebUI的列表中。
注册形式有输入License Sheet中描述的信息和指定License文件2种方法。
输入License产品附带的License信息, 注册License(请参考 "5.1.4. 输入License信息注册License")
指定License文件,注册License(请参考 "5.1.5. 指定License文件注册License")
5.1.3. License的注意事项¶
使用License时的注意事项如下所示。
5.1.4. 输入License信息注册License¶
注册CPU License时
手头有从经销商处正式获取的License Sheet。购买产品,则经销商会提供License Sheet。输入此License Sheet中的记载值。
在构筑集群系统的服务器中,请确认是否可以作为管理员登录设为主服务器的服务器。
注册节点Lincese时
手头有从经销商处正式获取的License Sheet。购买产品,则经销商会提供License Sheet。在多少台服务器上使用,就要有相应数量的节点License的License Sheet。输入此License Sheet中的记载值。
在构筑集群系统的服务器中,请确认是否可以作为管理员登录到使用可选产品的服务器。
在[开始]菜单中,点击[EXPRESSCLUSTER Server]的[License管理]。
显示[License 管理]对话框。点击[登录]。
显示License注册方法的选择画面。点击[输入License项目之后进行登录]。
显示[产品选择]对话框。选择注册的License的产品区分,点击[下一步]。
显示[输入序列号] 对话框。输入产品附带的License Sheet的串行No和License健值。点击[下一步]。
显示[License登录确认]对话框。确认输入的信息是否有误。如果无误,点击[下一步]。
确认显示弹出消息"license登录"。如果显示,则表示完成License注册。注册License失败时,从步骤2开始重新注册License。
5.1.5. 指定License文件注册License¶
以下说明指定License文件注册License的步骤。
执行本步骤前,请确认以下内容。
注册CPU License时
在构筑集群系统的服务器中,可以作为管理员登录到准备设为主服务器的服务器。
在构筑集群系统的服务器中,License文件存在于主服务器的任意位置。
注册节点License时
可以作为管理员登录使用的服务器。
在构筑集群系统的服务器中,License文件存在于要使用的服务器的任意位置。
在[开始]菜单的中,点击[EXPRESSCLUSTER Server]的[License 管理]。
显示[License 管理]对话框。点击[登录]。
显示License注册方法的选择画面。点击[使用License文件进行登录]。
显示[指定License文件]对话框。指定注册的License文件,点击[打开]。
显示License注册的确认消息。点击[确定]。
点击[结束],关闭License 管理。
5.2. 参照/删除License¶
5.2.1. 参照/删除注册的License¶
下面对参照及删除注册的License的步骤进行说明。
在[开始]菜单中,点击[EXPRESSCLUSTER Server]的[License 管理]。
显示[License 管理]对话框。点击[参照/删除]。
显示注册的License列表。
删除时,选择要删除的License,点击[删除]。
显示确认是否删除的消息。点击[确定]。
5.3. 注册期间定制License¶
本体产品
EXPRESSCLUSTER X Professional Edition 4.3 for Windows
可选产品
EXPRESSCLUSTER X Professional Edition Replicator 4.3 for Windows
EXPRESSCLUSTER X Professional Edition Replicator DR 4.3 for Windows
EXPRESSCLUSTER X Professional Edition Database Agent 4.3 for Windows
EXPRESSCLUSTER X Professional Edition Internet Server Agent 4.3 for Windows
EXPRESSCLUSTER X Professional Edition Application Server Agent 4.3 for Windows
EXPRESSCLUSTER X Professional Edition Java Resource Agent 4.3 for Windows
EXPRESSCLUSTER X Professional Edition System Resource Agent 4.3 for Windows
EXPRESSCLUSTER X Professional Edition Alert Service 4.3 for Windows
注解
如果没有安装可选产品的License,License对应的资源及监视资源就不能显示在Cluster WebUI的列表中。
5.3.1. 期间定制License的注意事项¶
以下是使用期间定制License的注意事项。
5.3.2. 关于注册期间定制License¶
下面说明如何注册期间定制Lincense。
执行本步骤前,请确认以下内容。
在构筑集群系统的服务器中,可以作为管理员登录到准备设为主服务器的服务器。
在构筑集群系统的服务器中,使用产品的全部License文件存在于主服务器的任意位置。
用以下步骤注册所用产品的全部License文件。同一产品有多个License时,以备使用中的License到期,用相同的步骤注册剩余的License。
在[开始]菜单的中,点击[EXPRESSCLUSTER Server]的[License 管理]。
显示[License 管理]对话框。点击[登录]。
显示License注册方法的选择画面。点击[使用License文件进行登录]。
显示[指定License文件]对话框。指定注册的License文件,点击[打开]。
显示License注册的确认消息。点击[确定]。
点击[结束],关闭License 管理。
5.4. 参照/删除期间定制License¶
5.4.1. 参照/删除注册的期间定制License¶
参照及删除注册的期间定制License的步骤同"5.2.1. 参照/删除注册的License"。
6. 创建集群配置信息¶
在EXPRESSCLUSTER中,记述集群系统的配置内容的数据称为集群配置信息。使用Cluster WebUI 创建集群配置信息。在本章中,使用配置示例说明Cluster WebUI的启动方法及集群配置信息的步骤。
本章说明的项目如下。
6.1. 创建集群配置信息¶
使用用于创建/更改集群配置信息的功能的Cluster WebUI的编辑模式创建集群配置信息。
通过从管理PC访问的Cluster WebUI ,启动创建集群配置信息。通过Cluster WebUI将创建的集群配置信息反映给集群系统。
6.2. 启动Cluster WebUI¶
创建集群配置信息需要访问Cluster WebUI。在此首先说明Cluster WebUI的概要,之后说明访问Cluster WebUI,创建集群配置信息的方法。
参见
关于Cluster WebUI的运行环境,请参考《开始指南》的"EXPRESSCLUSTER的运行环境"。
6.2.1. 何谓Cluster WebUI¶
所谓Cluster WebUI ,就是通过Web 浏览器进行集群的设置及状态监视,启动/停止服务器/组,以及收集集群运行日志等的功能。下图显示Cluster WebUI的概要。
EXPRESSCLUSTER Server (Main module)
Cluster WebUI
图中的2台服务器中已安装EXPRESSCLUSTER。使用管理PC(Management PC)上的浏览器连接到任意一台服务器时,将显示Cluster WebUI画面。 在这种情况下,请指定管理组的浮动IP(FIP)地址或虚拟IP(VIP)地址作为连接目标。
在从管理PC的Web浏览器连接时,URL指定为连接所使用的浮动IP地址或虚拟IP地址。这些地址将注册成为管理组的资源。不存在管理组时,也可以指定构成集群的某一服务器的实际IP地址(固定分配给该服务器的地址)进行连接,但是,此时如果连接目标服务器宕机,则将无法获取集群的状态。
6.2.3. 启动Cluster WebUI¶
Cluster WebUI的启动步骤如下所示。
启动Web浏览器。
在浏览器的地址栏中输入安装了EXPRESSCLUSTER Server的服务器的实际IP地址和端口号。
http://ip-address:port/
- ip-address
由于安装后,管理组不存在,因此请指定配置集群的第一台服务器的真实IP地址。
- port
指定与安装期间指定的WebManager的端口号相同的编号(默认值29003)。
启动Cluster WebUI。生成集群配置信息时,从工具栏的下拉菜单中选择[编辑模式]。
点击[集群生成向导]开始生成向导。
6.3. 确认设置值¶
在利用集群生成向导实际创建集群配置信息之前,需要确认集群配置信息的设置值。写出值,确认是否有效创建了集群,信息有无遗漏。
6.3.1. 集群环境的示例¶
在本章中,以下图中描述的典型的构筑2 节点的集群环境和共享型镜像3节点集群构成为例进行说明。
使用2节点共享磁盘时
FIP1
10.0.0.11(从Cluster WebUI客户端访问)FIP2
10.0.0.12(从业务客户端访问)NIC1-1
192.168.0.1
NIC1-2
10.0.0.1
NIC2-1
192.168.0.2
NIC2-2
10.0.0.2
串行端口
COM1
共享磁盘 (Shared disk)
DISK心跳 盘符
E
文件系统
RAW
切换分区 盘符
F
文件系统
NTFS
使用2节点镜像磁盘时
FIP1
10.0.0.11(从Cluster WebUI客户端访问)FIP2
10.0.0.12(从业务客户端访问)NIC1-1
192.168.0.1
NIC1-2
10.0.0.1
NIC2-1
192.168.0.2
NIC2-2
10.0.0.2
集群分区 盘符
E
文件系统
RAW
数据分区 盘符
F
文件系统
NTFS
使用2节点远距离构成镜像磁盘资源时
此配置是WAN为第2层类型(基地之间可以使用相同的网络地址)时的示例。
FIP1
10.0.0.11(从Cluster WebUI客户端访问)FIP2
10.0.0.12(从业务客户端访问)NIC1
10.0.0.1
NIC2
10.0.0.2
集群分区 盘符
E
文件系统
RAW
数据分区 盘符
F
文件系统
NTFS
使用3节点共享型镜像磁盘时
FIP1
10.0.0.11(从Cluster WebUI客户端访问)FIP2
10.0.0.12(从业务客户端访问)NIC1-1
192.168.0.1
NIC1-2
10.0.0.1
NIC2-1
192.168.0.2
NIC2-2
10.0.0.2
NIC3-1
192.168.0.3
NIC3-2
10.0.0.3
共享磁盘
心跳分区 盘符
E
文件系统
RAW
集群分区 盘符
F
文件系统
RAW
数据分区 盘符
G
文件系统
NTFS
磁盘
集群分区 盘符
F
文件系统
RAW
数据分区 盘符
G
文件系统
NTFS
以下记载了构筑上图的集群系统所需的集群配置信息的样例值。以下逐一说明在此条件下创建集群配置信息的步骤。实际设置值时,请换成构筑的集群配置信息后输入。关于取值方法,请参考《参考指南》。
2节点的配置设置示例
设置对象 设置参数 设置值(使用共享磁盘时) 设置值(使用镜像磁盘时) 设置值(远距离构成)集群配置
集群名
cluster
cluster
cluster
服务器数
2
2
2
管理组数
1
1
1
失效切换组数
1
1
1
监视资源数
5
6
6
心跳资源
内核模式LAN心跳数
2
2
1
第1台服务器的信息(主服务器)服务器名
server1
server1
server1
私网IP地址(主用)192.168.0.1
192.168.0.1
10.0.0.1
私网IP地址(备用)10.0.0.1
10.0.0.1
-
公网IP地址
10.0.0.1
10.0.0.1
10.0.0.1
镜像连接I/F
-
192.168.0.1
10.0.0.1
HBA
与共享磁盘相连接的HBA
-
-
第2台服务器的信息
服务器名
server2
server2
server2
私网IP地址(主用)192.168.0.2
192.168.0.2
10.0.0.2
私网IP地址(备用)10.0.0.2
10.0.0.2
-
公网IP地址
10.0.0.2
10.0.0.2
10.0.0.2
镜像连接I/F
-
192.168.0.2
10.0.0.2
HBA
与共享磁盘相连接的HBA
-
-
第1个NP解决资源
类型
COM
-
Ping
Ping对象
-
-
10.0.0.254
server1
COM1
-
使用
server2
COM1
-
使用
第2个NP解决资源
类型
DISK
-
-
Ping对象
-
-
-
server1
E:
-
-
server2
E:
-
-
管理组(Cluster WebUI用)类型
集群
集群
集群
组名
ManagementGroup
ManagementGroup
ManagementGroup
启动服务器
所有服务器
所有服务器
所有服务器
组资源数
1
1
1
管理组的组资源 1
类型
浮动IP资源
浮动IP资源
浮动IP资源
组资源名
ManagementIP
ManagementIP
ManagementIP
IP地址
10.0.0.11
10.0.0.11
10.0.0.11
失效切换组
类型
失效切换
失效切换
失效切换
组名
failover1
failover1
failover1
启动服务器
所有服务器
所有服务器
所有服务器
组资源数
3
3
3
第1个组资源
类型
浮动IP资源
浮动IP资源
浮动IP资源
组资源名
fip1
fip1
fip1
IP地址
10.0.0.12
10.0.0.12
10.0.0.12
第2个组资源
类型
磁盘资源
镜像磁盘资源
镜像磁盘资源
组资源名
sd1
md1
md1
磁盘资源盘符
F:
-
-
镜像磁盘资源集群分区盘符
-
E:
E:
镜像磁盘资源数据分区盘符
-
F:
F:
第3个组资源
类型
应用程序资源
应用程序资源
应用程序资源
组资源名
appli1
appli1
appli1
常驻类型
常驻
常驻
常驻
开始路径
执行文件的路径
执行文件的路径
执行文件的路径
第1个监视资源(默认创建)类型
用户空间监视
用户空间监视
用户空间监视
监视资源名
userw
userw
userw
第2个监视资源
类型
磁盘RW监视
磁盘RW监视
磁盘RW监视
监视资源名
diskw1
diskw1
diskw1
文件名
C:\check.txt
2
C:\check.txt
2
C:\check.txt
2I/O大小
2000000
2000000
2000000
查出停止(Stall)异常时的运行
有意使其发生停止错误
有意使其发生停止错误
有意使其发生停止错误
磁盘满时的运行
执行复归动作
执行复归动作
执行复归动作
恢复对象
LocalServer
LocalServer
LocalServer
最终运行
有意使其发生停止错误
有意使其发生停止错误
有意使其发生停止错误
第3个监视资源(创建磁盘资源后自动创建)类型
磁盘TUR监视
-
-
监视资源名
sdw1
-
-
磁盘资源
sd1
-
-
恢复对象
sd1
-
-
最终运行
不操作
-
-
第4个监视资源(创建ManagementIP资源后自动创建)类型
浮动IP监视
浮动IP监视
浮动IP监视
监视资源名
fipw1
fipw1
fipw1
监视对象
ManagementIP
ManagementIP
ManagementIP
恢复对象
ManagementIP
ManagementIP
ManagementIP
第5个监视资源(创建fip1资源后自动创建)类型
浮动IP监视
浮动IP监视
浮动IP监视
监视资源名
fipw2
fipw2
fipw2
监视对象
fip1
fip1
fip1
恢复对象
fip1
fip1
fip1
第6个监视资源
类型
IP监视
IP监视
IP监视
监视资源名
ipw1
ipw1
ipw1
监视IP地址
192.168.0.254(网关) 192.168.0.254(网关) 192.168.0.254(网关)恢复对象
All Groups
All Groups
All Groups
重新启动界限值
1
1
1
第7个监视资源(应用程序常驻时,创建应用程序后自动创建)类型
应用程序监视
应用程序监视
应用程序监视
监视资源名
appliw1
appliw1
appliw1
对象资源
appli1
appli1
appli1
恢复对象
appli1
failover1
failover1
第8个监视资源(创建镜像磁盘资源后自动创建)类型
-
镜像连接监视
镜像连接监视
监视资源名
-
mdnw1
mdnw1
镜像磁盘资源
-
md1
md1
恢复对象
-
md1
md1
最终运行
-
不操作
不操作
第9个监视资源(创建镜像磁盘资源后自动创建)类型
-
镜像磁盘监视
镜像磁盘监视
监视资源名
-
mdw1
mdw1
镜像磁盘资源
-
md1
md1
恢复对象
-
md1
md1
最终运行
-
不操作
不操作
共享型镜像磁盘的的配置设置示例
设置对象
设置参数
设置值
集群构成
集群名
cluster
服务器数
3
管理用组数
1
失效切换组数
1
监视资源数
6
心跳资源
内核模式LAN心跳数
2
第1台服务器的信息(主服务器)服务器名
server1
私网IP地址(专用)
192.168.0.1
私网IP地址(备份)
10.0.0.1
公网IP地址
10.0.0.1
镜像连接I/F
192.168.0.1
HBA
连接共享磁盘的HBA
第2台服务器的信息
服务器名
server2
私网IP地址(专用)
192.168.0.2
私网IP地址(备份)
10.0.0.2
公网IP地址
10.0.0.2
镜像连接I/F
192.168.0.2
HBA
连接共享磁盘的HBA
第3台服务器的信息
服务器名
server3
私网IP地址(专用)
192.168.0.3
私网IP地址(备份)
10.0.0.3
公网IP地址
10.0.0.3
镜像连接I/F
192.168.0.3
HBA
-
第1个NP解决资源
类型
DISK
Ping对象
-
server1
E:
server2
E:
server3
不使用
第2个NP解决资源
类型
Ping
Ping对象
192.168.0.254 (网关)
server1
使用
server2
使用
server3
使用
第3个NP解决资源 3
类型
Ping
Ping对象
192.168.0.254 (网关)
server1
使用
server2
使用
server3
不使用
第1个服务器组
服务器组名
svg1
所属服务器
server1,server2
第2个服务器组
服务器组名
svg2
所属服务器
server3
管理用组(Cluster WebUI用)类型
失效切换
组名
ManagementGroup
启动服务器
所有服务器
组资源数
1
管理用组的组资源 4
类型
浮动IP资源
组资源名
ManagementIP
IP地址
10.0.0.11
失效切换组
类型
失效切换
组名
failover1
服务器组
svg1→svg2
组资源数
3
第1个组资源
类型
浮动IP资源
组资源名
fip1
IP地址
10.0.0.12
第2个组资源
类型
共享型镜像磁盘资源
组资源名
hd1
集群分区盘符
F:
数据分区盘符
G:
第3个组资源
类型
应用程序资源
组资源名
appli1
常驻类型
常驻
开始路径
执行文件的路径
第1个监视资源
类型
用户空间监视
监视资源名
userw
第2个监视资源
类型
磁盘RW監視
监视资源名
diskw1
文件名
C:\check.txt
5I/O大小
2000000
查出停止(Stall)异常时的运行
有意使其发生停止错误
磁盘满时的运行
执行复归动作
恢复对象
LocalServer
最终运行
有意使其发生停止错误
第3个监视资源(共享型镜像磁盘资源创建后自动生成)类型
共享型镜像磁盘监视
监视资源名
hdw1
共享型镜像磁盘资源
hd1
恢复对象
failover1
最终运行
不操作
第4个监视资源(共享型镜像磁盘资源创建后自动生成)类型
共享型镜像磁盘TUR监视
监视资源名
hdtw1
共享型镜像磁盘资源
hd1
恢复对象
failover1
最终运行
不操作
第5个监视资源(创建ManagementIP资源后自动创建)类型
浮动IP监视
监视资源名
fipw1
监视对象
ManagementIP
恢复对象
ManagementIP
第6个监视资源(创建fip1资源后自动创建)类型
浮动IP监视
监视资源名
fipw2
监视对象
fip1
恢复对象
fip1
第7个监视资源
类型
IP监视
监视资源名
ipw1
监视 IP 地址
10.0.0.254(网关)
恢复对象
All Groups
第8个监视资源(应用程序常驻时,创建应用程序后自动创建)类型
应用程序监视
监视资源名
appliw1
对象资源
appli1
恢复对象
appli1
6.4. 创建集群配置信息的步骤¶
创建集群配置信息基本分为创建集群,创建组,创建监视资源3步。新建配置信息时,使用集群生成向导。以下说明步骤。
注解
创建的集群配置信息只能在使用名称更改功能或属性显示功能后进行更改。
-
创建集群。
-
创建进行失效切换时的单位——失效切换组。
6.4.2.2. 添加组资源(浮动IP地址): 添加构成组的资源。
6.4.2.3. 添加组资源(磁盘资源/镜像磁盘资源/共享型镜像磁盘资源): 添加构成组的资源。
6.4.2.4. 添加组资源(应用程序资源): 添加构成组的资源。
-
在集群内添加监视指定的监视对象的监视资源。
6.4.3.1. 添加监视资源(磁盘RW监视资源): 设置使用的监视资源。
6.4.3.2. 添加监视资源(IP监视资源): 添加使用的监视资源。
-
启用或禁用集群动作。
6.4.1. 创建集群¶
首先创建集群。在创建的集群中添加构成集群的服务器,决定优先度和心跳的优先度。
6.4.1.1. 创建集群¶
通过[集群生成向导]的[集群] 画面,在[语言]下拉框中选择使用Cluster WebUI 的机器OS所使用的语言。
注解
在1个集群内可以使用的语言只有1种。在集群中使用多语言的OS时,为防止乱码请指定"English"。
在[集群名]框内输入集群名(Cluster)。
- 将用于Cluster WebUI连接的浮动IP地址(192.168.0.11)输入[管理IP地址] 框内。点击[下一步]。显示服务器的 [基本设定]。Cluster WebUI启动时通过URL指定的IP地址的服务器(server1)已登录在列表中。
6.4.1.2. 添加服务器¶
添加构成集群的第2台以后的服务器。
6.4.1.3. 创建服务器组¶
配置共享型镜像磁盘时,创建共享型镜像磁盘之前,先创建连接各个镜像磁盘的服务器组。
点击[设定服务器组]的[设置]。
在[服务器组的定义列表]中点击[添加]。
打开[设定服务器组]对话框。在[名称]栏里输入服务器组名(svg1)。
点击[可用服务器]里的[server1],点击[添加]。[server1]被追加到[可以启动组的服务器]。同样的,添加[server2]。
点击[确定]按钮。[服务器组的定义列表]里出现[svg1]。
点击[添加]打开[设定服务器组]对话框,在[名称] 栏里输入服务器组名(svg2)。
点击[可用服务器]里的[server3],点击[添加]。[server3]被追加到[可以启动组的服务器]。
- 点击[确定]。[服务器组的定义列表]里出现[svg1]和[svg2]。
点击[关闭]按钮。
点击[下一步]
6.4.1.4. 设置网络配置¶
设置构筑集群的服务器间的网络配置。
请通过 [添加][删除]按钮添加或删除通信路径,并点击各服务器列表的单元格选择或输入IP地址。部分没有连接服务器的通信线路,请预留未连接的服务器的单元格。
- 用于接收或发送心跳信息的通信路径(私网)请点击 [种类] 列表的单元格并选择 [内核模式]。不使用于心跳,仅使用于镜像磁盘资源,共享型镜像磁盘资源的通信路径请选择[镜像通信专用]。必须将一个或一个以上的通信路径设置为私网。尽量将全部通信路径设置为私网。此外,如设有多个私网, [优先级]列表中编号较小的通信路径将优先用于集群服务器间的内部通信。如需更改优先级,请点击箭头按钮更改通信路径的排列顺序。
使用BMC心跳时,点击[种类] 列表的单元并选择[BMC]。点击各服务器的单元后,输入BMC 的IP地址。对于不使用BMC心跳的服务器,请留空该服务器的单元。
使用Witness心跳时,点击 [种类]列表的单元格并选择 [Witness]。点击 [属性]按钮,在[目标主机] 中输入Witness 服务器的服务器地址,在 [服务端口]中输入端口号。不使用Witness 心跳的服务器时,请点击该服务器单元,选择[不使用]。
用于镜像磁盘资源及共享型镜像资源的数据镜像通信的通信线路(镜像磁盘连接),点击[MDC] 列中的单元格,选择分配给该通信线路的镜像磁盘连接名称(mdc1~mdc16)。不用于数据镜像通信的通信路径请选择 [不使用] 。
点击[下一步]。
6.4.1.5. 设置网络分区解决处理¶
设置网络分区解决资源。
- 如进行COM方式的NP解决,点击[添加]后在[NP解决一览]里添加一行,点击[种类]列的单元格选择[COM],点击各服务器单元格,选择通过交叉电缆连接的各服务器的COM端口。存在没有被连接的服务器的场合,请留空该服务器的单元格。在本章的设置示例中,使用共享磁盘时追加COM方式行,各服务器的单元格选择[COM1]。
- 如进行DISK方式的NP解决,点击[添加]后在[NP解决一览]里添加一行,点击[种类]选择[DISK],点击各服务器的单元格,选择做为磁盘心跳分区的驱动器。没有连接到共享磁盘装置的服务器存在的场合,请留空该服务器的单元格。在本章的设置示例中,使用共享磁盘时先添加DISK方式行,点击各服务器列的单元格选E:驱动器。如使用共享型镜像磁盘,需添加[DISK方式]行再点击server1及server2的单元格,选择E:驱动器。请留空server3的单元格。
- 如进行PING方式的NP解决,点击[添加]后在[NP解决一览]里添加一行,点击[种类]列的单元格选择[Ping],点击[Ping对象]列的单元格,输入ping发送的目标机器(网关等)的IP地址。输入以逗号隔开的多个IP地址后,如这些地址全部没有ping响应,则可判断为孤立于网络的状态。只有部分服务器使用PING方式的场合,不使用的服务器的单元格选择[不使用]。在本章的设置示例中,使用共享型镜像磁盘时,先追加[PING方式]的1行,[Ping对象] 中设为192.168.0.254。
- 进行HTTP 方式的NP 解决时,点击 [添加]后在[NP 解决一览]里添加一行,点击 [种类]列的单元格,选择[HTTP/HTTPS]。 点击[属性] 按钮,在 [目标主机] 中输入Web 服务器的服务器地址,在 [服务端口]中输入端口号。只有一部分的服务器使用HTTP 方式时,不使用的服务器的单元格请选择[不使用]。在本章的设置示例中,不使用HTTP方式。
- 进行多数决定方式的NP解决时,点击[追加]后在[NP解决一览]里追加一行,点击[种类]选择[多数决定]。在本章的设置示例中不使用多数决方式
点击[下一步]。
6.4.2. 创建失效切换组¶
在集群中添加运行业务应用程序的失效切换组(以下有时简称"组")。
6.4.2.1. 添加失效切换组¶
设置发生故障时进行失效切换的单位——组。
在[组一览]中点击[添加]。打开[组定义]界面。在本章的设置示例中使用共享型镜像磁盘时,选中[使用服务器组设定]的复选框。在[名称]栏中输入组名(failover1),点击[下一步]。
设置可以启动失效切换组的服务器。在本章的设置示例中,使用共享磁盘或镜像磁盘时,选中 [所有服务器都可以进行失效切换] 的复选框或从 [可用的服务器组] 的列表中按 [server1] ,[server2] 的顺序添加入[可以启动组的服务器] 。使用共享型镜像磁盘时,按照顺序依次把[svg1]与 [svg2]添加到[可以启动组的服务器组]中。
点击[下一步]。
- 设置失效切换组的各属性值。在本章的设置示例中,由于全部使用了默认值,因此直接点击[下一步] 。显示[组资源列表]。
6.4.2.2. 添加组资源(浮动IP地址)¶
在步骤 "6.4.2.1. 添加失效切换组"中创建的失效切换组中添加组的配置要素——组资源。
[组资源列表] 中点击[添加]。
打开[组资源定义 | failover1]界面。在[类型]框中选择组资源的类型(floating IP resource),在[名称]框中输入组资源名(fip1)。点击[下一步]。
打开依赖资源界面。什么都不指定。点击[下一步]
出现[检测到组资源的启动异常时的流程],[检测到组资源的停止异常时的流程]的界面。点击[下一步]。
- 在[IP地址]框中输入IP地址(10.0.0.12),点击[完成]。浮动IP资源被添加到[组资源列表]。
6.4.2.3. 添加组资源(磁盘资源/镜像磁盘资源/共享型镜像磁盘资源)¶
共享磁盘时
作为组资源添加共享磁盘。
在[组资源列表]中点击[添加]。
打开[组资源定义 | failover1]界面。在[类型]框中选择组资源的类型(磁盘资源),在[名称]框中输入资源名(sd1)。点击[下一步]。
出现依赖资源界面。不进行任何指定。点击[下一步]
出现[检测到组资源的启动异常时的流程],[检测到组资源的停止异常时的流程]的界面。点击[下一步]。
在[可以启动组的服务器]中选择[server1],点击[添加]。
显示[选择分区]对话框。选择分区(F:),点击[确定]。
重要
在磁盘资源中指定的分区中指定与设置过滤的HBA连接的共享磁盘上的分区。
此外,不要在心跳分区或镜像磁盘资源的集群分区,数据分区中指定磁盘资源中指定的分区。因为可执行会损坏共享磁盘上的数据。
同样,将[server2]添加到可启动的服务器中,点击[完成]。磁盘资源被添加到[组资源列表]中。
镜像磁盘时
作为组资源添加镜像磁盘。
在[组资源列表]中点击[添加]。
打开[组资源定义 | failover1]界面。在[类型]框中选择组资源的类型(镜像磁盘资源),在[名称]框中输入资源名(md1)。点击[下一步]。
出现依赖资源界面。不进行任何指定。点击[下一步]
出现[检测到组资源的启动异常时的流程],[检测到组资源的停止异常时的流程]的界面。点击[下一步]。
在[可以启动组的服务器]中选择server1,点击[添加]。
显示[选择分区]对话框。点击[连接],选择数据分区(F:)和集群分区(E:),点击[确定]。
重要
在不同的分区中指定数据分区,集群分区。指定为同一分区时,可执行会损坏数据。此外,不要将共享磁盘上的分区指定为镜像磁盘资源的数据分区,集群分区。 同样,将[server2]添加到可启动的服务器中,点击[完成]。镜像磁盘资源即被添加到[组资源定义列表]中。
共享型镜像磁盘时
将共享型镜像磁盘添加为组资源。
在[组资源列表]中点击[添加]。
打开[组资源定义 | failover1]界面。在[类型]框中选择组资源的类型(共享型镜像磁盘资源),在[名称]框中输入资源名(sd1)。点击[下一步]。
出现依赖资源界面。不进行任何指定。点击[下一步]
出现[检测到组资源的启动异常时的流程],[检测到组资源的停止异常时的流程]的界面。点击[下一步]。
在[数据分区的盘符]框中输入要进行镜像化的数据分区的盘符(G:),在[集群分区的盘符]框中输入集群分区的盘符(F:)。
重要
在不同的分区中指定数据分区,集群分区。指定为同一分区时,可执行会损坏数据。
点击[信息获取]。获取并显示各服务器的数据分区和集群分区的GUID信息。点击[完成]。共享型镜像磁盘资源即被添加到[组资源定义列表]中。
6.4.2.4. 添加组资源(应用程序资源)¶
添加启动/结束应用程序的应用程序资源。
在[组资源定义列表]中点击[添加]。
打开[组资源定义 | failover1]界面。在[类型]框中选择组资源的类型(应用程序资源),在[名称]框中输入组名(appli1)。点击[下一步]。
出现[依赖资源]界面。不进行任何指定。点击[下一步]
出现[检测到组资源的启动异常时的流程],[检测到组资源的停止异常时的流程]的界面。点击[下一步]。
在[常驻类型]中选择[常驻]。此外,在[起始路径]中指定执行文件的路径。
注解
在[起始路径]及[终了路径]中设置可执行文件名的绝对路径,或环境变量中设置的路径完整的可执行文件名。不要指定相对路径。指定相对路径时,应用程序资源的启动可执行会失败。
点击[完成]。
[应用程序资源]即被添加到[组资源列表]中。
点击[完成]。
6.4.3. 创建监视资源¶
在集群中添加监视指定对象的监视资源。
6.4.3.1. 添加监视资源(磁盘RW监视资源)¶
为监视本地磁盘添加磁盘RW监视资源。
在[组列表]中点击[下一步]。
显示[监视资源列表]。点击[添加]。在[类型]框中选择监视资源的类型(磁盘RW监视),在[名称]框中输入监视资源名(diskw1)。点击[下一步]。
输入监视设置。监视时机设置为常时,点击[下一步]。
设置文件名(
C:\check.txt
),I/O大小(2000000),查出停止(stall)异常时的运行(有意使其发生停止错误),磁盘满时的运行 (执行复归动作)。点击[下一步]。文件名指定为安装OS的分区的文件的文件名。[复归动作]里选择[只在最终动作时执行]。并且,将[复归对象]设置为[LocalServer]。
- 在[最终动作]框中选择[生成主动停止错误],点击[完成]。磁盘RW监视资源(diskw1)被添加到[监视资源列表]中。
注解
在磁盘RW监视资源的监视对象中指定本地磁盘的文件,可以作为本地磁盘监视进行监视。此时,[最终动作]选择[生成主动停止错误]。
6.4.3.2. 添加监视资源(IP监视资源)¶
添加监视IP的监视资源。
在[监视资源列表]中点击[添加]。在[类型]框中选择监视资源的类型(IP监视),在[类型]框中输入监视资源名(ipw1)。点击[下一步]。
输入监视设置。设定为默认值,点击[下一步]。
- 显示[IP地址列表]。点击[添加]。在[IP地址]框中输入监视IP地址(192.168.0.254),点击[确定]。
注解
在IP监视资源的监视对象中指定可以在公网上常时运行的机器(例如网关)的IP地址。
在[IP地址列表]设置中输入IP地址。点击[下一步]。
设置恢复对象。点击[参照]。
在显示的树形图中选择[All Groups],点击[确定]。[All Groups]被设置在[恢复对象]中。
- 点击[完成]。IP监视资源(ipw1)被添加到[监视资源列表]中。
6.4.4. 禁用集群动作¶
点击[否],则不进行组的自动启动,组资源启动·停止异常时的复归动作,以及监视资源异常时的复归动作。创建集群配置信息后,初次启动集群时,推荐禁用自动启动和复归·恢复动作,确认集群配置信息是否无误。
此外,本功能可以在[集群属性] 的 [扩展] 标签页的 [禁用集群动作] 中设置。
注解
即使禁用集群动作,也会由于服务器宕机而引起失效切换。
禁用监视资源异常时的复归动作,不适用于磁盘RW监视资源的停顿检测功能。
对集群配置信息的创建至此完毕。下面进入"保存集群配置信息"。
6.5. 保存集群配置信息¶
已创建的集群配置信息能够保存到正在使用的PC的目录下或外部媒体中。
6.5.1. 保存集群配置信息¶
请按照以下步骤保存集群配置信息。
在Cluster WebUI 的编辑模式中点击[导出配置文件]。
选择保存地址保存。
注解
保存的是1个文件(clp.conf)和1个目录(scripts)。如果这些文件和目录不齐备,则不能成功生成集群,因此移动时请务必将它们作为一个整体进行移动。另外,更改了新建的配置信息时,除上述2点外,还会再创建一个clp.conf.bak。
注解
安装EXPRESSCLUSTER时,如果在[通信端口号设置]画面中指定了和默认值不同的端口号,则保存集群配置信息前,请在[集群属性]-[端口号]标签页中将[WebManager HTTP端口号]和[磁盘Agent端口号]设置为和安装时相同的值。
6.6. 生成集群¶
通过Cluster WebUI创建集群配置信息后,在构成集群的服务器中反映配置信息并生成集群系统。
6.6.1. 生成集群¶
通过Cluster WebUI创建完集群配置信息后,按照以下步骤生成集群。
- 在Cluster WebUI 的编辑模式中点击[应用配置文件]。显示"要继续反映修改吗?"的消息,点击[确定]。上传成功后,显示"修改已经被成功反映。"的消息。点击[确定]。若上传失败,则请按照显示的消息进行操作。
从Cluster WebUI 的工具栏的下拉菜单选择[操作模式],切换为操作模式。
- 从Cluster WebUI 的[状态]标签页中点击 [开始集群] ,在确认界面中点击 [开始]。集群状态在Cluster WebUI上显示。不能启动时依据错误消息一览进行处理。
Cluster WebUI的操作和确认方法,可以参考在线手册。点击画面右上的[ ]打开在线手册。
注解
安装EXPRESSCLUSTER时,如果在[通信端口号设置]画面中指定了和默认值不同的端口号,则生成集群前,请在[集群属性]-[端口号]标签页中将[WebManager HTTP端口号]和[磁盘Agent端口号]设置为和安装时相同的值。
7. 确认集群系统¶
本章中对已创建的集群系统是否正常启动进行确认。
本章中说明的主要内容如下所示。
7.1. 通过Cluster WebUI确认状态¶
本节对使用Cluster WebUI确认集群系统的方法进行说明。Cluster WebUI在安装EXPRESSCLUSTER Server 时已经被安装。因此无需单独安装。本章中首先介绍Cluster WebUI概要,然后介绍访问Cluster WebUI并确认集群状态的方法。
参见
关于Cluster WebUI的运行环境,请参考《开始指南》。
生成集群并连接Cluster WebUI后,按照以下步骤对运行进行确认。
- 心跳资源确认在Cluster WebUI中各服务器的状态为已启动。另外,确认各服务器的心跳资源的状态正常。还需确认Cluster WebUI的警报日志中未记录警告及异常。
- 监视资源确认在Cluster WebUI中各监视资源的状态正常。
- 组启动启动组。确认在Cluster WebUI中组的状态为已启动。另外,确认组中包含的各组资源的状态为已启动。还需确认Cluster WebUI的警报日志中未记录警告及异常。
- 磁盘资源/镜像磁盘资源/共享型镜像磁盘资源确认在已启动磁盘资源/镜像磁盘资源/共享型镜像磁盘资源的服务器上中,是否可以访问该资源的切换分区/数据分区。同时确认在没有启动该资源的服务器上,是否不能访问该资源的切换分区/数据分区。
- 浮动IP资源确认在浮动IP资源已启动的状态下对浮动IP地址的ping命令成功。
- 应用程序资源确认在应用程序资源已启动的服务器中应用程序正在运行。
- 服务资源确认在服务资源已启动的服务器中服务正在运行。
- 组停止停止组。确认在Cluster WebUI中组的状态为已停止。另外,确认组中包含的各组资源的状态为已停止。还需确认在Cluster WebUI的警报日志中未记录警告及异常。
- 组启动启动组。确认在Cluster WebUI中组的状态为已启动。
- 组移动把组移动到其它服务器中。确认在Cluster WebUI中组的状态为在移动目标服务器中已启动。另外,确认各组资源已正常启动。还需确认在Cluster WebUI的警报日志中未记录警告及异常。对失效切换策略中包含的所有服务器移动组,并进行上述确认。
- 失效切换关闭已启动组的服务器。心跳超时后,确认组进行失效切换。另外,还需确认在Cluster WebUI中,失效切换目标的服务器中组的状态为已启动。
- 故障恢复(已设置时)设置了自动故障恢复时,为进行失效切换确认,启动已关机的服务器,使之复原到集群中,确认组进行了故障恢复。另外,还需确认在Cluster WebUI中,故障恢复目标的服务器中组的状态为已启动。
注解
包含镜像磁盘资源/共享型镜像磁盘资源的组,需要进行镜像复归,因此不能设置自动故障恢复。
- 通告选项(已设置时)设置了通告选项时,确认执行失效切换并由此发送邮件。
- 集群关机关闭集群。确认集群内的所有服务器正常关机。另外,确认重启所有服务器后正常启动。其间,还需确认在Cluster WebUI的警报日志中未记录警告及异常。
7.2. 通过命令确认集群的状态¶
生成集群后,使用命令行从构成集群的服务器确认集群的状态时,需要按照以下步骤确认状态。
参见
关于命令的操作方法,请参考《参考指南》的"EXPRESSCLUSTER命令参考"。另外,确认状态时如果发生了异常,请参考《参考指南》的"疑难解答"排除故障。
- 心跳资源使用clpstat命令确认各服务器的状态为已启动。确认各服务器的心跳资源的状态正常。
- 监视资源使用clpstat命令确认各监视资源的状态正常。
- 组启动使用clpgrp命令启动组。使用clpstat命令确认组的状态为已启动。
- 磁盘资源/镜像磁盘资源/共享型镜像磁盘资源确认在已启动磁盘资源/镜像磁盘资源/共享型镜像磁盘资源的服务器上中,是否可以访问该资源的切换分区/数据分区。同时确认在没有启动这些资源的服务器上是否不能访问这些资源的切换分区/数据分区。
- 浮动IP资源确认在浮动IP资源已启动的状态下,对浮动IP地址的ping命令成功。
- 应用程序资源确认在应用程序资源已启动的服务器中应用程序正在运行。
- 服务资源确认在服务资源已启动的服务器中服务正在运行。
- 组停止使用clpgrp命令停止组。使用clpstat命令确认组的状态为已停止。
- 组启动使用clpgrp命令启动组。使用clpstat命令确认组的状态为已启动。
- 组移动使用clpgrp命令把组移动到其它服务器中。使用clpstat命令确认组的状态为已启动。对失效切换策略中包含的所有服务器移动组,并确认状态为ONLINE。
- 失效切换关闭已启动组的服务器。心跳超时后,使用clpstat命令,确认组进行失效切换。另外,使用clpstat命令,确认在失效切换目标的服务器中组的状态为已启动。
- 故障恢复(已设置时)设置了自动故障恢复时,启动在11失效切换中关机的服务器。启动服务器后,使用clpstat命令确认组进行故障恢复。另外,使用clpstat命令,确认在故障恢复目标的服务器中组的状态为已启动。
- 通告选项(已设置时)设置了通告选项时,确认执行失效切换并由此发送邮件。
- 集群关机使用clpstdn命令关闭集群。确认集群内的所有服务器正常关机。
8. 进行运行检查¶
本章中模拟发生故障并对集群系统进行运行检查。另外进行参数的调整。
本章中介绍的主要内容如下所示。
8.1. 运行确认测试¶
- 由于发生模拟故障而使复归动作迁移使用故障检测功能,确认查出异常的监视资源的复归动作如设计目标一样正常运行。可以适用Cluster WebUI或clpmonctrl 命令来测试本功能。有关详细信息,请参考在线版手册或者《参考指南》的"EXPRESSCLUSTER命令参考"。
- 共享磁盘的模拟故障(共享磁盘被RAID化且可进行模拟故障测试时)进行假设共享磁盘的RAID发生故障需交换,复原时的测试。
使共享磁盘发生模拟故障
将RAID从降级运行状态复原到正常状态
有些共享磁盘在切换到降级运行或重新构筑RAID时,有可执行会暂时发生I/O的停止,延迟。在磁盘RW监视资源,磁盘TUR监视资源等中发生了超时及延迟警告时,请调整各监视资源的超时值。 - 模拟共享磁盘路径的故障(共享磁盘的路径二重化且可进行模拟故障测试时)请进行包含路径的故障,切换的测试。
对主路径发生的故障进行模拟
因为路径切换软件(驱动程序)不同,需要花费一定时间切换到正常路径,有可执行无法向OS(软件)端返回控制。在磁盘RW监视资源,磁盘TUR监视资源等中发生了超时及延迟警告时,请调整各监视资源的超时值。 - 备份/恢复若要定期进行备份等时,请在实际操作环境下进行试行备份操作。备份软件及存档命令使得CPU负荷及磁盘的I/O负荷较高。发生了心跳及各种监视资源的延迟警告/超时时,请调整心跳超时值及各监视资源的超时值。
以下描述不同设备的模拟故障以及故障发生时的现象。另外,发生模拟故障时的故障现象依据系统配置及资源的设置而有所不同。下表中描述常用设置和配置下的运行示例。
装置 |
模拟故障 |
故障现象 |
---|---|---|
磁盘装置
SCSI/FC路径
|
拔下运行服务器中连接的磁盘线缆(磁盘线缆二重化时,要拔下2根线缆) |
监视共享磁盘时,查出异常并向待机服务器进行失效切换(未监视磁盘时停止业务)。
失效切换时,磁盘资源的停止可执行会失败。
|
拔下待机服务器中连接的磁盘线缆(二重化时,要拔下2根线缆) |
通过磁盘TUR监视资源监视待机服务器的磁盘路径时,查出异常。
仍然在运行服务器中继续运行业务。
|
|
磁盘路径二重化时,拔下主路径的线缆(使用FC-HUB时,还要关闭FC-HUB的电源) |
通过路径切换软件切换磁盘路径。
EXPRESSCLUSTER中未查出异常,业务仍然继续运行。
|
|
在上述单一路径状态下通过移动组及集群关机来进行重启 |
运行情况与磁盘路径正常时相同。 |
|
降级运行/复原磁盘装置的RAID |
EXPRESSCLUSTER中未查出异常,业务仍然继续运行。 |
|
磁盘装置的控制器二重化时,停止一个控制器 |
路径二重化时,通过路径切换软件切换磁盘路径。EXPRESSCLUSTER中未查出异常,业务仍然继续运行。
路径未二重化,各服务器直接连接磁盘时,在连接已停止的控制器的服务器中磁盘TUR监视资源查出异常,并向待机服务器发生失效切换(停止了待机服务器端的控制器时,业务仍然继续运行)。
|
|
私网 |
拔下私网的线缆 |
私网心跳资源变为OFFLINE, Alert日志中显示警告。
服务器间通信使用公网(备份的私网)继续进行=业务继续运行
|
公网 |
拔下公网的线缆,或者关闭HUB的电源 |
和业务客户端的通信中断。有些业务应用程序可执行会发生应用程序停止(Stall)/错误。
公网心跳资源变为停止,Alert日志中显示警告。
使用IP监视资源及NIC Link Up/Down监视资源时,查出异常。如果拔下了运行服务器的线缆,则会发生失效切换(如果切断了HUB的电源,重复失效切换直至达到设置的失效切换最大次数)。
远程集群配置等服务器之间仅有公网这一通信路径时,通过ping方式的网络分区解决方式,紧急关闭拔下了网线的服务器。
|
服务器端UPS |
从插座拔下运行服务器的UPS的电源线 |
运行服务器关机=向待机服务器进行失效切换 |
共享磁盘端UPS |
共享磁盘的电源二重化时,从插座拔下一个UPS的电源线 |
EXPRESSCLUSTER中未查出异常,业务仍然继续运行。
UPS给一台服务器提供电源时,也发生服务器关机(为运行服务器时向待机服务器进行失效切换)。
|
UPS用LAN |
拔下网线 |
不能控制UPS,但EXPRESSCLUSTER中未查出异常,业务仍然继续运行。 |
COM |
拔下COM网络分区解决的RS-232C线缆 |
Alert日志中显示警告。
业务仍然继续运行。
|
OS故障 |
在运行服务器中执行关机命令 |
运行服务器关机=向待机服务器进行失效切换 |
镜像磁盘连接 |
镜像连接上设有多条LAN电缆,且有1条以上的LAN电缆连接时
仅拔除一条用作镜像连接的LAN电缆
|
继续镜像化 |
镜像连接上未设置多条LAN电缆,或虽设有多条LAN电缆但所有LAN电缆均未连接时
仅拔除一条用作镜像连接的LAN电缆
|
Alert日志中显示警告(镜像停止)
业务在运行服务器中继续运行,但无法切换到待机服务器
|
|
在镜像磁盘监视资源,镜像磁盘连接监视资源或共享型镜像磁盘监视资源中查出异常 |
||
磁盘资源 |
在磁盘路径不通的服务器中启动镜像资源。 |
磁盘资源未启动
向待机服务器进行失效切换
|
应用程序资源 |
暂时改写应用程序资源的开始路径中设置的文件/文件夹名的服务器中,启动组应用资源。 |
应用程序资源未启动
向待机服务器进行失效切换
|
应用程序监视资源 |
通过任务管理器等停止监视对象的进程。 |
查出异常。重启应用程序,或在待机服务器中进行失效切换 |
服务资源 |
暂时改写服务的执行文件的路径/文件名的服务器中,启动服务资源。 |
服务资源未启动
向待机服务器进行失效切换
|
服务监视资源 |
停止监视对象的服务。 |
查出异常。重启服务,或在待机服务器进行失效切换 |
浮动IP资源 |
将与浮动IP资源中设置的IP地址相同的IP地址设置到同一段内的机器上,启动浮动IP资源。 |
浮动IP资源未启动
向待机服务器进行失效切换
(失效切换目标中启动失败,重复失效切换直至达到已设置的失效切换最大次数)
|
虚拟机资源 |
切断有虚拟机图像的共享磁盘 |
虚拟机资源不被启动 |
虚拟机监视资源 |
关闭虚拟机 |
通过重启资源来启动虚拟机 |
参见
关于各参数的更改方法请参考《参考指南》。
9. 操作前的准备工作¶
9.1. 理解基本的操作,操作步骤¶
介绍集群系统的基本操作步骤。开始操作前,请实际执行这些步骤,按照正确的步骤进行操作并确认集群系统是否正常运行。
可以使用Cluster WebUI或者EXPRESSCLUSTER命令来执行这些操作,Cluster WebUI的详细功能请参考在线版手册。关于EXPRESSCLUSTER 命令的具体内容,请参考《参考指南》的"EXPRESSCLUSTER命令参考"。
下面介绍集群启动,集群关机,服务器关机的操作步骤。
9.1.1. 启动集群¶
请按照以下步骤启动集群。
使用共享磁盘及外接的扩展磁盘时,打开磁盘的电源。
打开构成集群的所有服务器的电源。
等待服务器之间的集群启动的同步结束后,各个服务器的集群才会启动。集群启动后,根据设定在适当的服务器上启动组。
注解
打开集群内所有服务器的电源时,请在Cluster WebUI的[集群的属性]-[超时]标签页中设置的[同步等待时间]时间内打开。请注意,如果在此时间内确定不到服务器是否启动,则会发生失效切换。
注解
共享磁盘在电源打开后的几分钟内进行初始化处理。若在初始化处理过程中启动服务器,则不能识别共享磁盘。请设置在共享磁盘的初始化完成后再启动服务器。
9.1.2. 执行集群关机,服务器关机¶
请使用EXPRESSCLUSTER命令或Cluster WebUI 执行集群的关机及服务器的关机操作。
注解
使用Replicator/Replicator DR时,不使用EXPRESSCLUSTER命令或Cluster WebUI而执行集群的关机操作,可执行会发生Mirror Break。
9.1.3. 集群整体的关机¶
通过使用clpstdn命令或Cluster WebU执行集群关机,以及从开始菜单执行集群关机,都可以关闭集群。关闭集群时,等待所有的组停止后再关闭各个服务器。通过集群关机,可以正常关闭集群内作为一个集群整体的所有服务器。
9.1.4. 服务器单体的关机¶
9.1.5. 执行集群挂起,集群复原¶
挂起状态中启动了的资源处于启动状态中,为了停止Expresscluster服务需要停止以下的功能。
停止所有的心跳资源。
停止所有的网络分区解决资源。
停止所有的监视资源。
无法进行组或者组资源的操作。(启动,停止,移动)
不可使用以下命令。
clpcl 的 --resume以外的选项
clpdown
clpstdn
clpgrp
clptoratio
clpmonctrl
clprsc
clpcpufreq
9.1.6. 挂起集群¶
使用clpcl命令或者通过Cluster WebUI执行集群挂起可以使集群挂起。
9.1.7. 复原集群¶
使用clpcl命令或者通过Cluster WebUI执行集群复原可以使集群复原。
9.2. 暂时停止EXPRESSCLUSTER¶
有两种停止EXPRESSCLUSTER运行的方法。一种方法是停止EXPRESSCLUSTER Server服务,另一种是设置EXPRESSCLUSTER Server服务为手动启动。
9.2.1. 停止EXPRESSCLUSTER Server服务¶
若不关闭OS而只停止EXPRESSCLUSTER Server服务,请使用clpcl命令或从Cluster WebUI执行[停止集群]。
参见
关于clpcl命令的具体内容,请参考《参考指南》的"EXPRESSCLUSTER命令参考"。
9.2.2. 设置EXPRESSCLUSTER Server服务为手动启动¶
为了在OS启动时不启动EXPRESSCLUSTER Server服务,在OS的服务管理器中设置手动启动EXPRESSCLUSTER Server服务。这样,从下次OS启动之时开始,EXPRESSCLUSTER的运行处于停止状态。
9.2.3. 将设置为手动启动的EXPRESSCLUSTER Server服务设为自动启动¶
与设置手动启动时相同,在OS的服务管理器中重新将EXPRESSCLUSTER Server服务设为自动启动。更改设置后,在重启服务器或直接启动EXPRESSCLUSTER Server服务之前,EXPRESSCLUSTER一直处于停止状态。
9.3. 更改集群配置信息¶
介绍创建集群后更改配置信息时的操作步骤和注意事项。
9.3.1. 使用Cluster WebUI更改集群配置信息¶
启动Cluster WebUI。
在Cluster WebUI的工具栏内的下拉菜单中选择[编辑模式]。
显示当前的集群配置信息,更改配置信息。
- 上传更改后的配置信息。这样,依据更改后的信息可执行需要暂停或停止集群,以及通过集群关机进行重启等。此时,一旦取消上传会显示需要执行的操作,请根据显示的消息进行操作,重新上传。
9.3.2. 更改集群配置信息时的反映方法¶
使用Cluster WebUI或clpcfctrl命令上传更改后的集群配置信息时,需要根据更改内容执行以下任意一项操作。关于反映各参数更改所需的操作,请参考《参考指南》的"参数的详细信息"。
有些反映方法,有可执行会影响业务应用程序及EXPRESSCLUSTER服务器的运行。关于具体内容请参考下表。
反映方法 |
影响 |
|
---|---|---|
1 |
仅上传 |
不影响业务应用程序及EXPRESSCLUSTER服务器的运行。
不停止心跳资源及组资源,监视资源。
|
2 |
上传后重启 API 服务 |
〃 |
3 |
上传后重启WebManager服务器 |
〃 |
4 |
上传后重启 Information Base 服务 |
〃 |
5 |
停止已更改设置的组后上传 |
组资源停止。因此,从上传到组启动为止,此组中控制的业务应用程序一直处于停止状态。 |
6 |
暂停集群后上传 |
EXPRESSCLUSTER服务器的运行部分停止。
EXPRESSCLUSTER Server服务暂停期间,心跳资源和监视资源一直停止。因为组资源未停止,所以业务应用程序继续运行。
|
7 |
停止集群后上传 |
EXPRESSCLUSTER服务器的运行全部停止。因为组也处于停止状态,所以从上传,启动集群到组启动为止,业务应用程序也一直停止。 |
8 |
上传后关机并重启集群 |
从重启集群到组启动为止,业务应用程序一直处于停止状态。 |
注解
10. 卸载/重装EXPRESSCLUSTER¶
本章介绍EXPRESSCLUSTER的卸载/重装步骤。
本章中介绍的主要内容如下所示。
10.1. 卸载步骤¶
10.1.1. 卸载EXPRESSCLUSTER Server¶
注解
请必须由具有administrator权限的用户卸载EXPRESSCLUSTER服务器。推荐卸载前收集配置信息。详细信息请参照《参考指南》的"EXPRESSCLUSTER命令参考"。
按照以下步骤卸载EXPRESSCLUSTER服务器。
将服务启动类型更改为手动启动。
clpsvcctrl.bat --disable -a
关闭服务器。
使用共享磁盘时,由于访问限制在完成卸载后不再生效,因此需先拔除所有连接服务器的磁盘电缆。
重启服务器。
选择OS中的[控制面版]->[程序和功能],启动程序的卸载和更改画面。
选择EXPRESSCLUSTER Server,点击[卸载]。
启动[EXPRESSCLUSTER Server Setup]对话框。
显示卸载的确认消息后,选择[是]。若选择了[否],则停止卸载。
- SNMP服务开始时,显示如下的停止SNMP服务的确认消息,选择[是]。若选择了[否],则停止卸载。
- 如下所示,显示是否将媒体感知(查出TCP/IP线路中断)功能返回到EXPRESSCLUSTER服务器安装前的状态的确认消息。要返回到EXPRESSCLUSTER服务器安装前的状态时,选择[是]。若选择了[否],则在媒体感知功能保持无效的状态下卸载EXPRESSCLUSTER。
在[EXPRESSCLUSTER Server Setup]对话框中显示卸载结束的消息,点击[完成]。
显示计算机重启的确认消息。请根据需要选择现在马上重启,点击[完成]。EXPRESSCLUSTER Server的卸载完成。
重要
使用共享磁盘时,卸载EXPRESSCLUSTER后请不要在共享磁盘连接的状态下启动OS。可执行会损坏共享磁盘上的数据。
注解
在通过EXPRESSCLUSTER的CPU时钟控制功能更改CPU时钟的状态下,卸载EXPRESSCLUSTER,则之后CPU频率不会返回到原来的状态。这时,请通过以下方法,将CPU的频率级别返回到默认值。
请在[控制面板]的[电源选项] ->[选择或自定义电源计划] 中选择 [平衡]。
注解
卸载EXPRESSCLUSTER后,有时安装目录下还残留文件夹。此时,请手动删除该目录。
10.2. 重装步骤¶
10.2.1. 重装EXPRESSCLUSTER本体¶
重装EXPRESSCLUSTER本体时,需要有Cluster WebUI创建的集群配置信息(如果更改了配置则需要最新的集群配置信息)。
更改配置后,请务必保存最新的集群配置信息。集群配置信息在创建时可保存在Cluster WebUI中,还可以使用clpcfctrl命令创建它的备份信息。关于具体内容,请参考《参考指南》的"EXPRESSCLUSTER命令参考" - "生成集群,备份集群配置信息(clpcfctrl命令)" - "备份集群配置信息(clpcfctrl --pull)"。
重装全部集群时
按照以下步骤重装EXPRESSCLUSTER本体。
使用共享磁盘时,重装完成前访问限制会失效,因此要拔下与所有服务器连接的所有磁盘线缆。
在构成集群的所有服务器中卸载EXPRESSCLUSTER本体。重装OS时,无需卸载EXPRESSCLUSTER。但是如果在EXPRESSCLUSTER以前的安装文件夹下进行重装时,则需要删除该安装文件夹下的文件。关于卸载步骤的具体内容,请参考"卸载EXPRESSCLUSTER Server本体"。卸载完成,关闭OS。
重要
在使用共享磁盘的环境中,请不要在卸载了EXPRESSCLUSTER的状态下启动连接共享磁盘的服务器。可执行会破环数据。
安装EXPRESSCLUSTER本体,并根据需要注册License。安装完成后,关闭OS。使用共享磁盘时,请连接共享磁盘并启动OS。不使用共享磁盘时,请直接启动OS。重要
使用共享磁盘时,请不要在未设置过滤的HBA及SCSI控制器中连接共享磁盘。可执行会损坏共享磁盘上的数据。
仅重装集群中的部分服务器时
按照以下步骤重装EXPRESSCLUSTER本体。
使用共享磁盘时,重装完成前访问限制会失效,因此要拔下所有与要重装的服务器连接的磁盘线缆。
- 卸载EXPRESSCLUSTER本体。重装OS时,无需卸载EXPRESSCLUSTER。但是如果在EXPRESSCLUSTER以前的安装文件夹下进行重装时,则需要删除该安装文件夹下的文件。关于卸载步骤的具体内容,请参考"卸载EXPRESSCLUSTER Server本体"。
卸载完成,关闭OS。
重要
在使用共享磁盘的环境中,请不要在卸载了EXPRESSCLUSTER的状态下启动连接共享磁盘的服务器。可执行会损坏数据。
- 在已卸载的服务器中安装EXPRESSCLUSTER本体,并根据需要注册License。安装完成后关闭OS。使用共享磁盘时,请连接共享磁盘并启动OS。不使用共享磁盘时,请直接启动OS。
重要
使用共享磁盘时,请不要在安装时未设置过滤的HBA及SCSI控制器中连接共享磁盘。可执行会损坏共享磁盘上的数据。
连接集群内其它服务器的Cluster WebUI,变更为编辑模式。
在使用共享磁盘的环境中重装了OS时,或更改了连接共享磁盘的HBA时,在已重装的服务器的[属性]的[HBA]标签页中更新过滤信息。
重要
请在已重装的服务器的[属性]的[HBA]标签页中点击[连接],设置过滤。在未点击[连接]的状态下设置了过滤时,或未进行设置时,可执行会损坏共享磁盘上的数据。
在Cluster WebUI的Web浏览器已经连接成功的服务器中从命令提示符执行"clpcl --suspend --force",暂停集群。
- 通过Cluster WebUI的编辑模式上传配置信息。使用期间定制License时,执行以下命令。
clplcnsc --reregister <保存License的文件夹路径>
配置信息发送正常结束后,会显示以下消息。
上传成功.
返回到Cluster WebUI的操作模式,从WebManager恢复集群。
注解
从Cluster WebUI执行恢复后,会显示"恢复集群失败.点击刷新按钮,或稍后重试.."的错误消息,请继续下一步操作。
从Cluster WebUI中点击已重装的服务器的[开始服务器服务]。
集群的[集群属性]中[自动复归]设为了[关闭]时,在Cluster WebUI中点击已重装的服务器的[服务器复归]。
如有需要,则移动组。
11. 疑难解答¶
11.1. 安装EXPRESSCLUSTER Server时¶
运行及消息
|
原因
|
处理
|
---|---|---|
Failed to set up
Error code: %x
%x:错误码
|
请参考该错误码。 |
请参考错误码对应的处理。 |
安装了9.0以下版本。
请在卸载后,重新安装。
|
安装了旧版本的EXPRESSCLUSTER。 |
卸载旧版本EXPRESSCLUSTER后,在安装现有版本的EXPRESSCLUSTER。 |
Failed to set up (%d)
Error code: %x
After restart, install it.
%d:内部代码
%x:错误码
|
请参考该错误码的说明。 |
请参考该错误码对应的处理。 |
11.2. 与License相关¶
运行及消息 |
原因 |
处理 |
---|---|---|
Cluster WebUI中创建的集群配置信息发送到所有服务器后,若执行集群关机重启,则在Alert日志中显示以下消息,集群停止。
"The license is not registered. (Product ID: %1")
%1:产品名
|
未注册License而执行了集群关机重启。 |
|
Cluster WebUI中创建的集群配置信息发送到所有服务器后,若执行集群关机重启,则在Alert日志中显示以下消息,但集群仍然正常运行。
" The number of licenses is insufficient. The number of insufficient licenses is %1. (Product name:%2)"
%1:License不足数
%2:产品名
|
License不足。 |
请从销售公司购买License,并注册License。 |
以试用版License进行集群操作时输出了以下消息,集群停止。
"The trial license has expired in %1. (Product name:%2)"
%1:试用结束日
%2:产品名
|
License过期。 |
请向销售商申请试用版License的延长使用,或购买产品版License并注册License。 |
期间定制版License时在集群运行过程中输出以下消息,禁用集群运行。
"The fixed term license has expired in %1. (Product name:%2)"
%1:有效期间终止日
%2:产品名称
"Cluster operation is forcibly disabled since a valid license has not been registered."
|
License过期。 |
请向销售商购买产品版License,进行License注册。 |
12. 词汇表¶
- 私网
- 集群服务器之间的通信路径。(相关)私网,公网
- 虚拟IP地址
构筑远程集群时使用的资源(IP地址)。
- 管理客户端
已启动Cluster WebUI的机器。
- 启动属性
- 集群启动时,决定是自动还是手动启动失效切换组的失效切换组属性。可在管理客户端进行设置。
- 共享磁盘
可从多台服务器访问的磁盘。
- 共享磁盘型集群
使用共享磁盘的集群系统。
- 切换分区
- 连接到多台计算机的,可切换使用的磁盘分区。(相关)磁盘心跳用分区
- 集群系统
通过LAN等连接多台计算机,并作为1个系统进行操作的系统形态。
- 集群关机
关闭整个集群系统(构成集群的所有服务器)。
- 集群分区
镜像磁盘或共享型镜像磁盘中设定的分区。用于管理镜像磁盘及共享型镜像磁盘。相关(磁盘心跳用分区)
- 运行服务器
- 对某一业务装置来说,正在运行业务的服务器。(相关)待机服务器
- 服务器组
连接在相同网络或共享磁盘设备上的服务器集合
- 从服务器 (服务器)
- 一般使用时,失效切换组进行失效切换的目标服务器。(相关)主服务器
- 服务器组
连接在相同网络或共享磁盘设备上的服务器集合
- 待机服务器
- 非运行服务器。(相关)运行服务器
- 磁盘心跳用分区
共享磁盘型集群中用于心跳通信的分区。
- 数据分区
- 可与共享磁盘的切换分区一样进行使用的本地磁盘镜像磁盘中设置的数据用的分区。(相关)集群分区
- 网络分区症状
- 所有的心跳中断。(相关)私网,心跳
- 节点
在集群系统中,指构成集群的服务器。在网络用语中,指可以传输,接收和处理信号的,包括计算机和路由器在内的设备。
- 心跳
- 指为了监视服务器而在服务器之间定期进行相互间的通信。(相关)私网,网络分区症状
- 公网
- 服务器 / 客户端之间的通信路径。(相关)私网
- 失效切换
指由于查出故障,待机服务器继承运行服务器上的业务应用程序。
- 故障恢复
将某台服务器上已启动的业务应用程序通过失效切换交接给其他服务器后,再把业务返回到已启动业务应用程序的服务器。
- 失效切换组
执行业务所需的集群资源,属性的集合。
- 失效切换移动组
指用户有意识地将业务应用程序从运行服务器移动到待机服务器。
- 失效切换策略
可进行失效切换的服务器列表及其列表中具有失效切换优先顺序的属性。
- 私网
- 指仅连接构成集群的服务器的LAN。(相关)私网,公网
- 主服务器 (服务器)
- 失效切换组中作为基准的主服务器。(相关)从服务器(服务器)
- 浮动IP地址
- 发生了失效切换时,可忽视客户端的应用程序所连接服务器发生切换而使用的IP地址。在与集群服务器所属的LAN相同的网络地址中,分配其他未使用的主机地址。
- 主服务器(Master Server)
Cluster WebUI 的编辑模式的[服务器共通属性]-[主服务器]中显示在最前面的服务器。
- 镜像磁盘连接
镜像磁盘型集群中用于进行数据镜像的LAN。可通过和内部主网的通用进行设置。
- 镜像磁盘系统
- 不使用共享磁盘的集群系统。在服务器之间镜像服务器的本地磁盘。