1. 前言¶
1.1. 读者对象及用途¶
《EXPRESSCLUSTER X 维护指南》以管理员为对象,对维护相关信息进行了说明。请参考在操作集群时所需的信息。
1.3. EXPRESSCLUSTER X手册体系¶
EXPRESSCLUSTER X 的手册分为以下 5 类。各指南的标题和用途如下所示。
《EXPRESSCLUSTER X 开始指南》(Getting Started Guide)
本手册的读者对象为使用EXPRESSCLUSTER的用户,对产品概要,运行环境,升级信息,现有的问题等进行了说明。
《EXPRESSCLUSTER X 安装&设置指南》(Install and Configuration Guide)
本手册的读者对象为导入使用EXPRESSCLUSTER的集群系统的系统工程师以及导入集群系统后进行维护和操作的系统管理员,对导入使用EXPRESSCLUSTER的集群系统后到开始操作前的必备事项进行说明。手册按照实际导入集群系统时的顺序,对使用EXPRESSCLUSTER 的集群系统的设计方法,EXPRESSCLUSTER 的安装设置步骤,设置后的确认以及开始操作前的测试方法进行了说明。
《EXPRESSCLUSTER X 参考指南》(Reference Guide)
本手册的读者对象为管理员以及使用EXPRESSCLUSTER导入集群系统的系统工程师。手册对EXPRESSCLUSTER的操作步骤,各模块的功能以及疑难解答信息等进行了说明。是对《EXPRESSCLUSTER X 安装&设置指南》的补充。
《EXPRESSCLUSTER X 维护指南》(Maintenance Guide)
本手册的读者对象为管理员以及导入使用EXPRESSCLUSTER的集群系统后进行维护和操作的系统管理员,对EXPRESSCLUSTER的维护的相关信息进行了说明。
《EXPRESSCLUSTER X 硬件整合指南》 (Hardware Feature Guide)
本手册的读者对象为管理员以及导入使用EXPRESSCLUSTER的集群系统的系统工程师,对特定的硬件以及与其整合的功能进行说明。是对《EXPRESSCLUSTER X 安装&设置指南》的补充。
1.4. 本手册的标记规则¶
在本手册中,需要注意的事项,重要的事项以及相关信息等用如下方法标记。
注解
表示虽然比较重要,但是并不会引起数据损失或系统以及机器损伤的信息。
重要
表示为避免数据损失和系统,机器损坏所必需的信息。
参见
表示参考信息的位置。
另外,在手册中使用以下标记法。
标记 |
使用方法 |
例 |
---|---|---|
[ ]方括号
|
在命令名的前后,
显示在画面中的字句 (对话框,菜单等) 的前后。
|
点击[开始]。
[属性]对话框
|
命令行中的[ ]方括号 |
表示括号内的值可以不予指定(可省)。 |
|
# |
表示Linux用户正以root身份登录的提示符。 |
|
等宽字体
|
路径名,命令行,系统输出(消息,提示等),目录,文件名,函数,参数。
|
/Linux/5.2/cn/server/ |
粗体
|
表示用户在命令提示符后实际输入的值。
|
输入以下内容。
clpcl -s -a
|
斜体 |
用户将其替换为有效值后输入的项目。
|
rpm -i expresscls -<版本编号>-<发行编号>.x86_64.rpm |
在本手册的图中,为了表示EXPRESSCLUSTER,使用该图标。
2. 维护信息¶
本章介绍进行EXPRESSCLUSTER的维护时所需的信息,介绍所管理资源的详细信息。
本章包含以下内容。
2.1. EXPRESSCLUSTER的目录结构¶
注解
安装目录下有《参考指南》的 "EXPRESSCLUSTER 命令参考"中未记载的执行文件或脚本文件,请勿用EXPRESSCLUSTER以外的应用程序执行。由于执行该文件造成不良影响时将不予以维护支持。
EXPRESSCLUSTER的目录结构如下。
- 警报同步目录该目录保存EXPRESSCLUSTER警报同步的模块以及管理文件。
- 集群模块目录该目录保存EXPRESSCLUSTER Server的执行文件。
- 集群配置信息目录。该目录保存集群配置信息文件,各模块的策略文件。
- 集群驱动程序目录
- 镜像驱动程序该目录保存数据镜像驱动程序的执行文件。
- 内核模式LAN心跳线,keepalive驱动程序保存内核模式LAN心跳线,keepalive驱动程序的执行文件。
- 集群配置信息目录该目录保存集群配置信息文件,各模块的策略文件。
- HA产品目录存储了Java Resource Agent, System Resource Agent的二进制,设置文件。
- 集群库目录该目录保存EXPRESSCLUSTER Server的库。
- License目录该目录保存License产品的License。
- 模块日志目录该目录保存各模块输出的日志。
- 通告消息(警报,syslog,mail)目录该目录保存各模块通告警报,syslog,mail时的消息。
- 镜像磁盘,共享型镜像磁盘保存镜像磁盘,共享型镜像磁盘使用的模块的执行文件,策略文件等。
- 性能日志目录存储了磁盘,系统的性能信息。
- 组资源的EXEC资源脚本目录该目录保存组资源的EXEC资源的脚本。
- 复归脚本目录查出组资源及监视资源异常时,如已设定[在最终动作前执行脚本],则保存该功能运行的脚本。
- 临时文件目录该目录保存收集log时的存档文件。
- WebManager服务器,Cluster WebUI目录该目录保存WebManager服务器的模块以及管理文件。
- 模块操作目录是各模块的操作目录。
- /usr/lib64该目录保存EXPRESSCLUSTER Server库的符号链接。
- /usr/sbin该目录保存EXPRESSCLUSTER Server的执行格式文件的符号链接。
- /etc/init.dinit.d环境时,该目录保存EXPRESSCLUSTER服务的启动/退出脚本。
- /lib/systemd/system (SUSE Linux时,/usr/lib/ systemd/system)systemd环境时,该目录保存EXPRESSCLUSTER服务的设置文件。
2.2. EXPRESSCLUSTER 的日志,警报的删除方法¶
删除EXPRESSCLUSTER的日志,警报时,按照以下的步骤执行。
在集群内的所有服务器上禁用服务。
clpsvcctrl.sh --disable -a
通过Cluster WebUI或者clpstdn命令执行机群关闭,重启,然后再启动。
要删除日志,请删除以下目录中的文件,目录。请在要删除的日志的服务器上执行。
/opt/nec/clusterpro/log/
要删除警报,请删除以下目录中的文件。请在要删除的日志的服务器上执行。
/opt/nec/clusterpro/alert/log/
在集群内的所有服务器上启动服务。
clpsvcctrl.sh --enable -a
在集群内的所有服务器执行reboot命令,重新启动。
2.3. 镜像统计信息采集功能¶
在Cluster WebUI的编辑模式中,若选中 [集群属性] 中 [统计信息] 标签页的 [镜像统计信息] 复选框,则会采集镜像性能相关的信息,并在安装路径/perf/disk中按以下的文件名规则保存。在以下描述语句中,将本文件记为镜像统计信息文件。
nmpN.cur
nmpN.pre[X]
|
|
cur |
表示为最新的信息输出路径。 |
pre |
表示为转储前的信息输出路径。 |
N |
表示为对象的NMP序号。 |
[X] |
表示世代号。
第1代之前的情况下则省略。
第m代之前的情况下,X为m-1的值。
所有世代数为n时,最早的文件中X为n-2的值。
|
采集的信息保存到镜像统计信息文件中。统计信息到本文件的输出间隔(=每次取样时隔)为60秒。文件大小为16MB时Rotate,可保存2个版本。使用镜像统计信息文件中记载的信息,可作为调整镜像功能的参考。采集的统计信息包含以下项目。
注解
采集的镜像统计信息通过clplogcc指令或Cluster WebUI以日志收集采集。
请在以clplogcc命令收集日志时指定type5,以Cluster WebUI收集日志时指定pattern5。有关收集日志的详细信息,请参考《参考指南》的 "EXPRESSCLUSTER命令参考" 的 "收集日志(clplogcc命令)",或者在线版手册。
统计值名
|
单位
|
描述
|
输出
|
---|---|---|---|
Write, Total
(Write量)
|
字节
(MB)
|
Write到镜像分区的数据总量。
输出值为每次取样时Write的数据量。
|
LOG,
CMD
(运行)
|
Write, Avg
(Write量,平均值)
|
字节/秒
(MB/s)
|
单位时间内Write到镜像分区的数据量。
|
LOG,
CMD
(运行)
|
Read, Total
(Read量)
|
字节
(MB)
|
从镜像分区中的Read的数据总量。
输出的值为每次取样时Read的数据量。
|
LOG,
CMD
(运行)
|
Read, Avg
(Read量,平均值)
|
字节/秒
(MB/s)
|
单位时间内从镜像分区Read的数据量。
|
LOG,
CMD
(运行)
|
Local Disk Write, Total
(本地磁盘Write量)
|
字节
|
Write到本地磁盘(数据分区)的数据总量。
输出值为每次取样时Write的数据量。
|
LOG
(两个)
|
Local Disk Write, Avg
(本地磁盘平均Write量)
|
字节/秒
|
单位时间内Write到本地磁盘(数据分区)的数据量。
|
LOG
(两个)
|
Local Disk Read, Total
(本地磁盘Read量)
|
字节
|
从本地磁盘(数据分区)中Read的数据总量。
输出的值为每次取样时Read的数据量。
|
LOG
(两个)
|
Local Disk Read, Avg
(本地磁盘平均Read量)
|
字节/秒
|
单位时间内从本地磁盘(数据分区)Read的数据量。
|
LOG
(两个)
|
Send, Total
(镜像通信量,合计值)
|
字节
(KB)
|
此为镜像磁盘连接中发送的镜像通信总量。
输出的值为每次取样时的通信量。
不包含TCP的控制信息等。
|
LOG,
CMD
(两个)
|
Send, Avg
(镜像通信量,平均值)
|
字节/秒
(KB/s)
|
此为单位时间内镜像磁盘连接中发送的镜像通信量。
|
LOG,
CMD
(两个)
|
Compress Ratio
(压缩率)
|
%
|
此为镜像数据的压缩率。
(压缩后的大小)÷(压缩前的大小)
×100
非压缩的情况下为100。
输出的值以以每次取样时进行的通信数据为基础,计算输出的值。
|
LOG
(运行)
|
Sync Time, Max
(镜像通信时间,最大值)
|
秒/次
|
此为对镜像同步数据进行1个同步所用的时间。
输出的值为所用时间最长的镜像同步数据的时间。
由于不能通信等原因,无法同步(镜像中断)的镜像同步数据不在对象之内。
另外,输出的值以每次取样时的通信为对象。
|
LOG,
CMD
(运行)
|
Sync Time, Avg
(镜像通信时间,平均值)
|
秒/次
|
LOG,
CMD
(运行)
|
|
Sync Ack Time, Max
(镜像同步的ACK响应时间,最大值)
|
毫秒
|
发送镜像同步数据到对方服务器后,从对方服务器接收到ACK所用的时间。输出的值为其中的最大值。
决定镜像磁盘资源或共享型镜像磁盘资源中设置的[镜像驱动]标签页的[Ack超时]时,作为参考值使用。
另外,ACK超时的镜像同步数据不在计算的对象之内。
同时,输出的值为镜像Daemon(镜像Agent)启动后的值。
|
LOG
(运行)
|
Sync Ack Time, Cur
(镜像同步的ACK响应时间,最新值)
|
毫秒
|
LOG
(运行)
|
|
Recovery Ack Time, Max
(镜像复归的ACK响应时间,最大值)
|
毫秒
|
发送镜像复归数据到对方服务器后,从对方服务器接收到ACK所用的时间。
输出的值为其中的最大值。
决定镜像磁盘资源或共享型镜像磁盘资源中设置的[镜像驱动]标签页的[Ack超时]时,作为参考值使用。
另外,ACK超时的镜像同步数据不在计算的对象之内。
同时,输出的值为镜像Daemon(镜像Agent)启动后的值。
|
LOG
(运行)
|
Recovery Ack Time, Max2
(镜像复归的ACK响应时间,固定时间中的最大值)
|
毫秒
|
发送镜像复归数据到对方服务器后,从对方服务器接收到ACK所用时间的最大值。
输出的值为1个抽样期间中的最大值。
另外,ACK超时的镜像同步数据不在计算的对象之内。
|
LOG
(运行)
|
Recovery Ack Time, Cur
(镜像复归的ACK响应时间,最新值)
|
毫秒
|
发送镜像复归数据到对方服务器后,从对方服务器接收到ACK所用的时间。
输出的值为最后接收ACK的值。
另外,ACK超时的镜像同步数据不在计算的对象之内。
|
LOG
(运行)
|
Sync Diff, Max
(差异量,最大值)
|
字节
(MB)
|
向对方服务器的同步没有完成的镜像同步数据量。输出的值为各次取样时的最大值。
由于不能通信等原因,无法同步(镜像中断)的镜像同步数据不在对象之内。
|
LOG,
CMD
(运行)
|
Sync Diff, Cur
(差异量,最新值)
|
字节
(MB)
|
向对方服务器的同步没有完成的镜像同步数据量。输出的值为采集时的最新值。
由于不能通信等原因,无法同步(镜像中断)的镜像同步数据不在对象之内。
|
LOG,
CMD
(运行)
|
Send Queue, Max
(发送队列数,最大值)
|
个
|
发送镜像同步数据时使用的队列数。输出的值为镜像Daemon(镜像Agent)启动后的最大值。
决定镜像磁盘资源或共享型镜像磁盘资源中设置的[非同步]模式的[队列数]时,作为参考值使用。
|
LOG
(运行)
|
Send Queue, Max2
(发送队列数,固定期间内的最大值)
|
个
|
发送镜像同步数据时使用的队列数。输出的值为1个抽样期间内的最大值。
|
LOG
(运行)
|
Send Queue, Cur
(发送队列数,最新值)
|
个
|
发送镜像同步数据时使用的队列数。输出的值为采集时的最新值。
|
LOG
(运行)
|
Request Queue, Max
(请求队列数,最大值)
|
个
|
向镜像分区发送的,正在处理的I/O请求个数。输出的值为镜像Daemon(镜像Agent)启动后的最大值。
决定集群属性[镜像驱动]标签页的[请求队列最大值]时,作为参考值使用。
|
LOG
(运行)
|
Request Queue, Max2
(请求队列数,固定期间内的最大值)
|
个
|
向镜像分区发送的,正在处理的I/O请求个数。输出的值为1个抽样期间内的最大值。
|
LOG
(运行)
|
Request Queue, Cur
(请求队列数,最新值)
|
个
|
向镜像分区发送的,正在处理的I/O请求个数。输出的值为采集时的最新值。
|
LOG
(运行)
|
MDC HB Time, Max
(镜像磁盘连接的心跳时间,最大值)
|
秒
|
镜像磁盘连接中,向对方服务器发送ICMP的ECHO后,从对方服务器接收到ICMP的ECHO REPLY所用的时间。
输出的值为镜像Daemon(镜像Agent)启动后的最大值。
|
LOG
(两个)
|
MDC HB Time, Max2
(镜像磁盘连接的心跳时间,固定期间内的最大值)
|
秒
|
镜像磁盘连接中,向对方服务器发送ICMP的ECHO后,从对方服务器接收到ICMP的ECHO REPLY所用的时间。
输出的值为1个抽样期间内的最大值。
|
LOG
(两个)
|
MDC HB Time, Cur
(镜像磁盘连接的心跳时间,最新值)
|
秒
|
镜像磁盘连接中,向对方服务器发送ICMP的ECHO后,从对方服务器接收到ICMP的ECHO REPLY所用的时间。
输出的值为采集时的最新值。
|
LOG
(两个)
|
Local-Write Waiting Recovery-Read Time, Total
(镜像同步的I/O互斥时间,合计值)
|
秒
|
镜像复归过程中,向磁盘的同一空间发生Write时,在这一空间的镜像复归处理完成前,保留Write。
输出的值为镜像Daemon(镜像Agent)启动后保留时间的累积值。
加大集群属性中[镜像Agent]标签页的[复归数据的大小]后,此保留时间可执行会变长。作为决定上述内容的参考值使用。
|
LOG
(运行)
|
Local-Write Waiting Recovery-Read Time, Total2
(镜像同步的I/O互斥时间,固定期间内的累计)
|
秒
|
镜像复归过程中,向磁盘的同一空间发生Write时,在这一空间的镜像复归处理完成前,保留Write。
输出的值为1个抽样期间内的保留时间的累积值。
|
LOG
(运行)
|
Recovery-Read Waiting Local-Write Time, Total
(镜像复归的I/O互斥时间,合计值)
|
秒
|
向镜像分区Write的过程中,在磁盘的同一空间发生镜像复归数据的Read时,在对同一空间的Write处理完成之前会保留镜像复归数据的Read。
输出的值为镜像Daemon(镜像Agent)启动后保留时间的累积值。
加大集群属性中[镜像Agent]标签页的[复归数据的大小]后,此保留时间可执行会变长。作为决定上述内容的参考值使用。
|
LOG
(运行)
|
Recovery-Read Waiting Local-Write Time, Total2
(镜像复归的I/O互斥时间,固定期间内的合计值)
|
秒
|
向镜像分区Write的过程中,在磁盘的同一空间发生镜像复归数据的Read时,在对同一空间的Write处理完成之前会保留镜像复归数据的Read。
输出的值为1个抽样期间内的保留时间的累积值。
|
LOG
(运行)
|
Unmount Time, Max
(Unmount时间,最大值)
|
秒
|
镜像磁盘资源或共享型镜像磁盘资源进行停止时,执行unmount处理所用的时间。
决定镜像磁盘资源或共享型镜像磁盘资源中设置的[Unmount]标签页中[超时]时,作为参考值使用。
|
LOG
(运行)
|
Unmount Time, Last
(Unmount时间,最新值)
|
秒
|
镜像磁盘资源或共享型镜像磁盘资源进行停止时,执行unmount处理所用的时间。
输出的值为最后执行unmount处理时的值。
|
LOG
(运行)
|
Fsck Time, Max
(fsck时间,最大值)
|
秒
|
镜像磁盘资源或共享型镜像磁盘资源进行启动时,执行fsck处理所用的最大时间。
决定镜像磁盘资源或共享型镜像磁盘资源中设置的[fsck]标签页中[fsck超时]时,作为参考值使用。
|
LOG
(运行)
|
Fsck Time, Last
(fsck时间,最新值)
|
秒
|
镜像磁盘资源或共享型镜像磁盘资源进行启动时,执行fsck处理所用的时间。
输出的值为最后执行fsck处理时的值。
|
LOG
(运行)
|
- 1
- 括号内的单位为通过命令显示时的单位。输出时,将会输出保留小数点后两位的值。因此,小数点后第3位及以后的值将会舍去。换算时的变换规则如下。1KB=1024字节,1MB=1048576字节。舍去后为0时,则输出"0.00"。没有舍去也为0时,则会在命令中输出"None",在镜像统计信息文件中输出"0"。
- 2
- CMD ... 在命令(clpmdstat, clphdstat)中可视的信息。LOG ... 输出到镜像统计信息文件的信息。(运行) ... 运行服务器时输出有效值。待机服务器时保持值,或者为0。(两个) ... 运行服务器/待机服务器中的任一状态均可输出有效值。此外,服务器中登录为统计信息的值只是该服务器的信息,并不作为对方服务器的信息来登录。
- 3(1,2,3,4)
- 模式为「同步」时,为「从发送镜像同步数据后,到接收到对方服务器发出的ACK为止所需的时间」。模式为「异步」时,为「从镜像同步数据装载了同步用的队列后,到接收到对方服务器发出的ACK为止所需的时间」。
设置为 [收集统计信息] 时,部分信息(上述列表的输出栏里标有CMD的)可通过clpmdstat/clphdstat命令采集,并可显示。关于命令的使用方法,请参考《参考指南》的 "EXPRESSCLUSTER 命令参考" 的 "镜像状态显示(clpmdstat命令)"。
只有Cluster WebUI中 [集群属性] 的 [统计信息] 标签页的 [镜像统计信息] 为有效时,才可通过命令显示。
2.4. 系统资源统计信息采集功能¶
Cluster WebUI 的编辑模式下在 [集群属性] 的 [统计信息] 标签页中选中 [系统资源统计信息] 复选框时,集群中添加了系统监视资源或者进程资源监视资源时,采集系统资源相关信息,并以以下文件名规则保存在安装路径/perf/system下。本文件是文本形式(CSV)。以下说明文中本文件作为系统资源统计信息文件说明。
system.cur
system.pre
|
|
cur |
表示为最新信息的输出目标。 |
pre |
表示已转储的以前的信息输出目标。 |
采集的信息保存到系统资源统计信息文件中。统计信息到本文件的输出间隔(=每次取样时隔)为60秒。文件大小为16MB时Rotate,可保存2个版本。使用系统资源统计信息文件中记载的信息,可作为性能分析系统的参考。采集的统计信息包含以下项目。
统计值名 |
单位 |
说明 |
---|---|---|
CPUCount |
个 |
CPU数 |
CPUUtilization |
% |
CPU使用率 |
CPUTotal |
10毫秒 |
CPU总时间 |
CPUUser |
10毫秒 |
用户模式下的消耗时间 |
CPUNice |
10毫秒 |
优先级低的用户模式下的消耗时间 |
CPUSystem |
10毫秒 |
系统模式下的消耗时间 |
CPUIdle |
10毫秒 |
等待任务消耗时间 |
CPUIOWait |
10毫秒 |
I/O的完成等待时间 |
CPUIntr |
10毫秒 |
中断处理时间 |
CPUSoftIntr |
10毫秒 |
软件中断时间 |
CPUSteal |
10毫秒 |
虚拟环境使用时,其他OS中消耗的时间 |
MemoryTotalSize |
字节(KB) |
总内存量 |
MemoryCurrentSize |
字节(KB) |
内存使用量 |
MemoryBufSize |
字节(KB) |
缓冲大小 |
MemoryCached |
字节(KB) |
缓存内存大小 |
MemoryMemFree |
字节(KB) |
空余内存容量 |
MemoryDirty |
字节(KB) |
磁盘写入待机中的内存 |
MemoryActive(file) |
字节(KB) |
缓冲 or 页面缓存内存 |
MemoryInactive(file) |
字节(KB) |
空余缓冲 or 空余页面缓存内存 |
MemoryShmem |
字节(KB) |
共享内存大小 |
SwapTotalSize |
字节(KB) |
可以使用的互换大小 |
SwapCurrentSize |
字节(KB) |
使用中的互换大小 |
SwapIn |
次 |
swap in次数 |
SwapOut |
次 |
swap out次数 |
ThreadLimitSize |
个 |
线程上限值 |
ThreadCurrentSize |
个 |
当前线程数 |
FileLimitSize |
个 |
打开文件数的上限 |
FileCurrentSize |
个 |
当前的打开文件数 |
FileLimitinode |
个 |
系统全体的inode数 |
FileCurrentinode |
个 |
当前的inode数 |
ProcessCurrentCount |
个 |
当前的总进程数 |
记载了被输出的系统资源统计信息文件的示例。
system.cur
"Date","CPUCount","CPUUtilization","CPUTotal","CPUUser","CPUNice","CPUSystem","CPUIdle","CPUIOWait","CPUIntr","CPUSoftIntr","CPUSteal","MemoryTotalSize","MemoryCurrentSize","MemoryBufSize","MemoryCached","MemoryMemFree","MemoryDirty","MemoryActive(file)","MemoryInactive(file)","MemoryShmem","SwapTotalSize","SwapCurrentSize","SwapIn","SwapOut","ThreadLimitSize","ThreadCurrentSize","FileLimitSize","FileCurrentSize","FileLimitinode","FileCurrentinode","ProcessCurrentCount" "2019/10/31 15:44:50","2","0","34607369","106953","59","23568","34383133","89785","0","3871","0","754236","231664","948","334736","186888","12","111320","167468","50688","839676","0","0","0","5725","183","71371","1696","22626","22219","121" "2019/10/31 15:45:50","2","0","34619340","106987","59","23577","34395028","89816","0","3873","0","754236","231884","948","334744","186660","12","111320","167476","50688","839676","0","0","0","5725","183","71371","1696","22867","22460","121" "2019/10/31 15:46:50","2","0","34631314","107022","59","23586","34406925","89846","0","3876","0","754236","231360","948","334764","187164","4","111348","167468","50688","839676","0","0","0","5725","183","71371","1696","22867","22460","121" :
2.5. 进程资源统计信息采集功能¶
Cluster WebUI 的编辑模式下在 [集群属性] 的 [统计信息] 标签页中选中 [系统资源统计信息] 复选框时,集群中添加了系统监视资源或者进程资源监视资源时,采集进程资源相关信息,并以以下文件名规则保存在安装路径/perf/system下。本文件是文本形式(CSV)。以下说明文中本文件作为进程资源统计信息文件说明。
process.cur
process.pre
|
|
cur |
表示为最新信息的输出目标。 |
pre |
表示已转储的以前的信息输出目标。 |
采集的信息保存到进程资源统计信息文件中。统计信息到本文件的输出间隔(=每次取样时隔)为60秒。文件大小为32MB时Rotate,可保存2个版本。使用进程资源统计信息文件中记载的信息,可作为性能分析进程的参考。采集的统计信息包含以下项目。
统计值名 |
单位 |
说明 |
---|---|---|
PID |
- |
进程ID |
CPUUtilization |
% |
CPU使用率 |
MemoryPhysicalSize |
字节(KB) |
物理内存使用量 |
MemoryVirtualSize |
字节(KB) |
虚拟内存使用量 |
ThreadCurrentCount |
个 |
线程数 |
FileCurrentCount |
个 |
打开文件数 |
ProcessName |
- |
进程名
※ 输出进程名称时不将其括在「"」(双引号)中。
|
记载了被输出的进程资源统计信息文件的示例。
process.cur
"Date","PID","CPUUtilization","MemoryPhysicalSize","MemoryVirtualSize","ThreadCurrentCount","FileCurrentCount","ProcessName" "2022/09/05 17:08:41","620","0","26384","1132","1","21",/usr/lib/systemd/systemd-logind "2022/09/05 17:08:41","623","0","126384","1096","1","6",/usr/sbin/crond -n "2022/09/05 17:08:41","1023","0","239924","2880","3","12",/usr/sbin/rsyslogd -n :
2.6. 集群统计信息采集功能¶
如果在Cluster WebUI的设置模式中选中 [集群属性] 的 [统计信息] 选项卡上的 [集群统计信息] 复选框,则会收集心跳资源的接收间隔、组的失效切换、组资源的启动、监视资源的监视处理等每个处理的结果和所需时间的信息。此文件为文本格式 (CSV)。在下面的说明中,这个文件被称为集群统计信息文件。
对于心跳资源
对于每种类型的心跳资源,它都输出到相同的文件中。 支持内核模式LAN心跳资源以及用户模式LAN心跳资源。
[心跳资源类型].cur[心跳资源类型].precur
表示为最新信息的输出目标。
pre
表示是已转储的以前的信息输出目标。
保持目标
保存路径/perf/cluster/heartbeat/
组
group.curgroup.precur
表示为最新信息的输出目标。
pre
表示已转储的以前的信息输出目标。
保存目标
安装路径/perf/cluster/group/
组资源
组资源的每个类型输出到相同文件中。
[组资源类型].cur[组资源类型].precur
表示为最新信息的输出目标。
pre
表示已转储的以前的信息输出目标。
保存目标
安装路径/perf/cluster/group/
监视资源
监视资源的每个类型输出到相同文件中。
[监视资源类型].cur[监视资源类型].precur
表示为最新信息的输出目标。
pre
表示已转储的以前的信息输出目标。
保存目标
安装路径/perf/cluster/monitor/
注解
集群统计信息文件通过clplogcc指令或Cluster WebUI以日志收集采集。
请在以clplogcc命令收集日志时指定type6,以Cluster WebUI收集日志时指定pattern6。有关收集日志的详细信息,请参考《参考指南》的"EXPRESSCLUSTER命令参考"的"收集日志(clplogcc命令)",或者在线版手册。
定时输出统计信息到集群统计信息文件如下。
对于心跳资源
定期输出
组 4
组启动处理完成时
组停止处理完成时
组移动处理完成时 5
失效切换处理完成时 5
组资源
组资源启动处理完成时
组资源停止处理完成时
监视资源
监视处理完成时
监视状态更改处理完成时
收集的统计信息中包含以下内容。
对于心跳资源
统计值名
说明
Date
统计信息的输出时间。以以下形式输出。(000是毫秒)YYYY/MM/DD HH:MM:SS.000Name
心跳资源的名称。
Type
心跳资源的类型名称。
Local
自身服务器的主机名。
Remote
对方服务器的主机名。
RecvCount
日志输出间隔以内的心跳接收次数。
RecvError
日志输出间隔以内的接收错误次数。
RecvTime(Min)
日志输出间隔以内的心跳接收间隔的最小值。(单位:毫秒)
RecvTime(Max)
日志输出间隔以内的心跳接收间隔的最大值。(单位:毫秒)
RecvTime(Avg)
日志输出间隔以内的心跳接收间隔的平均值。(单位:毫秒)
SendCount
日志输出间隔以内的心跳发送次数。
SendError
日志输出间隔以内的发送错误次数。
SendTime(Min)
日志输出间隔以内的心跳发送处理时间的最小值。(单位:毫秒)
SendTime(Max)
日志输出间隔以内的心跳发送处理时间的最大值。(单位:毫秒)
SendTime(Avg)
日志输出间隔以内的心跳发送处理时间的平均值。(单位:毫秒)
心跳资源以外的情况
统计值名 |
说明 |
---|---|
Date
|
统计信息的输出时间。
以以下形式输出。(000为毫秒)
YYYY/MM/DD HH:MM:SS.000
|
Name |
组/组资源/监视资源的名字。 |
Action |
执行的处理名称。
输出以下字符串。
组时: Start(启动时), Stop(停止时), Move(移动时), Failover(失效切换时)
组资源时: Start(启动时), Stop(停止时)
监视资源时: Monitor(执行监视处理时)
|
Result |
执行的处理结果名称。
输出以下字符串。
成功时: Success (监视正常, 启动/停止正常)
失败时: Failure (监视异常, 启动/停止异常)
警告时: Warning(只监视时, 警告时)
超时时: Timeout (监视超时)
取消时: Cancel(处理取消(组启动中的集群停止等))
|
ReturnCode |
执行处理的返回值。 |
StartTime |
执行处理的开始时间。
以以下形式输出。(000为毫秒)
YYYY/MM/DD HH:MM:SS.000
|
EndTime |
执行处理的结束时间。
以以下形式输出。(000为毫秒)
YYYY/MM/DD HH:MM:SS.000
|
ResponseTime(ms) |
执行的处理所需时间。(单位:毫秒)
以毫秒表记输出。
|
以下配置示例就启动组时输出的统计信息文件示例进行了说明。
服务器 - 主机名: server1, server2
心跳资源
- 内核模式LAN心跳资源资源名: lankhb1, lankhb2
组
组名: failoverA
所属组 (failoverA) 的组资源
- exec 资源资源名: exec01, exec02, exec03
lankhb.cur
"Date","Name","Type","Local","Remote","RecvCount","RecvError","RecvTime(Min)","RecvTime(Max)","RecvTime(Avg)","SendCount","SendError","SendTime(Min)","SendTime(Max)","SendTime(Avg)" "2018/12/18 09:35:36.237","lankhb1","lankhb","server1","server1","20","0","3000","3000","3000","20","0","0","0","0" "2018/12/18 09:35:36.237","lankhb1","lankhb","server1","server2","20","0","3000","3000","3000","20","0","0","0","0" "2018/12/18 09:35:36.237","lankhb2","lankhb","server1","server1","20","0","3000","3000","3000","20","0","0","0","0" "2018/12/18 09:35:36.237","lankhb2","lankhb","server1","server2","20","0","3000","3000","3000","20","0","0","0","0" :
group.cur
"Date","Name","Action","Result","ReturnCode","StartTime","EndTime","ResponseTime(ms)" "2018/12/19 09:44:16.925","failoverA","Start","Success",,"2018/12/19 09:44:09.785","2018/12/19 09:44:16.925","7140" :
exec.cur
"Date","Name","Action","Result","ReturnCode","StartTime","EndTime","ResponseTime(ms)" "2018/12/19 09:44:14.845","exec01","Start","Success",,"2018/12/19 09:44:09.807","2018/12/19 09:44:14.845","5040" "2018/12/19 09:44:15.877","exec02","Start","Success",,"2018/12/19 09:44:14.847","2018/12/19 09:44:15.877","1030" "2018/12/19 09:44:16.920","exec03","Start","Success",,"2018/12/19 09:44:15.880","2018/12/19 09:44:16.920","1040" :
2.6.1. 有关集群统计信息文件的文件容量的注意事项¶
根据配置集群统计信息文件生成的数有所不同。因配置而生成大容量文件,请检查符合配置的集群统计信息的大小设置。集群统计信息文件的最大大小按照以下方式计算。
集群统计信息的文件大小 =
([心跳资源的文件容量] x [被设置的心跳资源的类型数]) x (版本数(2)) +([组的文件大小] x (版本数(2)) +([组资源的文件大小] x [被设置的组资源的类型数]) x (版本数(2)) +([监视资源的文件大小] x [被设置的监视资源的类型数]) x (版本数(2))例: 下记配置示例中保存的集群统计信息文件的合计最大大小是 332MB。((((50MB) x 1) x 2) + ((1MB) x 2) + ((3MB x 5) x 2) + ((10MB x 10) x 2) = 332MB)
心跳资源类型数:1(文件容量:50MB)
组 (文件大小: 1MB)
组资源类型数: 5 (文件大小: 3MB)
监视资源类型数: 10 (文件大小: 10MB)
2.7. Cluster WebUI操作日志输出功能¶
Cluster WebUI的编辑模式下在[集群的属性]的[Web管理器]标签页上选中"输出Cluster WebUI的操作日志"复选框时,通过Cluster WebUI将操作的信息输出到日志文件。本文件是文本形式(CSV)。以下说明文中本文件称为Cluster WebUI操作日志文件。
webuiope.curwebuiope.pre<x>cur
表示为最新信息的输出目标。
pre<x>
表示它是一个以前转储的信息输出目标。新的顺序为pre,pre1,pre2,...,之后编号递增则信息越旧。超出默认的日志文件数时从最旧的日志开始删除。保存目标
Cluster WebUI的编辑模式下在"日志输出目标"上指定的目录
输出的操作信息中包含以下项目。
项目名 |
说明 |
---|---|
Date |
操作信息的输出时间。
以以下形式输出。(000为毫秒)
YYYY/MM/DD HH:MM:SS.000
|
Operation |
通过Cluster WebUI执行的操作。 |
Request |
从Cluster WebUI发送到WebManager服务器的请求URL。 |
IP |
操作Cluster WebUI的客户端IP地址。 |
UserName |
执行操作的用户名。
使用“OS认证方式”作为登录到Cluster WebUI的方法时,将输出登录到Cluster WebUI的用户名。
|
HTTP-Status |
HTTP状态代码。
200 : 成功
除200以外 : 失败
|
ErrorCode |
执行操作的返回值。 |
ResponseTime(ms) |
执行操作所需的时间。(单位:毫秒)
以毫秒为单位标记输出。
|
ServerName |
操作对象的服务器名。
输出服务器名或IP地址。
作为操作对象的服务器名被指定时输出。
|
GroupName |
操作对象的组名。
作为操作对象的组名被指定时输出。
|
ResourceName |
操作对象的资源名。
输出心跳资源名/网络分区解决资源名/组资源名/监视资源名。
作为操作对象的资源名被指定时输出。
|
ResourceType |
操作对象的资源类型。
作为操作对象的资源类型被指定时输出。
|
Parameters… |
操作固有的参数。 |
以下是输出Cluster WebUI操作日志文件的示例。
"Date","Operation","Request","IP","UserName","HTTP-Status","ErrorCode","ResponseTime(ms)","ServerName","GroupName","ResourceName","ResourceType","Parameters..." "2020/08/14 17:08:39.902","Cluster properties","/GetClusterproInfo.js","10.0.0.15","user1",200,0,141,,,, "2020/08/14 17:08:46.659","Monitor properties","/GetMonitorResourceProperty.js","10.0.0.15","user1",200,0,47,,,"fipw1","fipw" "2020/08/14 17:15:31.093","Resource properties","/GetGroupResourceProperty.js","10.0.0.15","user1",200,0,47,,"failoverA","fip1","fip" "2020/08/14 17:15:45.309","Start group","/GroupStart.js","10.0.0.15","user1",200,0,0,"server1","failoverA",, "2020/08/14 17:16:23.862","Suspend all monitors","/AllMonitorSuspend.js","10.0.0.15","user1",200,0,453,"server1",,,,"server2" :
认证失败时输出的 Cluster WebUI 操作日志文件的示例。
集群密码方式时
"Date","Operation","Request","IP","UserName","HTTP-Status","ErrorCode","ResponseTime(ms)","ServerName","GroupName","ResourceName","ResourceType","Parameters..." "2020/11/20 09:29:59.710","Login","/Login.js","10.0.0.15","",403,,0,,,,
OS认证方式时
"Date","Operation","Request","IP","UserName","HTTP-Status","ErrorCode","ResponseTime(ms)","ServerName","GroupName","ResourceName","ResourceType","Parameters..." "2020/11/20 09:29:59.710","Login User","/LoginUser.js","10.0.0.15","user1",401,,0,,,,
2.8. API服务操作日志输出功能¶
Cluster WebUI的的设置模式下在[集群的属性]的[API]标签页上选中“导出API服务的操作日志”复选框时,通过RESTful API将操作的信息输出到日志文件。
本文件是文本形式(CSV)。以下说明文中本文件称为API服务操作日志文件。
restapiope.currestapiope.pre<x>cur
表示为最新信息的输出目标。
pre<x>
表示它是一个以前转储的信息输出目标。新的顺序为pre,pre1,pre2,...,之后编号递增则信息越旧。超出默认的日志文件数时从最旧的日志开始删除。保存目标
Cluster WebUI的编辑模式下在"日志输出目标"上指定的目录
输出的操作信息中包含以下项目。
项目名 |
说明 |
---|---|
Date |
操作信息的输出时间。
以以下形式输出。(000为毫秒)
YYYY/MM/DD HH:MM:SS.000
|
Method |
HTTP请求方法。有GET和POST两种。 |
Request |
发出请求的URI。 |
IP |
发出请求的客户端的IP地址。 |
UserName |
执行操作的用户名。 |
HTTP-Status |
HTTP状态代码。
200 : 成功
除200以外 : 失败
|
ErrorCode |
执行操作的返回值。 |
ResponseTime(ms) |
执行操作所需的时间。(单位:毫秒)
以毫秒为单位标记输出。
|
以下是输出的API服务操作日志文件的示例。
"Date","Method","Request","IP","UserName","HTTP-Status","ErrorCode","ResponseTime(ms)" "2023/05/28 16:34:08.007","GET","https://10.0.0.1:29009/api/v1/cluster","10.0.0.15","user1",200,0,84 "2023/05/28 16:34:08.007","GET","https://10.0.0.1:29009/api/v1/servers/servers?select=name","10.0.0.15","user1",200,0,84 "2023/05/28 16:35:03.283","POST","https://10.0.0.1:29009/api/v1/cluster/start","10.0.0.15","user1",200,0,142 "2023/05/28 16:35:03.283","POST","https://10.0.0.1:29009/api/v1/groups/failoverA/start -d '{ "target" : "server1" }'","10.0.0.15","user1",200,0,142 "2023/05/28 16:35:03.283","POST","https://10.0.0.1:29009/api/v1/resources/fip1/start -d '{ "target" : "server1" }'","10.0.0.15","user1",200,0,142 "2023/05/28 16:35:03.283","POST","https://10.0.0.1:29009/api/v1/monitors/fipw1/suspend -d '{ "target" : "server1" }'","10.0.0.15","root",200,0,142 :
2.9. 调查日志收集功能¶
当组资源或监视资源启动异常或强制停止资源的强制停止执行失败时,获取附加信息,并以压缩文件形式保存在<安装路径>/log/ecap下。(文件名为<事件发生时间>_<模块名>_<事件ID>.tar.gz)
Cluster WebUI的的设置模式下在[集群属性]的[Alert日志]标签页上选中“启用用于调查的日志文件下载功能”复选框时,也可以从Cluster WebUI中获取。
压缩文件包含针对常见资源类型执行的命令输出和针对特定资源类型的命令输出。
常见资源类型执行的命令的输出
以文本文件输出,保存在“common”文件夹中。
对于常见资源类型要执行的命令的输出结果与《参考指南 (Reference Guide)》 - “EXPRESSCLUSTER命令参考” - “收集日志(clplogcc命令)” - “发生异常时的信息采集”中记载的“OS信息(/proc/*)”、“执行命令产生的信息”相同。
特定资源类型的命令
输出结果以markdown格式的文本文件“<资源类型>.ecap.md ”保存。
执行以下特定资源类型的命令。(即使没有特定资源的命令也会执行通用的命令。)
资源类型
命令名
所需包
浮动IP资源
ip n
iproute
ping -w 3 <IP地址>
iputils
动态域名解析资源
nslookup -timeout=3 <虚拟主机名>
bind-utils
dig any +time=3 <虚拟主机名>
bind-utils
NIC Link Up/Down监视资源
ethtool <NIC的接口名>
ethtool
浮动IP监视资源
ip n
iproute
ping -w 3 <IP地址>
iputils
动态域名解析监视资源
nslookup -timeout=3 <虚拟主机名>
bind-utils
dig any +time=3 <虚拟主机名>
bind-utils
注解
如果同一事件、同一模块在同一时间段内多次发生,则可能无法正确收集调查日志。
2.10. 通信端口信息¶
EXPRESSCLUSTER中默认使用以下端口号。关于端口号,为了让EXPRESSCLUSTER能够使用端口,请更改防火墙的设定。
在Cloud环境的情况下,不仅可以在实例侧的防火墙设置中访问以下端口号,还可以在Cloud基盘侧的安全设置中访问以下端口号
2.11. 集群驱动程序设备信息¶
镜像驱动程序主号码主要使用218。请确认其他驱动程序没有占用该主号码。但,受系统限制,必须使用218以外的号码工作时,可更改主号码。
内核模式LAN心跳线驱动程序主要使用主号码为10,副号码为253。请确认其他驱动程序没有占用该主号码和副号码。
keep alive驱动程序主要使用主号码为10,副号码为254。请确认其他驱动程序没有占用该主号码和副号码。
2.12. 服务器宕机的发生条件¶
EXPRESSCLUSTER发生以下异常后,出于保护资源的目的,将执行服务器的关闭,reset,panic等。
2.12.1. 资源启动/停止异常时的最终动作¶
资源启动/停止异常时的最终动作设置如下时
最终动作 |
结果 |
---|---|
集群服务停止和OS关闭 |
组资源停止后,进行的关机。 |
集群服务停止和OS重启 |
组资源停止后,进行的重启。 |
Sysrq panic |
组资源启动/停止异常时,进行panic。 |
Keepalive reset |
组资源启动/停止异常时,进行reset。 |
Keepalive panic |
组资源启动/停止异常时,进行panic。 |
BMC reset |
组资源启动/停止异常时,进行reset。 |
BMC power off |
组资源启动/停止异常时,进行power off。 |
BMC power cycle |
组资源启动/停止异常时,进行power cycle。 |
BMC NMI |
组资源启动/停止异常时,进行NMI |
2.12.2. 发生资源启动/停止失控时的动作¶
发生资源的启动/停止失控时的动作的设置如下所示,资源启动/停止处理超过预期时间时。
发生失控时的动作 |
结果 |
---|---|
集群服务停止和OS关机 |
发生组资源启动/停止失控时,组资源停止后,进行通常的关机。 |
集群服务停止和OS重启 |
发生组资源启动/停止失控时,组资源停止后,进行通常的重启。 |
sysrq panic |
发生组资源启动/停止失控时,进行panic。 |
Keepalive reset |
发生组资源启动/停止失控时,进行reset。 |
Keepalive panic |
发生组资源启动/停止失控时,进行panic。 |
BMC reset |
发生组资源启动/停止失控时,进行reset。 |
BMC power off |
发生组资源启动/停止失控时,进行power off。 |
BMC power cycle |
发生组资源启动/停止失控时,进行power cycle。 |
BMC NMI |
发生组资源启动/停止失控时,进行NMI。 |
发生资源启动失速时,在警告和syslog中输出下述消息。
模块类型:rc
事件ID:32
消息:Activating %1 resource has failed.(99 : command is timeout)
说明:%1资源启动失败
发生资源停止失速时,在警告和syslog中输出下述消息。
模块类型:rc
事件ID:42
消息:Stopping %1 resource has failed.(99 : command is timeout)
说明:%1资源停止失败
2.12.3. 查出监视资源异常时的最终动作¶
监视资源异常时的最终动作设置如下时
最终动作 |
结果 |
---|---|
集群服务停止和OS关闭 |
组资源停止后,进行关机。 |
集群服务停止和OS重启 |
组资源停止后,进行重启。 |
Sysrq panic |
监视资源异常时,进行panic。 |
Keepalive reset |
监视资源异常时,进行reset。 |
Keepalive panic |
监视资源异常时,进行panic。 |
BMC reset |
监视资源异常时,进行reset。 |
BMC power off |
监视资源异常时,进行power off。 |
BMC power cycle |
监视资源异常时,进行power cycle。 |
BMC NMI |
监视资源异常时,进行NMI。 |
2.12.4. 强行停止动作¶
强制停止的类型设置为"BMC"时
强行停止动作
结果
BMC reset
拥有失效切换组资源的停止的服务器上发生reset。
BMC power off
拥有失效切换组资源的停止的服务器上发生power-off。
BMC power cycle
拥有失效切换组资源的停止的服务器上发生power-cycle。
BMC NMI
拥有失效切换组资源的停止的服务器上发生NMI。
强制停止的类型设置为"vCenter"时
强行停止动作
结果
Power off
拥有失效切换组资源的停止的服务器上发生power-off。
Reset
拥有失效切换组资源的停止的服务器上发生reset。
强制停止的类型设置为"AWS"或"OCI"时
强行停止动作
结果
stop
停止存在失效切换组的关机服务器的实例。
reboot
重启存在失效切换组的关机服务器的实例。
强制停止的类型设置为"Azure"时
2.12.6. EXPRESSCLUSTER Daemon停止时的资源停止异常¶
通过clpcl -t停止EXPRESSCLUSTER Daemon服务时发生资源停止失败时,将发生紧急关机。紧急关闭时的动作取决于[集群服务进程异常时动作]的设定。
2.12.7. 查出用户空间中的停止¶
运行停止时间超过超时时间的情况发生时,将进行OS的硬件复位或panic或I/O Fencing。执行硬件复位还是panic取决于用户空间监视资源的[超时发生时的动作]的设置。
2.12.8. 查出关机过程中的停止¶
由于OS关闭的延时发生停止时,将进行OS的硬件复位或panic或I/O Fencing。 硬件复位或panic取决于关机监视的[超时发生时的动作]的设定。
2.12.9. 从网络分区复原¶
如果没有设置网络分区解决资源时,所有心跳中断时(网络分区),双方服务器将互相进行失效切换,最后使双方服务器中的组都被启动。即使设置了网络分区解决资源时,双方服务器中的组也有可执行被启动。
私网从该状态中复原后,将关闭双方服务器或其中某一方服务器。
2.12.10. 网络分区解决¶
如果设置了网络分区解决资源,当所有的心跳中断时(网络分区),就会执行网络分区解决。
在确认发生网络分区症状的情况,任意服务器或者所有的服务器就会被关机或停止服务。关机或停止服务取决于[NP发生时的动作]的设置。
有关网络分区的解析,请参考《参考指南》的 "网络分区解决资源的详细信息"。
2.12.11. 镜像磁盘异常 -使用Replicator时-¶
镜像磁盘发生异常时,镜像Agent将进行reset。
2.12.12. Hybrid磁盘异常 -使用Replicator DR 时-¶
Hybrid磁盘发生异常时,镜像Agent将进行reset。
2.12.13. 集群挂起·恢复失败时¶
集群挂起·恢复失败的服务器会关机。
2.13. 设置为暂时不执行失效切换的方法¶
因服务器宕机而暂时控制失效切换时,请执行以下步骤。
- 暂时调整超时暂时调整超时可以使服务器在宕机时不进行失效切换。使用[clptoratio]命令即可暂时调整超时。请在集群中的任一服务器上执行[clptoratio]命令。
例)HB超时为90秒时,将HB超时延长为1小时,3600秒
clptoratio -r 40 -t 1h
- 解除对超时的临时调整解除对超时的临时调整。请在集群中的任一服务器上执行clptoratio 命令。
clptoratio -i
因暂时停止监视资源的监视而发生监视异常,暂时控制失效切换时,请执行以下步骤。
- 暂时停止监视资源的监视暂时停止监视可以使服务器暂时不进行监视引起的失效切换。使用[clpmonctrl]命令即可暂时停止监视。请在集群中所有服务器上执行[clpmonctrl]命令。或者在集群内的任一服务器上使用 -h 参数实现在所有服务器上执行[clpmonctrl]命令。
例) 要停止执行命令服务器上的所有监视时
clpmonctrl -s
例) 暂停用-h参数所指定的服务器上的所有监视时
clpmonctrl -s -h <服务器名>
- 重新开始监视资源的监视重新开始监视。在集群中所有服务器上执行[clpmonctrl] 命令。或者在集群内的任一服务器上使用-h参数实现在所有服务器上执行[clpmonctrl]命令。
例) 重新开始执行命令服务器上的所有监视时
clpmonctrl -r
例) 重新开始用-h参数所指定的服务器上的所有监视时
clpmonctrl - r -h <服务器名>
有关详细的[clpmonctrl]命令,请参考《参考指南》的"EXPRESSCLUSTER命令参考"的"控制监视资源(clpmonctrl命令)"。
因禁用监视资源异常时的恢复动作而发生监视异常,暂时控制失效切换时,请执行以下步骤。
- 禁用监视资源异常时的恢复操作设置控制监视资源异常时的恢复操作后,监视资源即使查出异常也不会执行恢复操作。设置该功能时,请在Cluster WebUI的编辑模式中选中[集群属性]的[扩展]标签页的[禁用集群操作]中的[监视资源异常时的恢复操作],以应用设置。
- 启用监视资源异常时的恢复操作解除禁用监视资源异常时的恢复操作。请在Cluster WebUI的编辑模式中取消[集群属性]的[扩展]标签页的[禁用集群操作]中的[监视资源异常时的恢复操作],以应用设置。
通过禁用组资源启动异常时的复归动作,由于启动异常暂时抑制失效切换时,请执行以下步骤。
- 禁用组资源启动异常时的复归动作如果设置禁用组资源启动异常时的复归动作,即使组资源检测出启动异常也不能进行复归动作。设置该功能时,请在Cluster WebUI的编辑模式中选中[集群的属性]的[扩展]标签页的[禁用集群操作]中的[检测出组监视资源异常时的复归动作],以应用设置。
- 启用组资源启动异常时的复归动作解除禁用组资源启动异常时的复归动作。请在Cluster WebUI的编辑模式中取消[集群属性]的[扩展]标签页的[禁用集群操作]中的[检测出组监视资源异常时的复归动作],以应用设置。
2.14. 镜像磁盘的更换步骤¶
镜像磁盘发生故障等,运行开始后需进行更换时,请按以下步骤实施。
参见
有关Daemon的停止及开始的详细信息,请参考《安装&设置指南》的 "操作前的准备工作"的"暂停EXPRESSCLUSTER"。
2.14.1. 更换由单磁盘构成的(非RAID)镜像磁盘时¶
结束要更换镜像磁盘侧的服务器运行。
注解
结束服务器运行之前,建议执行《安装&设置指南》的"禁用EXPRESSCLUSTER 后台程序"。在禁用后台程序的服务器上,执行以下命令,将后台程序设为禁用。clpsvcctrl.sh --disable core mgr
共享型磁盘出现故障时,请关闭所有链接更换目标设备的服务器。
将新磁盘安装到服务器。
启动已安装新磁盘的服务器。此时,请不要启动EXPRESSCLUSTER服务。步骤1. 中如没有禁用EXPRESSCLUSTER Daemon,则以运行级别1启动OS。
使用fdisk命令,将新磁盘分成与原先相同的分区。
注解
基于共享型磁盘的共享存储器侧切换,请在连接此共享存储器的其中1台服务器上创建分区和文件系统。
以往曾用作EXPRESSCLUSTER的镜像磁盘或共享型磁盘的磁盘,要将其数据清空后用于其它用途时,请执行集群分区初始化。
有关集群分区(EXPRESSCLUSTER分区)初始化,请参见《安装&设置指南》的"确定系统配置"的"配置硬件后的设置"中的对应标题("2. 设置共享型磁盘资源用的共享磁盘 (使用Replicator DR时必需)","3. 设置共享型镜像磁盘资源用的分区(使用Replicator DR时必需)","4. 设置镜像磁盘资源用的分区(使用Replicator时必需)")。
不自动进行初始镜像构建。
(A)在不更换镜像磁盘侧的服务器上进行业务操作的状态(包括镜像磁盘资源的组启动的状态)下,想并列进行磁盘复制(初始镜像构建)时,不需要将初始镜像构建设置为不能自动进行。)
(B) 在磁盘复制结束可以停止业务操作时(组为停止也可以时),请将包括此镜像磁盘资源的组设为停止状态。
注解
- 在步骤(A),由于因文件系统的种类的不同进行磁盘使用量份额的复制,因此复制时间有可执行依赖于磁盘使用量。另外,由于并行进行业务操作和复制处理,因此有可执行变为高负载状态,进行复制比较费时。
在停止业务操作的状态(组为停止的状态)进行磁盘复制时的步骤(B),由于因文件系统而进行磁盘使用量份额的复制,因此,复制时间有可执行会依靠磁盘使用量。业务的开始(组的启动)可在复制结束后进行。
在安装了新磁盘侧的服务器上,启用EXPRESSCLUSTER Daemon,并重启服务器。
注解
- 如果结束服务器运行之前已执行《安装&设置指南》的"禁用EXPRESSCLUSTER 后台程序"。在启用后台程序的服务器上,执行以下命令,将后台程序设为启用。
clpsvcctrl.sh --enable core mgr
使用以下命令开始初始镜像构建(磁盘复制)。
- (A) 更换镜像磁盘侧的服务器上进行业务操作时开始自动进行初始镜像构建(复制磁盘)。将"进行初始镜像构建"设置为"off"时,则不能自动开始,请在镜像磁盘列表或利用下述命令,手动开始初始镜像构建。
【镜像磁盘时】
clpmdctrl --force <复制源服务器名> <镜像磁盘资源名>
【共享型镜像磁盘时】
clphdctrl --force <复制源服务器名> <共享型镜像磁盘资源名>
- (B) 停止业务操作,在磁盘复制结束后开始业务操作时(在包括镜像磁盘资源的组处于停止的状态下进行复制时)
【镜像磁盘时】
clpmdctrl --force <复制源服务器名> <镜像磁盘资源名>
【共享型镜像磁盘时】
clphdctrl --force <复制源服务器名> <共享型镜像磁盘资源名>
- 在停止业务操作的状态(停止状态)下开始初始镜像构建时(B),在初始镜像构建结束后(磁盘复制结束后),可以开始业务操作(启动组)。想中断镜像复归时,请不要启动组而再一次开始进行初始镜像构建。
2.14.2. 更换由多磁盘构成的(RAID)镜像磁盘时¶
结束要更换镜像磁盘侧的服务器运行。
注解
- 结束服务器运行之前,建议先执行《安装&设置指南》的"禁用EXPRESSCLUSTER 后台程序"在禁用后台程序的服务器上,执行以下命令,将后台程序设为禁用。
clpsvcctrl.sh --disable core mgr
共享磁盘出现故障时,请关闭所有链接更换目标设备的服务器。
将新磁盘安装到服务器。
设置新磁盘,启动服务器。
启动OS之前,重新构建RAID。
启动OS时,请不要启动EXPRESSCLUSTER服务。步骤1. 中如没有禁用EXPRESSCLUSTER Daemon,请以运行级别1启动OS,先禁用EXPRESSCLUSTER Daemon,再以运行级别3启动。
根据需要,请从数据分区提取数据备份。
LUN初始化时,使用fdisk命令对新设备划分集群分区和数据分区。
注解
基于共享型磁盘的共享内存侧切换,请在连接此共享内存的其中1台服务器上划出分区。
以root登录后,可以通过以下任何一种方法进行集群分区初始化。
方法(1) 不使用dd命令时的方法
【镜像磁盘】
clpmdinit --create force <镜像磁盘资源名>
【共享型磁盘】
clphdinit --create force <共享型磁盘资源名>
注解
- 镜像磁盘的情况下,若通过镜像磁盘资源设定将"执行初始mkfs"置"On",则执行此命令时,执行mkfs的文件系统被初始化。但是,若是大容量磁盘,则mkfs时有时耗费时间。(若执行mkfs,则保存在数据分区的数据将被消除。在执行命令之前根据需要,请数据分区中提取数据备份。)镜像数据通过后述的全面恢复从对方服务器侧被复制。
方法(2) 使用dd命令的方法
【镜像磁盘】
dd if=/dev/zero of=<集群分区的设备名(例如:/dev/sdb1)> clpmdinit --create quick <镜像磁盘资源名>
【共享型磁盘】
dd if=/dev/zero of=<集群分区的设备名(例如:/dev/sdb1)> clphdinit --create quick <共享型磁盘资源名>
注解
若执行dd命令,则由of=指定的分区数据被初始化。请仔细确认分区设备名是否有错后,执行dd命令。
- 实行dd命令时,会显示以下消息。并非表示异常。
dd: writing to <CLUSTER分区的设备名>: No space left on device
镜像数据通过后述的全面恢复从对方服务器侧被复制。在执行命令之前根据需要,请数据分区中提取数据备份。
自动进行初始镜像构建。
(A) 如果在不更换镜像磁盘侧的服务器上进行业务操作的状态(包括镜像磁盘资源的组启动的状态)下,想并列进行磁盘复制(初始镜像构建)时,不需要将初始镜像构建设置为不能自动进行。)
(B) 如果在磁盘复制结束可以停止业务操作时(组为停止也可以时),请将包括此镜像磁盘资源的组设为停止状态。
注解
- 在步骤(A),由于因文件系统的种类的不同进行磁盘使用量份额的复制,因此复制时间有可执行依赖于磁盘使用量。另外,由于并行进行业务操作和复制处理,因此有可执行变为高负载状态,进行复制比较费时。
在停止业务操作的状态(组为停止的状态)进行磁盘复制时的步骤(B),由于因文件系统而进行磁盘使用量份额的复制,因此,复制时间有可执行会依靠磁盘使用量。业务的开始(组的启动)可在复制结束后进行。
在更换了磁盘侧的服务器上启用EXPRESSCLUSTER demon时,请重启服务器。
注解
- 如果结束服务器运行之前已执行《安装&设置指南》的"禁用EXPRESSCLUSTER 后台程序",此时,先启用EXPRESSCLUSTER 后台程序。在启用后台程序的服务器上,执行以下命令,将后台程序设为启用。
clpsvcctrl.sh --enable core mgr
使用以下命令开始初始镜像构建(磁盘复制)。
(A) 更换镜像磁盘侧的服务器上进行业务操作时
开始自动进行初始镜像构建(复制磁盘)。将「进行初始镜像构建」设置为「off」时,则不能自动开始,请在镜像磁盘列表或利用下述命令,手动开始初始镜像构建。【镜像磁盘时】
clpmdctrl --force <复制源服务器名> <镜像磁盘资源名>
【共享型镜像磁盘时】
clphdctrl --force <复制源服务器名> <共享型镜像磁盘资源名>
- (B) 停止业务操作,在磁盘复制结束后开始操作时(在包括镜像磁盘资源的组处于停止的状态下进行复制时)
【镜像磁盘时】
clpmdctrl --force <复制源服务器名> <镜像磁盘资源名>
【共享型镜像磁盘时】
clphdctrl --force <复制源服务器名> <共享型镜像磁盘资源名>
- 在停止业务操作的状态(停止状态)下开始初始镜像构建时(B),在初始镜像构建结束后(磁盘复制结束后),可以开始业务操作(启动组)。想中断镜像复归时,请不要启动组而再一次开始进行初始镜像构建。
2.14.3. 更换两个镜像磁盘时¶
注解
更换两个镜像磁盘时,镜像磁盘中的数据会丢失。请根据需要,在更换磁盘后使用备份数据等进行恢复。
两个服务器都停止运行。
注解
- 两个服务器结束运行之前,建议先执行《安装&设置指南》的"禁用EXPRESSCLUSTER 后台程序"。在禁用后台程序的服务器上,执行以下命令,将后台程序设为禁用。
clpsvcctrl.sh --disable core mgr
将新磁盘安装到两个服务器。
启动两个服务器。此时,请不要启动EXPRESSCLUSTER服务。步骤1.中 如没有禁用EXPRESSCLUSTER Daemon,则以运行级别1启动OS。
使用[fdisk]命令,将两个服务器中的新磁盘分成与原先相同的分区。
注解
利用共享型磁盘更换共享存储器侧时,在这个共享存储器所连接的任意1台服务器上新建分区和文件系统。
将过去作为EXPRESSCLUSTER的镜像磁盘或共享型磁盘而使用过的磁盘,清除其数据再利用时,请进行集群分区的初始化。并且根据需要进行数据分区的文件系统的初始化。
有关集群分区(EXPRESSCLUSTER分区)的初始化以及是否需要新建文件系统的详情,请参考《安装&设置指南》的"确定系统配置"的"硬件配置后的设置"内的各相应项目("2. 设置共享型磁盘资源用的共享磁盘 (使用Replicator DR时必需)", "3. 设置共享型镜像磁盘资源用的分区(使用Replicator DR时必需)", "4. 设置镜像磁盘资源用的分区(使用Replicator时必需)")。
重启两个服务器。
注解
- 如果结束服务器运行之前已执行《安装&设置指南》的"禁用EXPRESSCLUSTER 后台程序",此时,先启用EXPRESSCLUSTER 后台程序。在启用后台程序的服务器上,执行以下命令,将后台程序设为启用。
clpsvcctrl.sh --enable core mgr
- 重启后,自动开始初始镜像构建(全面镜像复归)。在"进行初始镜像构建"设置为"off"时,则不会自动地开始而是保持原有的正常状态。因此,此时请务必通过Cluster WebUI的镜像磁盘列表或clpmdctrl, clphdctrl命令,手动开始全面镜像复归。
根据需要,在全面镜像复归结束后,从备份数据等进行数据复原。
2.16. 更换服务器的方法 -镜像磁盘-¶
2.16.1. 同时更换服务器和镜像磁盘时¶
使用管理IP地址连接到Cluster WebUI。如果没有管理IP地址,请使用未更换服务器的IP地址连接到Cluster WebUI。
同时更换发生故障的服务器机器和磁盘。在新服务器上设置与之前服务器相同的IP地址,主机名。
使用[fdisk]命令预留磁盘的分区。
在已更换的服务器中安装EXPRESSCLUSTER Server。详细请参考《安装&设置指南》的 "安装EXPRESSCLUSTER"的"设置EXPRESSCLUSTER Server "。 安装完EXPRESSCLUSTER Server的服务器必须在安装之后进行重启。在这之前,如果要再使用曾作为镜像磁盘使用的磁盘,请执行集群分区的初始化。
- 从已连接的Cluster WebUI的编辑模式中上传集群配置信息。使用期间定制License时,请执行以下命令。
clplcnsc --reregister <保存License文件的文件夹路径>
上传完成后,请重启已更换的服务器。 - 重启后,将自动执行更换磁盘进行集群分区初始化,创建数据分区的文件系统。设置为进行初始镜像构建时,则将自动进行镜像复归。镜像复归为全面复制。
clpmdstat --mirror <镜像磁盘资源名(例:md1)>
2.16.2. 保留镜像磁盘时¶
使用管理IP地址连接到Cluster WebUI。如果没有管理IP地址,请使用未更换服务器的物理IP地址连接到Cluster WebUI。
只更换发生故障的服务器机器,保留镜像过的磁盘。在新服务器上设置与之前服务器相同的IP地址,主机名。
在已更换的服务器中安装EXPRESSCLUSTER Server。详细请参考《安装&设置指南》的"安装EXPRESSCLUSTER"的"设置EXPRESSCLUSTER Server"。 安装完EXPRESSCLUSTER Server的服务器必须在安装之后进行重启。- 从已连接的Cluster WebUI的编辑模式中上传集群配置信息。使用期间定制License时,请执行以下命令。
clplcnsc --reregister <保存License文件的文件夹路径>
上传完成后,请重启已更换的服务器。 重启后,如果没有差异,则可以直接开始操作运行。
重启后,如果镜像磁盘有差异,则需要进行镜像复归。镜像复归为全面复制。clpmdstat --mirror <镜像磁盘资源名(例:md1)>
2.17. 更换服务器 -共享型镜像磁盘-¶
2.17.3. 保留磁盘时¶
使用管理IP地址连接到Cluster WebUI。如果没有管理IP地址,请使用未更换服务器的物理IP地址连接到Cluster WebUI。
更换发生故障的服务器机器,沿用镜像磁盘。设置与更换前的服务器相同的IP地址和主机名。
在已更换的服务器中安装EXPRESSCLUSTER Server。详细信息请参考《安装&设置指南》的 "安装EXPRESSCLUSTER"的"设置EXPRESSCLUSTER Server"。安装完EXPRESSCLUSTER Server的服务器必须在安装之后进行重启。
- 从已连接的Cluster WebUI的编辑模式中上传集群配置信息。使用期间定制License时,请执行以下命令。
clplcnsc --reregister <保存License文件的文件夹路径>
上传后,请重启更换后的服务器。 - 重启后,如果没有差异,则可以直接开始操作运行。重启后,如果镜像磁盘有差异,则需要进行镜像复归。镜像复归为全面复制。
clphdstat --mirror <共享型镜像磁盘资源名(例:hd1)>
2.18. 恢复虚拟机 -镜像磁盘时-¶
虚拟环境下的服务器的系统磁盘发生异常时, 请通过以下步骤更换磁盘,从备份数据进行恢复。
注解
此步骤适用于使用在OS外部执行的磁盘映像进行备份/恢复,而不适用于基于文件的备份/恢复。 在执行此步骤之前,以提前收集磁盘映像备份为前提。关于磁盘映像的备份步骤,请参考 "2.19.1. 同时备份当前系统/待机系统的镜像磁盘时"或者 "2.19.3. 备份待机系统的镜像磁盘时"。 在这些说明中,虽然记述了作为存在镜像磁盘资源时的步骤要执行clpbackup.sh --pre --no-shutdown
,但是请替换成执行clpbackup.sh --pre
使服务器为关闭状态之后收集备份。 推荐收集系统磁盘的备份时,使系统磁盘处于静止状态。 此步骤的目标是恢复目标服务器上的系统磁盘以及镜像磁盘资源。 此外,在此步骤中,无法对每个资源使用单独的步骤进行恢复。
如果要进行恢复的服务器(以下称为对象服务器)上有已经启动的组, 请移动组。在组移动完毕后, 请确认各组资源是否正常启动。
为了防止自动镜像复归运行, 请使用Cluster WebUI 或者[clpmonctrl]命令, 暂时停止未恢复的服务器上所有的镜像磁盘监视资源。
clpmonctrl -s -h <服务器名> -m <监视资源名>
请执行[clprestore]命令后关闭对象服务器。
clprestore.sh --pre
请使用对象服务器的备份映像后创建新的虚拟硬盘。
如果目标服务器当前有单独的虚拟硬盘 (一个用于系统盘,其他[可能有多个]用于镜像磁盘资源), 则使用每个备份映像创建各自的新的虚拟硬盘。
- 请更换对象服务器的虚拟硬盘。关于更换方法的详细内容,请参考 虚拟化基础架构和云环境的手册及指南。
请启动对象服务器。
注解
由于收集备份时处于已执行clpbackup.sh --pre
的状态, 因此集群服务的自动启动设置为关闭。 所以,即使启动对象服务器,集群服务也无法自动启动。检查恢复服务器上磁盘的设备文件名是否与恢复前一致。 如果设备文件名已更改,请将其恢复为原始文件名。
请执行[clprestore]命令后重启对象服务器。
clprestore.sh --post
通过Cluster WebUI的镜像磁盘列表 对所有镜像磁盘资源进行镜像复归(整体复制)。
注解
请将拥有最新数据的服务器端作为复制源。此外,由于执行恢复过程中差分信息有可能不正确, 因此请指定为完全复制而不是差分复制。请使用Cluster WebUI或者[clpmonctrl]命令, 再次打开不进行恢复的服务器上的镜像磁盘监视资源。
clpmonctrl -r -h <服务器名> -m <监视资源名>
请使用Cluster WebUI或[clpmdstat]命令请确认镜像是否可以正常同步。
clpmdstat --mirror <md资源名>
注解
如果两方的服务器上的镜像状态均为GREEN,则镜像已成功同步。
2.19. 以磁盘映像备份镜像磁盘/共享型镜像磁盘¶
以磁盘映像备份镜像磁盘/共享型镜像磁盘用的分区(集群分区和数据分区)时, 请按照以下任一步骤进行。
注解
通过本步骤,对象服务器上的镜像磁盘资源和共享型镜像磁盘资源都成为备份/恢复的对象。 此外,在本步骤中,无法通过单独的步骤备份/还原每个资源。 进行备份/恢复时,请备份/恢复集群分区和数据分区。※ 镜像磁盘和共享型镜像磁盘由作为镜像对象的数据分区以及记录管理信息的集群分区组成。 有共享型镜像磁盘资源时,推荐事先确定各服务器组内的哪台服务器将执行恢复作业。 有共享型镜像磁盘资源时的步骤是,首先在服务器组内的1台服务器上执行clpbackup.sh --pre
或者clpbackup.sh --post
, 然后在服务器组内的剩余服务器上执行clpbackup.sh --pre --only-shutdown
或者clpbackup.sh --post --only-reboot
。步骤中,把服务器组内的当前服务器作为上一服务器的指南, 但是在服务器组内首先执行命令的第一台服务器不一定必须是当前服务器。另外,如果服务器组中只有一台服务器时, 就没有必要在下一个服务器组内的剩余服务器中进行clpbackup.sh --pre --only-shutdown
或者clpbackup.sh --post --only-reboot
。※ 当前服务器是服务器组中当前负责发送和接收镜像数据以及写入磁盘的服务器。当前系统中,启动共享型镜像磁盘资源的服务器为当前服务器。待机系统的当前服务器接收从当前系统的当前服务器发送来的镜像数据,并将其写入到待机系统的镜像磁盘。 在包含安装了4.3版之前的EXPRESSCLUSTER的服务器的集群环境中,不支持此步骤。 对于执行[clpbackup.sh]命令时的服务器关机, 显示 "Some invalid status. Check the status of cluster.
" 的错误且服务器未关机时, 请稍等后再次执行[clpbackup.sh]命令。 执行clpbackup.sh --post
时,有时会发生Mirror Agent启动超时出错的情况。此时,请稍后再次执行clpbackup.sh命令。参见
关于clpbackup.sh请参考《参考指南》的 "EXPRESSCLUSTER命令参考" 的 "准备磁盘映像备份(clpbackup.sh命令)"。
2.19.1. 同时备份当前系统/待机系统的镜像磁盘时¶
请使用Cluster WebUI或[clpmdstat] / [clphdstat]命令 请确认镜像是否可以正常同步。
镜像磁盘资源时:
clpmdstat --mirror <md资源名>
共享型镜像磁盘资源时:
clphdstat --mirror <hd资源名>
注解
如果两方的服务器或服务器组上的镜像状态均为 GREEN,则镜像已成功同步。对于共享型镜像磁盘资源,请确认当前系统/待机系统的两服务器组的哪台服务器是当前服务器。正在运行失效切换组(业务)时,请停止失效切换组。
请使用[clpbackup.sh]命令,将镜像磁盘更改为备份模式。
镜像磁盘资源时:
请在当前系统/待机系统的两服务器上执行以下命令。
clpbackup.sh --pre --no-shutdown
共享型镜像磁盘资源时:
请在两服务器组内的1个服务器上执行以下命令。
clpbackup.sh --pre
注解
执行后,镜像状态更改为备份用,集群服务自动启动设置关闭。镜像磁盘资源时,在完成这些操作后停止集群服务。共享型镜像磁盘资源时,在完成这些操作后关闭服务器。共享型镜像磁盘资源时, 在关闭已执行[clpbackup.sh]命令的服务器后,请在剩余的服务器上逐个执行以下命令。
clpbackup.sh --pre --only-shutdown
注解
执行后,则集群服务自动启动设置关闭,服务器关机。
请在两个服务器上执行备份。
备份操作完成后,请将镜像磁盘从备份模式返回到正常模式。
镜像磁盘资源时:
请在当前系统/待机系统的两服务器上执行以下命令。
clpbackup.sh --post --no-reboot
共享型镜像磁盘资源时:
请启动所有服务器。之后,请在两服务器组内的1个服务器上执行以下命令。clpbackup.sh --post
注解
执行后,则镜像状态恢复正常,集群服务自动启动设置打开。镜像磁盘资源时,在完成这些操作后启动集群服务。共享型镜像磁盘资源时,在完成这些操作后重新启动服务器。此外,处理可能需要一些时间。共享型镜像磁盘时, 已执行上一个 [clpbackup.sh] 命令的服务器开始重新启动之后, 请在剩余的所有服务器上逐个执行以下命令。
clpbackup.sh --post --only-reboot
注解
执行后,则集群服务自动启动设置打开,服务器重启。
在两系统的所有服务器中启动集群服务之后, 请使用Cluster WebUI 或 [clpmdstat] / [clphdstat]命令 请确认镜像是否可以正常同步。
2.19.2. 当前系统/待机系统上逐个对单个服务器备份镜像磁盘时¶
按照如下步骤,请参考 "备份待机系统的镜像磁盘时",交替进行备份。
请参考 "备份待机系统的镜像磁盘时" 进行待机系统的磁盘备份作业。
备份作业完成后,当镜像复归完成并且当前系统和待机系统的镜像磁盘处于同步状态时,请将失效切换组从当前系统移动到待机系统。
请参考 "备份待机系统的镜像磁盘时" 进行原当前系统的磁盘备份作业。
备份作业完成后,当镜像复归完成并且当前系统和待机系统的镜像磁盘处于同步状态时,如有必要请移动失效切换组。
2.19.3. 备份待机系统的镜像磁盘时¶
请使用Cluster WebUI或[clpmdstat] / [clphdstat]命令确认镜像是否可以正常同步。
镜像磁盘资源时:
clpmdstat --mirror <md资源名>
共享型镜像磁盘资源时:
clphdstat --mirror <hd资源名>
注解
共享型镜像磁盘资源时,请确认待机系统的服务器组的当前服务器是哪个服务器。
为了确保写入镜像领域的数据的静止点, 请停止包含镜像磁盘资源或共享型镜像磁盘资源的失效切换组(业务)。
注解
停止失效切换组可以防止在写入过程中备份数据, 防止缓存将数据写入镜像区域而不进行备份。
为了防止自动镜像复归运行,请通过Cluster WebUI或者[clpmonctrl]命令, 暂停当前系统/待机系统双方的所有镜像磁盘监视资源/共享型镜像磁盘监视资源。
clpmonctrl -s -h <服务器名> -m <监视资源名>
请使用[clpbackup.sh]命令,将镜像磁盘更改为备份模式。
镜像磁盘资源时:
请在待机系统(备份方)的服务器上执行以下命令。
clpbackup.sh --pre --no-shutdown
共享型镜像磁盘资源时:
请在待机系统的服务器组内的1个服务器上执行以下命令。
clpbackup.sh --pre
注解
执行后,镜像状态更改为备份用,集群服务自动启动设置关闭。镜像磁盘资源时,在完成这些操作后停止集群服务。共享型镜像磁盘资源时,在完成这些操作后关闭服务器。共享型镜像磁盘时, 在关闭已执行[clpbackup.sh]命令的服务器后, 请在待机服务器组内的剩余服务器上执行以下命令。
clpbackup.sh --pre --only-shutdown
注解
执行后,则集群服务自动启动设置关闭,服务器关机。
如果要立刻重新开始业务,请在当前系统(不备份)的服务器中启动失效切换组(业务)。
请在待机系统的服务器上进行磁盘映像的备份。
- 备份作业完成之后, 请将镜像磁盘从备份模式返回到正常模式。
镜像磁盘资源时:
请在待机系统的服务器上执行以下命令。
clpbackup.sh --pre --no-shutdown
共享型镜像磁盘资源时:
请启动待机系统的服务器组的所有服务器。之后,请在待机系统的服务器组内的1个服务器上执行以下命令。clpbackup.sh --pre
注解
执行后,镜像状态更改为备份用,集群服务自动启动设置关闭。镜像磁盘资源时,在完成这些操作后启动集群服务。共享型镜像磁盘资源时,在完成这些操作后重新启动服务器。此外,处理可能需要一些时间。 共享型镜像磁盘时,请在待机服务器组内的剩余服务器上执行以下命令。
clpbackup.sh --post --only-reboot
注解
执行后,则集群服务自动启动设置打开,服务器重启。
- 在待机系统的服务器中启动集群服务。如果镜像磁盘监视资源/共享型镜像磁盘监视资源处于暂停状态时, 请通过Cluster WebUI或者[clpmonctrl]命令重新启动。
clpmonctrl -r -h <服务器名> -m <监视资源名>
如果失效切换组(业务)保持停止状态(上一步中没有立刻重新开始), 则可以在当前系统的服务器上启动失效切换组(业务)。
- 启用自动镜像复归时,备份操作中当前系统和待机系统之间产生的镜像差异通过自动镜像复归同步后处于正常状态。如果未执行自动镜像复归且处于不正常状态时,请执行Cluster WebUI的 [镜像磁盘] 标签页上的 [差量复制] 操作或者[clpmdctrl] / [clphdctrl]命令, 进行镜像复归。
镜像磁盘资源时:
clpmdctrl --recovery <md资源名>
共享型镜像磁盘资源时:
clphdctrl --recovery <hd资源名>
注解
共享型镜像磁盘资源时请在当前服务器上执行。
2.19.4. 备份只在单个系统运行的镜像磁盘时¶
有关对方服务器停止后未镜像同步的状态下,备份只在单个系统中作为当前系统运行的服务器或服务器组的镜像磁盘时的步骤, 请参考 "同时备份当前系统/待机系统的镜像磁盘时", 把 "两系统" "两服务器" 的部分替换成 "单个系统" "单个服务器"。
参见
服务器启动时,未等待其他服务器启动,想马上启动失效切换组(业务)时, 启动服务器时通过执行以下命令,可以解除集群启动同步等待。clpbwctrl -c如果启动同步等待尚未开始,或者启动同步等待已超时,则该命令将导致错误。
2.20. 恢复磁盘映像到镜像磁盘/共享型镜像磁盘¶
镜像磁盘/共享型镜像磁盘用的分区(集群分区和数据分区)中, 通过 "以磁盘映像备份镜像磁盘/共享型镜像磁盘" 恢复已备份的磁盘映像时, 请按照以下步骤进行。
注解
本步骤是对按照 "以磁盘映像备份镜像磁盘/共享型镜像磁盘" 的步骤备份的磁盘映像的恢复方法进行说明。在基于文件级别而不是磁盘映像上恢复到启动状态的镜像磁盘/共享型镜像磁盘的步骤,与本步骤不同。 通过本步骤,对象服务器上的镜像磁盘资源和共享型镜像磁盘资源都成为备份/恢复的对象。 此外,在本步骤中,无法通过单独的步骤备份/还原每个资源。 进行备份/恢复时,请备份/恢复集群分区和数据分区。※ 镜像磁盘和共享型镜像磁盘由作为镜像对象的数据分区以及记录管理信息的集群分区组成。 有共享型镜像磁盘资源时,推荐事先确定各服务器组内的哪台服务器将执行恢复作业。 有共享型镜像磁盘资源时的步骤,首先在服务器组内的1台服务器上 执行clprestore.sh --post
或者clprestore.sh --post --skip-copy
, 接着在服务器组内的剩余服务器上执行clprestore.sh --post --only-reboot
。步骤中,把服务器组内的当前服务器作为上一服务器的指南, 但是在服务器组内首先执行命令的第一台服务器不一定必须是当前服务器。另外,如果服务器组中只有一台服务器时, 就没有必要在下一个服务器组内的剩余服务器中进行clprestore.sh --post --only-reboot
。※ 当前服务器是服务器组中当前负责发送和接收镜像数据以及写入磁盘的服务器。当前系统中,启动共享型镜像磁盘资源的服务器为当前服务器。待机系统的当前服务器接收从当前系统的当前服务器发送来的镜像数据,并将其写入到待机系统的镜像磁盘。 在包含安装了4.3版之前的EXPRESSCLUSTER的服务器的集群环境中,不支持此步骤。 对于执行[clprestore.sh]命令时的服务器关机, 显示 "Some invalid status. Check the status of cluster.
" 的错误且服务器未关机时, 请稍等后再次执行[clprestore.sh]命令。 恢复后的服务器重启时,显示 "Invalid configuration file.
" 等的错误且无法重新启动时, 请确认配置信息是否登录,或者EXPRESSCLUSTER的安装和防火墙设置等是否有问题。参见
关于clprestore.sh命令请参考《参考指南》的 "EXPRESSCLUSTER命令参考" 的 "磁盘映像恢复后的处理(clprestore.sh命令)"。
2.20.1. 当前系统/待机系统的两服务器中同时恢复同一镜像磁盘映像时¶
重要
本步骤中,必须事先在镜像磁盘资源/共享型镜像磁盘资源的设置中关闭 [初始镜像构筑]。打开 [初始镜像构筑] 或 [构建初始文件系统] 时,由于会出错,所以请使用Cluster WebUI设置关闭。
正在运行失效切换组(业务)时,请停止失效切换组。
- 当前系统/待机系统的所有服务器中,请逐个执行以下命令。※ 未启动OS,必须重新安装或恢复OS和EXPRESSCLUSTER时,在此服务器中进行此作业后,请执行以下命令。
clprestore.sh --pre
注解
执行后,则集群服务自动启动设置关闭,服务器关机。
- 当前系统/待机系统的两服务器中,请恢复集群分区以及数据分区。※ 请在当前系统和待机系统中恢复同一磁盘映像。
请完成当前系统/待机系统的恢复操作后,启动所有服务器。
- 服务器启动后,请确认已恢复的集群分区或数据分区的路径。路径改变时,请启动Cluster WebUI后选择 [编辑模式], 在镜像磁盘资源/共享型镜像磁盘资源的属性的 [详细] 标签页中,更改各路径的设置后, 进行 [应用配置文件]。
重要
如果路径设置错误,则可执行会导致镜像启动失败或者分区破坏。请慎重设置。但是,如果由于路径设置错误而导致镜像无法在后续步骤中启动,请从步骤1重新开始。 - 当前系统/待机系统的两服务器中,请逐个执行以下命令。※ 对于共享型镜像磁盘,请在当前系统/待机系统的各服务器组内的1台服务器上(例如各服务器组的当前服务器上),逐个执行。
clprestore.sh --post --skip-copy
注解
运行时,则所有集群分区被初始化,集群服务自动启动设置打开,服务器重启。
注解
镜像磁盘资源/共享型镜像磁盘资源的设置中,打开 [初始镜像构筑] 时,命令出错。此时,请使用Cluster WebUI关闭 [初始镜像构筑],进行 [应用配置文件] 之后,再次执行命令。但是,由于存在已停止的服务器而导致Cluster WebUI中 [应用配置文件] 失败时,请通过 [导出配置文件] 将配置信息保存到磁盘上。请在可以访问的磁盘上,将配置信息文件展开后,使用[clpcfctrl]命令将展开后的配置信息文件强制发送到服务器中。clpcfctrl --push -x <有已打开的配置信息文件clp.conf的目录路径> --force
※ 发送完成后,可以删除保存的压缩格式文件或通过展开该文件获得的配置信息文件。※ 另外,如果服务器已停止并且无法发送时,请务必稍后也将其发送给该服务器,以免发生配置信息不一致的情况。参见
注解
但是,启动Mirror Agent时,集群分区初始化处理中命令出错。此时,执行clprestore.sh --pre
后,启动服务器,请再次执行clprestore.sh --post --skip-copy
命令。 对于共享型镜像磁盘时,已执行上述步骤6命令的服务器开始重启, 请在服务器组内的剩余所有服务器上,逐个执行以下命令。
clprestore.sh --post --only-reboot
注解
运行时,则集群服务自动启动设置打开,服务器重启。
- 请在当前系统/待机系统的所有服务器启动之后,使用Cluster WebUI或[clpmdstat] / [clphdstat]命令确认各镜像状态。当前系统/待机系统的双方的镜像状态变为"正常" (GREEN)。
镜像磁盘资源时:
clpmdstat --mirror <md资源名>
共享型镜像磁盘资源时:
clphdstat --mirror <hd资源名>
- 更改 [初始镜像构筑] 的设置时,若有必要,请使用Cluster WebUI还原设置。另外,反映设置时,必须停止集群。
2.20.2. 当前系统/待机系统的两服务器中同时恢复镜像磁盘映像时¶
参见
关于当前系统/待机系统的两系统上的镜像磁盘上恢复同一映像的步骤,请参考 "当前系统/待机系统的两服务器中同时恢复同一镜像磁盘映像时"。
正在运行失效切换组(业务)时,请停止失效切换组。
- 当前系统/待机系统的所有服务器中,请逐个执行以下命令。※ 未启动OS,必须重新安装或恢复OS和EXPRESSCLUSTER时,在此服务器中进行此作业后,请执行以下命令。
clprestore.sh --pre
注解
执行后,则集群服务自动启动设置关闭,服务器关机。
当前系统/待机系统的两服务器中,请恢复集群分区以及数据分区。
请完成当前系统/待机系统两方的恢复操作后,启动所有服务器。
- 启动后请确认已恢复的磁盘路径是否正确。路径改变时,请启动Cluster WebUI后选择 [编辑模式], 在镜像磁盘资源/共享型镜像磁盘资源的属性的 [详细] 标签页中,更改各路径的设置后, 进行 [应用配置文件]。
重要
如果路径设置错误,则可执行会导致镜像启动失败或者分区破坏。请慎重设置。但是,如果由于路径设置错误而导致镜像无法在后续步骤中启动,请从步骤1重新开始。注解
但是,由于存在已停止的服务器而导致Cluster WebUI中 [应用配置文件] 失败时,请通过 [导出配置文件] 将配置信息保存到磁盘上。请在可以访问的磁盘上,将配置信息文件展开后,使用[clpcfctrl]命令将展开后的配置信息文件强制发送到服务器中。clpcfctrl --push -x <有已打开的配置信息文件clp.conf的目录路径> --force
※ 发送完成后,可以删除保存的压缩格式文件或通过展开该文件获得的配置信息文件。※ 另外,如果服务器已停止并且无法发送时,请务必稍后也将其发送给该服务器,以免发生配置信息不一致的情况。参见
- 当前系统/待机系统的两服务器中,请逐个执行以下命令。※ 对于共享型镜像磁盘,请在当前系统/待机系统的各服务器组内的1台服务器上(例如各服务器组的当前服务器上),逐个执行。
clprestore.sh --post
注解
运行时,则集群服务自动启动设置打开,服务器重启。
对于共享型镜像磁盘时,已执行上述步骤6命令的服务器开始重启, 请在服务器组内的剩余所有服务器上,逐个执行以下命令。
clprestore.sh --post --only-reboot
注解
运行时,则集群服务自动启动设置打开,服务器重启。
- 请在当前系统/待机系统的所有服务器启动之后,使用Cluster WebUI或[clpmdstat] / [clphdstat]命令确认各镜像状态。当前系统/待机系统的双方镜像状态变成"异常" (RED)。
镜像磁盘资源时:
clpmdstat --mirror <md资源名>
共享型镜像磁盘资源时:
clphdstat --mirror <hd资源名>
请使用Cluster WebUI或者[clpstat]命令确认失效切换组的状态。
如果有启动失败的失效切换组,请使用Cluster WebUI或者[clpgrp]命令停止。
- 请使用Cluster WebUI的 [镜像磁盘] 标签页上的 [强制镜像复归] 操作,或者[clpmdctrl] / [clphdctrl]命令(--force选项), 将要作为最新的镜像状态更改为"正常" (GREEN) 。※ 通过命令执行时,在想要状态为"正常" (GREEN)的服务器上执行。
镜像磁盘资源时:
clpmdctrl --force <md资源名>
共享型镜像磁盘资源时:
clphdctrl --force <hd资源名>
使用Cluster WebUI或者[clpgrp]命令,可以在想要更新的服务器上启动(开始业务)失效切换组。
失效切换组启动后,请操作Cluster WebUI的 [镜像磁盘] 标签页上的 [全盘复制], 或者使用[clpmdctrl] / [clphdctrl]命令, 进行镜像复归。
镜像磁盘资源时:
clpmdctrl --recovery <md资源名>
共享型镜像磁盘资源时:
clphdctrl --recovery <hd资源名>
注解
启动失效切换组前,也可以使用Cluster WebUI或[clpmdctrl]/[clphdctrl]命令开始镜像复归。另外,此时在镜像复归(全面复制)完成或取消之前,失效切换组无法启动。镜像磁盘资源时:
clpmdctrl --force <复制源服务器名> <md资源名>
共享型镜像磁盘资源时:
clphdctrl --force <复制源服务器名> <hd资源名>
参见
关于[clpmdctrl]/[clphdctrl]命令请参考《参考指南》的 "EXPRESSCLUSTER命令参考" 的 "镜像磁盘资源操作(clpmdctrl命令)" "共享型镜像磁盘资源操作(clphdctrl命令)"。另外,指定--force选项(未指定复制源服务器方法:强制镜像复归)并执行时,在想状态变绿色(最新)的服务器上,执行命令。 执行后,想状态为绿色(最新)的服务器上可以启动(开始业务)失效切换组。还有,指定--force选项(指定复制源服务器方法:全面复制)并执行时,在哪台服务器上都可以执行。 执行时,则开始镜像复归(全面复制)。另外,一旦开始镜像复归,在镜像复归完成或中断之前, 无法启动失效切换组(无法开始业务)。
2.20.3. 只在单个系统恢复镜像磁盘映像时¶
当前服务器运行的状态下只恢复待机服务器镜像磁盘的步骤, 请参考“恢复虚拟机 -镜像磁盘时-”, 将“要进行恢复的服务器”替换为“要进行恢复镜像磁盘的服务器”, 然后执行步骤1(移动失效切换组)到步骤11(确认镜像同步成功)。 此时,只需为步骤4和步骤5中的镜像磁盘创建/替换虚拟硬盘即可。
当不恢复的服务器或服务器组为停止状态时, 当前服务器或服务器组的镜像磁盘只在单个机器(一方)恢复的步骤,请参考 "当前系统/待机系统的两服务器中同时恢复镜像磁盘映像时", 把表示 "双系统","两服务器" 的部分替换成 "单系统","单个服务器"。
重要
如果在此步骤中更改了配置信息(更改分区路径设置等)时,请务必稍后将更改后的配置信息也发送给无法发送的服务器。如果使用错误的路径信息,则可执行会导致镜像启动失败或者分区破坏。 不支持通过本步骤分别恢复当前服务器和待机服务器,且连接两服务器以进行操作的方法。此时,如果连接两服务器且启动后马上进行镜像复归(全盘复制)的话没有问题, 但是未进行镜像复归(全盘复制)下操作时,恐怕镜像数据会破损。参见
启动服务器而不等待启动其他服务器的情况下想马上启动集群服务时, 可以在服务器启动时通过执行以下命令解除集群启动同步等待。clpbwctrl -c如果启动同步等待尚未开始,或者启动同步等待已超时,则该命令将导致错误。
2.21. 集群启动同步等待时间¶
即使集群内所有的服务器同时接通电源,EXPRESSCLUSTER也未必能够同时启动。集群关闭后重启也是一样,EXPRESSCLUSTER未必能够同时启动。
因此,在EXPRESSCLUSTER中,某一服务器启动后,需要等待集群内其他服务器启动。
初始值设置为5分钟。该等待时间可以通过Cluster WebUI的[集群属性]-[超时]标签页中的[同步等待时间]更改。
2.22. 更改磁盘资源的文件系统¶
使用管理IP地址连接到Cluster WebUI。如果没有管理IP地址,请使用其中任何一个服务器的物理IP地址连接到Cluster WebUI。
需要更改磁盘资源的文件系统时,请按照以下步骤操作。
从Cluster WebUI的操作模式中执行[停止集群]。
- 执行以下命令。例)磁盘资源的分区设备为 /dev/sdb5 时
# clproset -w -d /dev/sdb5
通过该命令,不管EXPRESSCLUSTER在何种运行状态下,均可以读取写入磁盘资源的磁盘分区。注解
请不要将本命令用于其他目的。如果在启动了EXPRESSCLUSTER Daemon的状态下执行该命令,可执行造成文件系统损坏。
在分区设备中创建文件系统。
- 执行以下命令,将磁盘资源的分区设置为ReadOnly。例) 磁盘资源的分区设备为 /dev/sdb5 时
# clproset -o -d /dev/sdb5
从Cluster WebUI的编辑模式中更改磁盘资源的文件系统的设置信息。
从Cluster WebUI的编辑模式中上传更新了的集群配置信息。
从Cluster WebUI的操作模式中执行[启动集群]。
通过以上步骤,设置生效。
2.23. 更改镜像磁盘资源分区的位移或大小¶
开始运行以后,若要更改镜像磁盘资源中已设置的数据分区或集群分区的位移(位置)或大小,请执行以下步骤。
注解
必须按照以下步骤执行。指定为数据分区或集群分区的分区只通过fdisk进行更改的话,镜像磁盘资源将不能正常工作。
2.23.1. 在LVM上配置数据分区时¶
在LVM配置数据分区时,根据使用的文件系统,可以不重新创建资源或者不停止业务扩展数据分区。
数据分区的文件系统 |
重新创建资源 |
业务停止 |
参考 |
---|---|---|---|
xfs, ext3, ext4, 文件系统无(none) |
不需要 |
不需要 |
|
上述以外 |
需要 |
需要 |
注解
这个方法只适用于扩展时。缩小时,请执行下述"2.23.2. 在LVM以外配置数据分区时"记载的步骤。
注解
根据下述步骤扩展数据分区时,必须确保数据分区由LVM配置,且卷组的未使用PE(Physical Extent)量充足。
2.23.1.1. 使用的文件系统为ext系或xfs,或者未使用文件系统时的数据分区扩展¶
通过[clpstat]命令或Cluster WebUI确认想更改大小的镜像磁盘资源的名称。
要为意外情况做准备,在希望更改大小的镜像磁盘资源所属的组处于启动状态的服务器中,可使用磁带等备份分区内的数据。但是,不支持直接访问分区设备的备份命令。 如果丢弃镜像磁盘资源上的数据不会产生问题,则没有必要执行本步骤。
请确认以下内容。
镜像磁盘资源状态正常
两服务器间,数据分区所属的卷组的未使用PE(Physical Extent)量充足。
Cluster WebUI的操作模式下将镜像磁盘监视资源都设置为"暂停",变为不进行自动镜像复归的状态。
在镜像磁盘资源未处于启动状态的服务器上,执行以下[clpmdctrl]命令。任一服务器上未启动资源时也可以从任一服务器执行。以下是md01数据分区扩展到500GB时的示例。
# clpmdctrl --resize 500G md01
在另一台服务器上同样执行[clpmdctrl]命令。以下是md01数据分区扩展到500GB时的示例。
# clpmdctrl --resize 500G md01
数据分区上配置xfs或ext系文件系统时,在镜像磁盘资源启动的服务器上执行命令后,文件系统的对象领域扩大。
<xfs的场合># xfs_growfs /mnt/nmp1
(/mnt/nmp1是对应镜像磁盘资源的Mount point更改的)<ext的场合># resize2fs -p /dev/NMP1
(NMP1是对应镜像分区设备名更改的)数据分区上未使用文件系统时(none),不需要执行此步骤。
所有在步骤4中设置为“暂停”的镜像磁盘监视资源,通过Cluster WebUI的操作模式都“重新开始”。
重要
# clpmdctrl --resize -force 500G md01
注解
# clpmdctrl --resize 1022M md01
,则数据分区的大小为1024M,文件系统扩展的上限为1022M。注解
由于执行xfs_growfs及resize2fs中发生大量的写入,因此业务I/O的性能会降低。推荐避开负荷高的时间段执行。
2.23.1.2. 使用其他文件系统时的数据分区扩展¶
基本步骤同"2.23.2. 在LVM以外配置数据分区时"。
但是,如果使用[fdisk]更改了分区的大小,请改用[lvextend]命令扩展分区。
2.23.2. 在LVM以外配置数据分区时¶
2.23.2.1. 不更改镜像磁盘资源分区的设备名时¶
通过[clpstat]命令或Cluster WebUI确认希望更改大小的镜像磁盘资源名称。
- 在希望更改大小的镜像磁盘资源所属的组处于启动状态的服务器中,可使用磁带等备份分区内的数据。但是,不支持直接访问分区磁盘的备份命令。如果丢弃镜像磁盘资源上的数据不会产生问题,则没有必要执行本步骤。
设置为不在两台服务器上启动 EXPRESSCLUSTER 服务。
clpsvcctrl.sh --disable core
- 集群关闭以后,重启OS。在任意服务器上使用[clpstdn] 命令重启集群,或者使用Cluster WebUI重启集群。
在两台服务器上使用[fdisk]命令更改分区的位移或大小。
在两台服务器上执行以下命令。
# clpmdinit --create force <镜像磁盘资源名>
注解
镜像磁盘资源的设定中,不勾选[构建初始文件系统]时,因为不会自动执行mkfs,所以请手动对数据分区执行mkfs。
设置为不在两台服务器上启动 EXPRESSCLUSTER 服务。
clpsvcctrl.sh --disable core
使用[reboot]命令重启两台服务器。作为集群启动。
在集群启动时,执行了与集群创建后初始化镜像配置相同的处理,可以使用以下命令或使用Cluster WebUI来确认初始化镜像配置是否已完成。
# clpmdstat --mirror <镜像磁盘资源名>
在初始化镜像配置完成并启动了失效切换组之后,镜像磁盘资源变成启动状态。
- 在更改了大小的镜像分区所属的组处于启动状态的服务器中,复原备份数据。但是,不支持直接访问分区设备的备份命令。如果丢弃镜像磁盘资源上的数据不会产生问题,则没有必要执行本步骤。
2.23.2.2. 更改镜像磁盘资源分区的设备名¶
使用[clpstat]命令或使用Cluster WebUI确认要更改的镜像磁盘资源名。
- 在希望更改大小的镜像磁盘资源所属的组处于启动状态的服务器中,可使用磁带等备份分区内的数据。但是,不支持直接访问分区磁盘的备份命令。如果丢弃镜像磁盘资源上的数据不会产生问题,则没有必要执行本步骤。
设置为不在两台服务器上启动 EXPRESSCLUSTER 服务。
clpsvcctrl.sh --disable core
- 集群关闭以后,重启OS。在任意服务器上使用[clpstdn] 命令重启集群,或者使用Cluster WebUI重启集群。
在两台服务器上使用[fdisk]命令,更改分区的位移或大小。
更改上传集群配置信息。更改镜像磁盘资源时,请参考《安装&设置指南》的"更改集群配置信息"中"使用Cluster WebUI更改集群配置信息"。
在两台服务器上执行以下命令。
# clpmdinit --create force <镜像磁盘资源名>
注解
镜像磁盘资源的设定中,不勾选[构建初始文件系统]时,因为不会自动执行mkfs,所以请手动对数据分区执行mkfs。
设置为不在两台服务器上启动 EXPRESSCLUSTER 服务。
clpsvcctrl.sh --disable core
使用[reboot]命令重启两台服务器。作为集群启动。
在集群启动时,执行了与集群创建后初始化镜像配置相同的处理,可以使用以下命令或使用Cluster WebUI来确认初始化镜像配置是否已完成。
# clpmdstat --mirror <镜像磁盘资源名>
在初始化镜像配置完成并启动了失效切换组之后,镜像磁盘资源变成启动状态。
- 在已更改大小的镜像分区所属的组处于启动状态的服务器中,复原备份数据。但是,不支持直接访问分区设备的备份命令。如果丢弃镜像磁盘资源上的数据不会产生问题,则没有必要执行本步骤。
2.24. 更改共享型镜像磁盘资源分区的位移或大小¶
开始运行以后,若要更改共享型镜像磁盘资源中已设置的数据分区或集群分区的位移(位置)或大小,请执行以下步骤。
注解
必须按照以下步骤执行。指定为数据分区或集群分区的分区只通过fdisk进行更改的话,共享型镜像磁盘将不能正常工作。
2.24.1. 在LVM上配置数据分区时¶
在LVM上配置数据分区时,根据使用的文件系统,可以不重新创建资源或者不停止业务而扩展数据分区。
数据分区的文件系统 |
重新创建资源 |
业务停止 |
参考 |
---|---|---|---|
xfs, ext3, ext4, 文件系统无(none) |
不需要 |
不需要 |
|
上述以外 |
需要 |
需要 |
注解
这种方法只能扩展。缩小时,请执行下述"2.24.2. 在LVM以外配置数据分区时"记载的步骤。
注解
根据下述步骤扩展数据分区时,必须确保数据分区由LVM配置,且卷组的未使用PE(Physical Extent)量充足。
2.24.1.1. 使用的文件系统为ext或xfs,或者未使用文件系统时的数据分区扩展¶
通过[clpstat]命令或Cluster WebUI确认想更改大小的共享型镜像磁盘资源的名称。
要为意外情况做准备,在希望更改大小的共享型镜像磁盘资源所属的组处于启动状态的服务器中,可使用磁带等备份分区内的数据。但是,不支持直接访问分区设备的备份命令。 如果丢弃共享型镜像磁盘资源上的数据不会产生问题,则没有必要执行本步骤。
请确认以下内容。
共享型镜像磁盘资源状态正常
两服务器间,数据分区所属的卷组的未使用PE(Physical Extent)量充足。
Cluster WebUI的操作模式下将共享型镜像磁盘监视资源都设置为"暂停",变为不进行自动镜像复归的状态。
请只保留各服务器组的当前服务器,关闭所有的其他服务器。当前服务器可以通过clphdstat的-a选项确认。以下是确认资源hd01的当前服务器时的示例。
clphdstat -a hd01
- 在共享型镜像磁盘资源未处于启动状态的服务器组上的当前服务器中,执行以下clphdctrl命令。任一服务器组上未启动资源时也可以从任一服务器组执行。以下是hd01数据分区扩展到500GB时的示例。
# clphdctrl --resize 500G hd01
重要
任一服务器中共享型镜像磁盘资源为启动中时,请务必要从未启动的服务器组中执行。从启动的服务器组中执行则会发生镜像中断。
- 在另一服务器组上的当前服务器中同样执行以下clphdctrl命令。以下是hd01数据分区扩展到500GB时的示例。
# clphdctrl --resize 500G hd01
数据分区上构筑xfs或ext文件系统时,在共享型镜像磁盘资源启动的服务器上执行命令后,文件系统的对象领域扩大。
<xfs的场合># xfs_growfs /mnt/nmp1
(/mnt/nmp1是对应共享型镜像磁盘资源的Mount point更改的)<ext的场合># resize2fs -p /dev/NMP1
(NMP1是对应镜像分区设备名更改的)数据分区上未使用文件系统时(none),不需要执行此步骤。
所有在步骤4中设置为“暂停”的镜像磁盘监视资源,通过Cluster WebUI的操作模式都“重新开始”。
启动所有在步骤5中已关闭的服务器。
重要
# clphdctrl --resize -force 500G hd01
注解
# clphdctrl --resize 1022M hd01
,则数据分区的大小为1024M,文件系统扩展的上限为1022M。注解
由于执行xfs_growfs及resize2fs中发生大量的写入,因此业务I/O的性能会降低。推荐避开负荷高的时间段执行。
2.24.1.2. 使用其他文件系统时的数据分区扩展¶
基本步骤同"2.24.2. 在LVM以外配置数据分区时"。
但是,如果使用[fdisk]更改了分区的大小,请改用[lvextend]命令扩展分区。
2.24.2. 在LVM以外配置数据分区时¶
2.24.2.1. 不更改共享型镜像磁盘分区的设备名时¶
通过[clpstat]命令或Cluster WebUI确认希望更改大小的共享型镜像磁盘资源名称。
- 在希望更改大小的共享型镜像磁盘资源所属的组处于启动状态的服务器中,可使用磁带等备份分区内的数据。但是,不支持直接访问分区磁盘的备份命令。如果丢弃共享型镜像磁盘资源上的数据不会产生问题,则没有必要执行本步骤。
设置为不在所有服务器上启动 EXPRESSCLUSTER 服务。
clpsvcctrl.sh --disable core
- 集群关闭以后,重启OS。在任意服务器上使用[clpstdn] 命令重启集群,或者使用Cluster WebUI重启集群。
- 在服务器上使用[fdisk]命令更改分区的位移或大小。在连接有共享磁盘的服务器中,通过某一侧的服务器执行[fdisk]命令进行更改。
- 在服务器上执行以下命令。在连接有共享磁盘的服务器中,在执行了上述操作步骤的服务器中执行命令。
# clphdinit --create force <共享型镜像磁盘资源名>
- 执行mkfs在连接着共有磁盘,并且执行了上述步骤的服务器中执行mkfs命令。
# mkfs -t <文件系统类型> <数据分区>
设置为不在所有服务器上启动 EXPRESSCLUSTER 服务。
clpsvcctrl.sh --disable core
使用[reboot]命令重启全部服务器。作为集群启动。
在集群启动时,执行了与集群创建后初始化镜像配置相同的处理,可以使用以下命令或使用Cluster WebUI来确认初始化镜像配置是否已完成。
# clphdstat --mirror <共享型镜像磁盘资源名>
在初始化镜像配置完成并启动了失效切换组之后,共享型镜像磁盘资源变成启动状态。
- 在更改了大小的分区所属的组处于启动状态的服务器中,复原备份数据。但是,不支持直接访问分区磁盘的备份命令。如果丢弃共享型镜像磁盘资源上的数据不会产生问题,则没有必要执行本步骤。
2.24.2.2. 更改共享型镜像磁盘资源分区的设备名¶
使用[clpstat]命令或使用Cluster WebUI确认要更改的共享型镜像磁盘资源。
- 在希望更改大小的共享型镜像磁盘资源所属的组处于启动状态的服务器中,可使用磁带等备份分区内的数据。但是,不支持直接访问分区磁盘的备份命令。如果丢弃共享型镜像磁盘资源上的数据不会产生问题,则没有必要执行本步骤。
设置为不在所有服务器上启动 EXPRESSCLUSTER 服务。
clpsvcctrl.sh --disable core
- 集群关闭以后,重启OS。在任意服务器上使用[clpstdn] 命令重启集群,或者使用Cluster WebUI重启集群。
- 在服务器上使用[fdisk]命令更改分区的位移或大小。在连接有共享磁盘的服务器中,通过某一侧的服务器执行[fdisk]命令进行更改。
更改上传集群配置信息。更改共享型磁盘资源时,请参考《安装&设置指南》的"更改集群配置信息"中"使用Cluster WebUI更改集群配置信息"。
- 在服务器上执行以下命令。在连接有共享磁盘的服务器上,在执行上述操作步骤的服务器中执行该命令。
# clphdinit --create force <共享型镜像磁盘资源名>
在服务器上执行mkfs命令。
在连接着共有磁盘,并且执行了上述步骤的服务器中执行mkfs命令。
# mkfs -t <文件系统类型> <数据分区>
# mkfs -t <文件系统类型> <数据分区>
设置为不在所有服务器上启动 EXPRESSCLUSTER 服务。
clpsvcctrl.sh --disable core
使用[reboot]命令重启全部服务器。作为集群启动。
在集群启动时,执行了与集群创建后初始化镜像配置相同的处理,可以使用以下命令或使用Cluster WebUI来确认初始化镜像配置是否已完成。
# clphdstat --mirror <共享型镜像磁盘资源名>
在初始化镜像配置完成并启动了失效切换组之后,共享型镜像磁盘资源变成启动状态。
- 在已更改大小的分区所属的组处于启动状态的服务器中,复原备份数据。但是,不支持直接访问分区磁盘的备份命令。如果丢弃共享型镜像磁盘资源上的数据不会产生问题,则没有必要执行本步骤。
2.25. 更改服务器配置(添加,删除)¶
2.25.1. 添加服务器(不使用镜像磁盘,共享型磁盘的环境时)¶
添加服务器时,请按照以下步骤进行。
确定集群状态正常。
在要添加的服务器中安装EXPRESSCLUSTER Server。详细信息请参考《安装&设置指南》的"安装EXPRESSCLUSTER" - "设置EXPRESSCLUSTER Server" - " 安装EXPRESSCLUSTER RPM"。安装了EXPRESSCLUSTER Server的服务器在安装结束之后,必须进行重启。
通过 Web 浏览器连接到集群内的其他服务器后点击 Cluster WebUI 的编辑模式的[添加服务器]。
从Cluster WebUI 的编辑模式重新设置添加服务器的以下信息。
虚拟IP资源 [属性]->[详细]标签页中的添加服务器的发信方的IP地址信息 (使用虚拟IP资源时)。
AWS Elastic IP资源 [属性]->[详细]标签页中的添加服务器的ENI ID信息 (使用AWS Elastic IP资源时)。
AWS虚拟IP资源 [属性]->[详细]标签页中的添加服务器的ENI ID信息 (使用AWS虚拟IP资源时)。
AWS辅助IP资源 [属性]->[详细]标签页中的添加服务器的ENI ID信息 (使用AWS辅助IP资源时)。
Azure DNS资源 [属性]->[详细]标签页中的添加服务器的IP地址信息 (使用Azure DNS资源时)。
Google Cloud DNS资源 [属性]->[详细]标签页中的添加服务器的IP地址信息 (使用Google Cloud DNS资源时)。
Oracle Cloud DNS资源的 [属性]->[详细]标签页中的添加服务器的地区、区域OCID和IP地址信息 (使用Oracle Cloud DNS资源时)。
点击Cluster WebUI的编辑模式的[应用配置文件],把集群配置信息反映到集群中。
显示询问执行反映动作的画面。请按照画面反映。
从Cluster WebUI的操作模式执行已添加服务器的[开始服务器服务]。
在Cluster WebUI的操作模式中点击[刷新],通过显示的信息确认集群是否正常。
2.25.2. 添加服务器(使用镜像磁盘,共享型磁盘的环境时)¶
添加服务器时,请按以下步骤操作。
确定集群状态正常。
在要添加的服务器中安装EXPRESSCLUSTER Server。详细信息请参考《安装&设置指南》的"安装EXPRESSCLUSTER" - "设置EXPRESSCLUSTER Server" - "安装EXPRESSCLUSTER RPM "。安装了EXPRESSCLUSTER Server的服务器在安装结束之后,必须进行重启。
从Cluster WebUI的操作模式中,执行[停止集群]。
从Cluster WebUI的操作模式中,执行[停止镜像代理]。
通过Web浏览器连接集群中其他服务器点击Cluster WebUI的编辑模式中的[添加服务器]。
从Cluster WebUI的编辑模式重新设置添加服务器的以下信息。
虚拟IP资源 [属性]->[详细]标签页中的添加服务器的发信方的IP地址信息 (使用虚拟IP资源时)。
AWS Elastic IP资源 [属性]->[详细]标签页中的添加服务器的ENI ID信息 (使用AWS Elastic IP资源时)。
AWS虚拟IP资源 [属性]->[详细]标签页中的添加服务器的ENI ID信息 (使用AWS虚拟IP资源时)。
AWS辅助IP资源 [属性]->[详细]标签页中的添加服务器的ENI ID信息 (使用AWS辅助IP资源时)。
Azure DNS资源 [属性]->[详细]标签页中的添加服务器的IP地址信息 (使用Azure DNS资源时)。
Google Cloud DNS资源 [属性]->[详细]标签页中的添加服务器的IP地址信息 (使用Google Cloud DNS资源时)。
Oracle Cloud DNS资源的 [属性]->[详细]标签页中的添加服务器的地区、区域OCID和IP地址信息 (使用Oracle Cloud DNS资源时)。
在添加的服务器中使用共享型镜像磁盘时,点击Cluster WebUI的编辑模式的[服务器]的[属性]。从[服务器组]标签页添加可以启动的服务器。请仅对需要的服务器组添加可以启动的服务器。
点击Cluster WebUI的编辑模式的[应用配置文件],将集群配置信息反映到集群中。显示重新启动服务的对话框,选择[确定]。
从Cluster WebUI的操作模式中,执行[启动镜像代理]。
从Cluster WebUI的操作模式中,执行[启动集群]。
在Cluster WebUI的操作模式中点击[刷新],通过显示的信息确认集群是否正常。
2.25.3. 删除服务器(不使用镜像磁盘,共享型磁盘的环境时)¶
删除服务器时,请按照以下步骤进行。
重要
在更改集群配置中删除服务器时,请不要进行其他的更改(组资源的添加等)。
有关在要删除的服务器上注册的License,请参考以下内容。
CPU License不需要对应处理。
- 卸载EXPRESSCLUSTER时,VM node License和node License将被丢弃。如有必要,请避开License序列号和license密钥。
期间定制License不需要对应处理。如有未启动的license,会自动回收并分发到其他服务器。
确定集群状态正常。如果要删除的服务器上有已经启动的组,请将这些组移动到其他服务器上。
如果要删除的服务器已经登录在服务器组内,则点击Cluster WebUI的编辑模式的[服务器]的[属性]。在[服务器组]标签页中从可以启动的服务器内删除对象服务器。
Cluster WebUI的编辑模式中点击要删除的服务器的[删除服务器]。
点击Cluster WebUI的编辑模式的[应用配置文件],将集群配置信息反映到集群中。
显示询问执行反映动作的画面。请按照画面反映。
在Cluster WebUI的操作模式中点击[刷新],通过显示的信息确认集群是否正常。
- 已删除的服务器是集群未构筑状态。卸载要删除服务器的EXPRESSCLUSTER Server时,请参考《安装&设置指南》的"卸载/重新安装EXPRESSCLUSTER" - "卸载方法" - " 卸载EXPRESSCLUSTER Server"。此外,上述卸载步骤中包含的重启服务器,阅读时,请替换为从操作系统重启要删除的服务器来实施。
2.25.4. 删除服务器(使用镜像磁盘,共享型磁盘的环境时)¶
删除服务器时,请按以下步骤操作。
重要
通过更改集群配置删除服务器时,请勿更改后述步骤以外的设置(添加组资源等)。
有关在要删除的服务器上注册的License,请参考以下内容。
CPU License不需要对应处理。
- 卸载EXPRESSCLUSTER时,VM node License和node License将被丢弃。如有必要,请避开License序列号和license密钥。
期间定制License不需要对应处理。如有未启动的license,会自动回收并分发到其他服务器。
确定集群状态正常。如果要删除的服务器上有已经启动的组,请将这些组移动到其他服务器上。
从Cluster WebUI的操作模式中执行[停止集群]。
从Cluster WebUI的操作模式中来执行[停止镜像代理]。
Cluster WebUI 的编辑模式中点击镜像磁盘资源,共享型磁盘资源的[删除资源]。
如果要删除的服务器已经登录在服务器组内,则点击Cluster WebUI的编辑模式的[服务器]的[属性]。在[服务器组]标签页中从可以启动的服务器内删除对象服务器。
Cluster WebUI的编辑模式中点击要删除的服务器的[删除服务器]。
点击Cluster WebUI的编辑模式的[应用配置文件],将集群配置信息反映到集群中。
从Cluster WebUI的操作模式中执行[启动镜像代理] ,[启动集群]。
在Cluster WebUI的操作模式中点击[刷新],通过显示的信息确认集群是否正常。
- 已删除的服务器是集群未配置状态。卸载要删除服务器的EXPRESSCLUSTER Server时,请参考《安装&设置指南》的"卸载/重新安装EXPRESSCLUSTER" - "卸载方法" - " 卸载EXPRESSCLUSTER Server"。此外,上述卸载步骤中包含的重启服务器,阅读时,请替换为从操作系统重启要删除的服务器来实施。
2.26. 更改服务器IP地址的步骤¶
开始操作后,需要更改服务器的IP地址时,请按照以下步骤操作。
2.26.1. 更改私网IP地址/镜像磁盘连接IP地址的步骤¶
使用[clpstat]命令或Cluster WebUI确认集群内所有服务器是否正常。
- 备份集群配置信息。使用[clpcfctrl]命令创建备份。如果有生成集群时的配置信息,则可以使用该配置信息。
从Cluster WebUI的编辑模式,根据备份的集群配置信息更改服务器的IP地址后,将更改后信息保存。
禁用集群中所有服务器上的EXPRESSCLUSTER Daemon的启动设置。有关详细信息,请参考《安装&设置指南》的"操作前的准备工作"的"暂停EXPRESSCLUSTER"的"禁用EXPRESSCLUSTER Daemon"。
通过[clpstdn]命令或Cluster WebUI的操作模式关闭集群后,重启所有服务器。
更改IP地址。更改IP地址后,如果需要重启服务器,则请在更改了IP地址的服务器上使用[reboot]等命令重启。
通过[ping]等命令确认更改后的IP地址是否有效。
将集群配置信息传送给所有服务器。可以使用[clpcfctrl]命令传送配置信息数据。
启用集群中所有服务器上的EXPRESSCLUSTER Daemon的启动设置。
在集群中所有服务器上使用[reboot]等命令重启。
使用[clpstat]命令或Cluster WebUI确认集群中所有服务器是否正常。
2.26.2. 只更改私网IP地址的子网掩码¶
使用[clpstat]命令或Cluster WebUI确认集群内所有服务器是否正常。
- 备份集群配置信息。使用[clpcfctrl]命令创建备份。如果有生成集群时的配置信息,则可以使用该配置信息。
Cluster WebUI的编辑模式中,根据集群配置信息更改服务器的IP地址后,将更改后信息保存。
禁用集群中所有服务器上的EXPRESSCLUSTER Daemon的启动设置。
通过[clpstdn]命令或Cluster WebUI的操作模式关闭集群后,重启所有服务器。
更改IP地址的子网掩码。更改IP地址的子网掩码后,如果需要重启服务器,则请在更改了IP地址的子网掩码的服务器上使用[reboot]等命令重启。
通过[ping]等命令确认更改后的IP地址是否有效。
将集群配置信息传送给所有服务器。可以使用[clpcfctrl]命令传送配置信息数据。
启用集群中所有服务器上的EXPRESSCLUSTER Daemon的启动设置。
在集群中所有服务器上使用[reboot]等命令重启。
使用[clpstat]命令或Cluster WebUI确认集群中所有服务器是否正常。
2.27. 更改主机名的步骤¶
开始操作后,需要更改服务器的主机名时,请按照以下步骤操作。
2.27.1. 更改主机名的步骤¶
使用[clpstat]命令或Cluster WebUI确认集群内所有服务器是否正常。
- 备份集群配置信息。使用[clpcfctrl]命令创建备份。如果有生成集群时的配置信息,则可以使用该配置信息。
Cluster WebUI的编辑模式,根据备份的集群配置信息更改服务器的主机名后,将更改后信息保存。
禁用集群中所有服务器上的EXPRESSCLUSTER Daemon的启动设置。有关详细信息,请参考《安装&设置指南》的"操作前的准备工作 - "暂停EXPRESSCLUSTER" - 禁用EXPRESSCLUSTER Daemon"。
通过[clpstdn]命令或Cluster WebUI的操作模式关闭集群后,重启所有服务器。
更改主机名。更改主机名后,如果需要重启服务器,则请在更改了主机名的服务器上使用[reboot]等命令重启。
通过[ping]等命令确认更改后的主机名是否有效。
将集群配置信息传送给所有服务器。可以使用[clpcfctrl]命令传送配置信息数据。执行[clpcfctrl]命令时--nocheck选项是必须的。
注解
检查集群配置信息时,请在发送集群配置信息之前执行此操作。
启用集群中所有服务器上的EXPRESSCLUSTER Daemon的启动设置。
在集群中所有服务器上使用[reboot]等命令重启。
使用[clpstat]命令或Cluster WebUI确认集群中所有服务器是否正常。
2.28. 不停止组追加资源的步骤¶
对应了动态资源追加的相应的资源,在运用开始后,能够在组不停止的情况下被追加到组。
目前,支持动态资源追加的资源如下所示。
组资源名 |
略称 |
支持版本 |
---|---|---|
EXEC 资源 |
exec |
4.0.0-1~ |
磁盘资源 |
disk |
4.0.0-1~ |
浮动IP资源 |
fip |
4.0.0-1~ |
虚拟IP资源 |
vip |
4.0.0-1~ |
卷管理资源 |
volmgr |
4.0.0-1~ |
参见
运用开始后,执行动态资源追加时请遵循以下步骤。
2.28.1. 动态资源追加步骤¶
使用[clpstat]命令或Cluster WebUI确认集群内所有服务器是否正常。
使用[clpstat]命令或Cluster WebUI确认追加资源的组内所有的资源是否正常启动。
使用Cluster WebUI的编辑模式添加资源到组后,保存。
使用[clpcl --suspend]命令或Cluster WebUI的操作模式暂停集群。
- 发送配置集群配置信息到所有服务器。使用[clpcfctrl]命令发信。执行如下的命令进行动态资源的追加。根据用Cluster WebUI的编辑模式保存的配置信息的种类执行以下步骤之一。
clpcfctrl --dpush -x <配置信息的路径>
使用[clpcl --resume]命令或Cluster WebUI的操作模式恢复集群。
使用[clpstat]命令或Cluster WebUI确认资源是否被追加。
参见
有关[clpcfctrl]的疑难解答,请参考《参考指南》的"EXPRESSCLUSTER命令参考"的"更改集群配置信息,备份集群配置信息,检查集群配置信息(clpcfctrl命令)"。
2.29. 更新镜像磁盘资源/共享型镜像磁盘资源的加密密钥¶
更新镜像磁盘资源和共享型镜像磁盘资源进行镜像通信时所使用的加密密钥时,按以下步骤实施。
注解
以下步骤,可在保持镜像磁盘资源和共享型镜像磁盘资源处于启动状态下执行。但是,如果正在进行镜像,则镜像将被中断,因此请在完成该步骤后执行镜像复归。
使用openssl命令,生成新的加密密钥文件。
openssl rand 32 -out newkeyfile.bin
用步骤1生成的文件覆盖可启动镜像磁盘资源和共享型镜像磁盘资源的所有服务器的加密密钥文件(文件名保持不变)。
请执行clpmdctrl或clphdctrl的--updatekey选项。
镜像磁盘资源的场合
clpmdctrl --updatekey md01
共享型镜像磁盘资源的场合
clphdctrl --updatekey hd01
对于镜像磁盘资源,它可以在任何服务器上执行,对于共享型镜像磁盘资源,它只能在任一当前服务器上执行一次,以更新所有需要更新的服务器的密钥信息。这时,如果正在进行镜像,则镜像将会中断。加密密钥信息更新完成。之后,使用新的加密密钥进行镜像通信的加密和解密。
如有必要,请执行镜像复归重新开始镜像。