1. 前言

1.1. 读者对象及用途

《EXPRESSCLUSTER X 维护指南》以管理员为对象,对维护相关信息进行了说明。请参考在操作集群时所需的信息。

1.2. 本手册的构成

  • 2. 维护信息: 对进行EXPRESSCLUSTER维护时所需的信息进行了说明。

1.3. EXPRESSCLUSTER X手册体系

EXPRESSCLUSTER X 的手册分为以下 6 类。各指南的标题和用途如下所示。

EXPRESSCLUSTER X 开始指南》(Getting Started Guide)

本手册的读者对象为使用EXPRESSCLUSTER的用户,对产品概要、运行环境、升级信息、现有的问题等进行了说明。

EXPRESSCLUSTER X 安装&设置指南》(Install and Configuration Guide)

本手册的读者对象为导入使用EXPRESSCLUSTER的集群系统的系统工程师以及导入集群系统后进行维护和操作的系统管理员,对导入使用EXPRESSCLUSTER的集群系统后到开始操作前的必备事项进行说明。手册按照实际导入集群系统时的顺序,对使用EXPRESSCLUSTER 的集群系统的设计方法、EXPRESSCLUSTER 的安装设置步骤、设置后的确认以及开始操作前的测试方法进行了说明。

EXPRESSCLUSTER X 参考指南》(Reference Guide)

本手册的读者对象为管理员以及使用EXPRESSCLUSTER导入集群系统的系统工程师。手册对EXPRESSCLUSTER的操作步骤、各模块的功能以及疑难解答信息等进行了说明。是对《EXPRESSCLUSTER X 安装&设置指南》的补充。

《EXPRESSCLUSTER X 维护指南》(Maintenance Guide)

本手册的读者对象为管理员以及导入使用EXPRESSCLUSTER的集群系统后进行维护和操作的系统管理员,对EXPRESSCLUSTER的维护的相关信息进行了说明。

EXPRESSCLUSTER X 硬件整合指南》 (Hardware Feature Guide)

本手册的读者对象为管理员以及导入使用EXPRESSCLUSTER的集群系统的系统工程师,对特定的硬件以及与其整合的功能进行说明。是对《EXPRESSCLUSTER X 安装&设置指南》的补充。

EXPRESSCLUSTER X 兼容功能指南》(Legacy Feature Guide)

本手册的读者对象为管理员以及导入使用EXPRESSCLUSTER的集群系统的系统工程师,对EXPRESSCLUSTER X 4.0 WebManager以及Builder的相关信息等进行了说明。

1.4. 本手册的标记规则

在本手册中,需要注意的事项、重要的事项以及相关信息等用如下方法标记。

注解

表示虽然比较重要,但是并不会引起数据损失或系统以及机器损伤的信息。

重要

表示为避免数据损失和系统、机器损坏所必需的信息。

参见

表示参考信息的位置。

另外,在手册中使用以下标记法。

标记

使用方法

[ ]方括号
在命令名的前后,
显示在画面中的字句 (对话框、菜单等) 的前后。
点击[开始]。
[属性]对话框

命令行中的[ ]方括号

表示括号内的值可以不予指定(可省)。

clpstat -s[-h host_name]

#

表示Linux用户正以root身份登录的提示符。

# clpcl -s -a

等宽字体
(courier)
路径名、命令行、系统输出(消息、提示等)、目录、文件名、函数、参数。
/Linux/4.2/cn/server/
等宽字体
粗体
(courier)
表示用户在命令提示符后实际输入的值。
输入以下内容。
clpcl -s -a
等宽字体
斜体
(courier)
用户将其替换为有效值后输入的项目。
rpm -i expresscls -<版本编号>-<发行编号>.x86_64.rpm

1.5. 最新信息来源

关于最新的产品信息,请参考以下Web站点。

2. 维护信息

本章介绍进行EXPRESSCLUSTER的维护时所需的信息,介绍所管理资源的详细信息。

本章包含以下内容。

2.1. EXPRESSCLUSTER的目录结构

注解

安装目录下有《参考指南》的 "EXPRESSCLUSTER 命令参考"中未记载的执行文件或脚本文件,请勿用EXPRESSCLUSTER以外的应用程序执行。由于执行该文件造成不良影响时将不予以维护支持。

EXPRESSCLUSTER的目录结构如下。

  1. 警报同步目录
    该目录保存EXPRESSCLUSTER警报同步的模块以及管理文件。
  2. 集群模块目录
    该目录保存EXPRESSCLUSTER Server的执行文件。
  3. 集群配置信息目录。
    该目录保存集群配置信息文件、各模块的策略文件。
  4. 集群驱动程序目录
    • 镜像驱动程序
      该目录保存数据镜像驱动程序的执行文件。
    • 内核模式LAN心跳线、keepalive驱动程序
      保存内核模式LAN心跳线、keepalive驱动程序的执行文件。
  5. 集群配置信息目录
    该目录保存集群配置信息文件、各模块的策略文件。
  6. HA产品目录
    存储了Java Resource Agent, System Resource Agent的二进制、设置文件。
  7. 集群库目录
    该目录保存EXPRESSCLUSTER Server的库。
  8. License目录
    该目录保存License产品的License。
  9. 模块日志目录
    该目录保存各模块输出的日志。
  10. 通告消息(警报、syslog、mail)目录
    该目录保存各模块通告警报、syslog、mail时的消息。
  11. 镜像磁盘、共享型镜像磁盘
    保存镜像磁盘、共享型镜像磁盘使用的模块的执行文件、策略文件等。
  12. 性能日志目录
    存储了磁盘、系统的性能信息。
  13. 组资源的EXEC资源脚本目录
    该目录保存组资源的EXEC资源的脚本。
  14. 复归脚本目录
    查出组资源及监视资源异常时,如已设定[在最终动作前执行脚本],则保存该功能运行的脚本。
  15. 临时文件目录
    该目录保存收集log时的存档文件。
  16. WebManager服务器、Cluster WebUI目录
    该目录保存WebManager服务器的模块以及管理文件。
  17. 模块操作目录
    是各模块的操作目录。
  18. /usr/lib64
    该目录保存EXPRESSCLUSTER Server库的符号链接。
  19. /usr/sbin
    该目录保存EXPRESSCLUSTER Server的执行格式文件的符号链接。
  20. /etc/init.d
    init.d环境时,该目录保存EXPRESSCLUSTER服务的启动/退出脚本。
  21. /lib/systemd/system (SUSE Linux时,/usr/lib/ systemd/system)
    systemd环境时,该目录保存EXPRESSCLUSTER服务的设置文件。

2.2. 关于EXPRESSCLUSTER的日志结构

EXPRESSCLUSTER安装目录下log目录结构如下。

  1. EXPRESSCLUSTER服务的日志

    EXPRESSCLUSTER服务的日志的种类/版本结构如下。

    init_*.start.cur : 当前服务启动时日志
    init_*.start.pre : 上一版本的服务启动时日志
    init_*.stop.cur : 当前服务停止时日志
    init_*.stop.pre : 上一版本服务停止时日志
    • * 为各服务固有字符串。
      evt : clusterpro_evt
      trn : clusterpro_trn
      ib : clusterpro_ib
      api : clusterpro_api
      md : clusterpro_md
      main : clusterpro
      webmgr : clusterpro_webmgr
      alert : clusterpro_alertsync
    • 日志级别/大小无法更改。

    • 版本2之前的日志自动轮换。版本2以上会删除较早的日志。

  2. 各模块的内部日志

    EXPRESSCLUSTER内部日志在各模块中的种类/版本结构如下。

    *.log.cur : 当前内部日志
    *.log.pre : 上一版本的内部日志
    *.err.cur : 当前的错误日志
    *.err.pre : 上一版本的错误日志
  3. 发生异常时的日志

    EXPRESSCLUSTER处理发生异常时,收集紧急信息。

    关于采集内容,请参考《参考指南》的"EXPRESSCLUSTER命令参考" - "收集日志(clplogcc命令)" - "发生异常时的信息采集"。

    elog_*0.tar.gz : 发生异常时的当前日志
    elog_*1.tar.gz : 发生异常时的上一版本日志
    elog_*4.tar.gz : 发生异常时的4个版本前的日志
    • * 中是模块名。
      pm : EXPRESSCLUSTER服务启动/停止异常时
      rc : 组资源激活/不激活异常时
      rm : 查出监视资源异常时
    • 发生异常时的信息可保存5个版本的量。(仅有rm可保存10个版本量)
      5个版本以上时,会依次覆盖较早的版本。
    • 日志级别/大小无法更改。

2.3. EXPRESSCLUSTER 的日志、警报的删除方法

删除EXPRESSCLUSTER的日志、警报时,按照以下的步骤执行。

  1. 在集群内的所有服务器上禁用服务。

    clpsvcctrl.sh --disable -a

  2. 通过Cluster WebUI或者clpstdn命令执行机群关闭、重启,然后再启动。

  3. 要删除日志,请删除以下目录中的文件、目录。请在要删除的日志的服务器上执行。

    • /opt/nec/clusterpro/log/

  4. 要删除警报,请删除以下目录中的文件。请在要删除的日志的服务器上执行。

    • /opt/nec/clusterpro/alert/log/

  5. 在集群内的所有服务器上启动服务。

    clpsvcctrl.sh --disable -a

  6. 在集群内的所有服务器执行reboot命令,重新启动。

2.4. 镜像统计信息采集功能

在Cluster WebUI的设置模式中,若选中[集群属性]中[镜像]标签页的[收集统计信息]复选框,则会采集镜像性能相关的信息,并在安装路径/perf/disk中按以下的文件名规则保存。在以下描述语句中,将本文件记为镜像统计信息文件。

nmpN.cur
nmpN.pre[X]

cur

表示为最新的信息输出路径。

pre

表示为转储前的信息输出路径。

N

表示为对象的NMP序号。

[X]

表示世代号。
第1代之前的情况下则省略。
第m代之前的情况下,X为m-1的值。
所有世代数为n时,最早的文件中X为n-2的值。

采集的信息保存到镜像统计信息文件中。统计信息到本文件的输出间隔(=每次取样时隔)为60秒。文件大小为16MB时Rotate,可保存2个版本。使用镜像统计信息文件中记载的信息,可作为调整镜像功能的参考。采集的统计信息包含以下项目。

注解

采集的镜像统计信息通过clplogcc指令或Cluster WebUI以日志收集采集。

请在以clplogcc命令收集日志时指定type5,以Cluster WebUI收集日志时指定pattern5。有关收集日志的详细信息,请参考《参考指南》的 "EXPRESSCLUSTER命令参考" 的 "收集日志(clplogcc命令)",或者在线版手册。

统计值名
单位
描述
输出
Write, Total
(Write量)
字节
(MB)
Write到镜像分区的数据总量。
输出值为每次取样时Write的数据量。
LOG,
CMD
(运行)
Write, Avg
(Write量、平均值)
字节/秒
(MB/s)
单位时间内Write到镜像分区的数据量。
LOG,
CMD
(运行)
Read, Total
(Read量)
字节
(MB)
从镜像分区中的Read的数据总量。
输出的值为每次取样时Read的数据量。
LOG,
CMD
(运行)
Read, Avg
(Read量、平均值)
字节/秒
(MB/s)
单位时间内从镜像分区Read的数据量。
LOG,
CMD
(运行)
Local Disk Write, Total
(本地磁盘Write量)
字节
Write到本地磁盘(数据分区)的数据总量。
输出值为每次取样时Write的数据量。
LOG
(两个)
Local Disk Write, Avg
(本地磁盘平均Write量)
字节/秒
单位时间内Write到本地磁盘(数据分区)的数据量。
LOG
(两个)
Local Disk Read, Total
(本地磁盘Read量)
字节
从本地磁盘(数据分区)中Read的数据总量。
输出的值为每次取样时Read的数据量。
LOG
(两个)
Local Disk Read, Avg
(本地磁盘平均Read量)
字节/秒
单位时间内从本地磁盘(数据分区)Read的数据量。
LOG
(两个)
Send, Total
(镜像通信量、合计值)
字节
(KB)
此为镜像磁盘连接中发送的镜像通信总量。

输出的值为每次取样时的通信量。
不包含TCP的控制信息等。
LOG,
CMD
(两个)
Send, Avg
(镜像通信量、平均值)
字节/秒
(KB/s)
此为单位时间内镜像磁盘连接中发送的镜像通信量。
LOG,
CMD
(两个)
Compress Ratio
(压缩率)
%
此为镜像数据的压缩率。
(压缩后的大小)÷(压缩前的大小)
×100

非压缩的情况下为100。
输出的值以以每次取样时进行的通信数据为基础,计算输出的值。
LOG
(运行)
Sync Time, Max
(镜像通信时间、最大值)
秒/次
此为对镜像同步数据进行1个同步所用的时间。
输出的值为所用时间最长的镜像同步数据的时间。

由于不能通信等原因,无法同步(镜像中断)的镜像同步数据不在对象之内。
另外,输出的值以每次取样时的通信为对象。
LOG,
CMD
(运行)
Sync Time, Avg
(镜像通信时间、平均值)
秒/次
此为对镜像同步数据进行1个同步所用的时间。
输出的值为每次通信所用的平均时间。

由于不能通信等原因,无法同步(镜像中断)的镜像同步数据不在对象之内。
另外,输出的值以每次取样时的通信为对象。
LOG,
CMD
(运行)
Sync Ack Time, Max
(镜像同步的ACK响应时间、最大值)
毫秒
发送镜像同步数据到对方服务器后,从对方服务器接收到ACK所用的时间。输出的值为其中的最大值。
决定镜像磁盘资源或共享型镜像磁盘资源中设置的[镜像驱动]标签页的[Ack超时]时,作为参考值使用。

另外,ACK超时的镜像同步数据不在计算的对象之内。
同时,输出的值为镜像Daemon(镜像Agent)启动后的值。
LOG
(运行)
Sync Ack Time, Cur
(镜像同步的ACK响应时间、最新值)
毫秒
镜像同步数据的ACK接收所用的时间中,最后的ACK接收所用值。3

另外,ACK超时的镜像同步数据不在计算的对象之内。
LOG
(运行)
Recovery Ack Time, Max
(镜像复归的ACK响应时间、最大值)
毫秒
发送镜像复归数据到对方服务器后,从对方服务器接收到ACK所用的时间。
输出的值为其中的最大值。

决定镜像磁盘资源或共享型镜像磁盘资源中设置的[镜像驱动]标签页的[Ack超时]时,作为参考值使用。

另外,ACK超时的镜像同步数据不在计算的对象之内。
同时,输出的值为镜像Daemon(镜像Agent)启动后的值。
LOG
(运行)
Recovery Ack Time, Max2
(镜像复归的ACK响应时间、固定时间中的最大值)
毫秒
发送镜像复归数据到对方服务器后,从对方服务器接收到ACK所用时间的最大值。

输出的值为1个抽样期间中的最大值。

另外,ACK超时的镜像同步数据不在计算的对象之内。
LOG
(运行)
Recovery Ack Time, Cur
(镜像复归的ACK响应时间、最新值)
毫秒
发送镜像复归数据到对方服务器后,从对方服务器接收到ACK所用的时间。
输出的值为最后接收ACK的值。

另外,ACK超时的镜像同步数据不在计算的对象之内。
LOG
(运行)
Sync Diff, Max
(差异量、最大值)
字节
(MB)
向对方服务器的同步没有完成的镜像同步数据量。输出的值为各次取样时的最大值。

由于不能通信等原因,无法同步(镜像中断)的镜像同步数据不在对象之内。
LOG,
CMD
(运行)
Sync Diff, Cur
(差异量、最新值)
字节
(MB)
向对方服务器的同步没有完成的镜像同步数据量。输出的值为采集时的最新值。

由于不能通信等原因,无法同步(镜像中断)的镜像同步数据不在对象之内。
LOG,
CMD
(运行)
Send Queue, Max
(发送队列数、最大值)
发送镜像同步数据时使用的队列数。输出的值为镜像Daemon(镜像Agent)启动后的最大值。

决定镜像磁盘资源或共享型镜像磁盘资源中设置的[非同步]模式的[队列数]时,作为参考值使用。
LOG
(运行)
Send Queue, Max2
(发送队列数、固定期间内的最大值)
发送镜像同步数据时使用的队列数。输出的值为1个抽样期间内的最大值。
LOG
(运行)
Send Queue, Cur
(发送队列数、最新值)
发送镜像同步数据时使用的队列数。输出的值为采集时的最新值。
LOG
(运行)
Request Queue, Max
(请求队列数、最大值)
向镜像分区发送的、正在处理的I/O请求个数。输出的值为镜像Daemon(镜像Agent)启动后的最大值。

决定集群属性[镜像驱动]标签页的[请求队列最大值]时,作为参考值使用。
LOG
(运行)
Request Queue, Max2
(请求队列数、固定期间内的最大值)
向镜像分区发送的、正在处理的I/O请求个数。输出的值为1个抽样期间内的最大值。
LOG
(运行)
Request Queue, Cur
(请求队列数、最新值)
向镜像分区发送的、正在处理的I/O请求个数。输出的值为采集时的最新值。
LOG
(运行)
MDC HB Time, Max
(镜像磁盘连接的心跳时间、最大值)
镜像磁盘连接中,向对方服务器发送ICMP的ECHO后,从对方服务器接收到ICMP的ECHO REPLY所用的时间。
输出的值为镜像Daemon(镜像Agent)启动后的最大值。
LOG
(两个)
MDC HB Time, Max2
(镜像磁盘连接的心跳时间、固定期间内的最大值)
镜像磁盘连接中,向对方服务器发送ICMP的ECHO后,从对方服务器接收到ICMP的ECHO REPLY所用的时间。
输出的值为1个抽样期间内的最大值。
LOG
(两个)
MDC HB Time, Cur
(镜像磁盘连接的心跳时间、最新值)
镜像磁盘连接中,向对方服务器发送ICMP的ECHO后,从对方服务器接收到ICMP的ECHO REPLY所用的时间。
输出的值为采集时的最新值。
LOG
(两个)
Local-Write Watiting Recovery-Read Time, Total
(镜像同步的I/O互斥时间、合计值)
镜像复归过程中,向磁盘的同一空间发生Write时,在这一空间的镜像复归处理完成前,保留Write。
输出的值为镜像Daemon(镜像Agent)启动后保留时间的累积值。

加大集群属性中[镜像Agent]标签页的[复归数据的大小]后,此保留时间可能会变长。作为决定上述内容的参考值使用。
LOG
(运行)
Local-Write Watiting Recovery-Read Time, Total2
(镜像同步的I/O互斥时间、固定期间内的累计)
镜像复归过程中,向磁盘的同一空间发生Write时,在这一空间的镜像复归处理完成前,保留Write。
输出的值为1个抽样期间内的保留时间的累积值。
LOG
(运行)
Recovery-Read Waiting Local-Write Time, Total
(镜像复归的I/O互斥时间、合计值)
向镜像分区Write的过程中,在磁盘的同一空间发生镜像复归数据的Read时,在对同一空间的Write处理完成之前会保留镜像复归数据的Read。
输出的值为镜像Daemon(镜像Agent)启动后保留时间的累积值。

加大集群属性中[镜像Agent]标签页的[复归数据的大小]后,此保留时间可能会变长。作为决定上述内容的参考值使用。
LOG
(运行)
Recovery-Read Waiting Local-Write Time, Total2
(镜像复归的I/O互斥时间、固定期间内的合计值)
向镜像分区Write的过程中,在磁盘的同一空间发生镜像复归数据的Read时,在对同一空间的Write处理完成之前会保留镜像复归数据的Read。
输出的值为1个抽样期间内的保留时间的累积值。
LOG
(运行)
Unmount Time, Max
(Unmount时间、最大值)
镜像磁盘资源或共享型镜像磁盘资源进行非激活时,执行unmount处理所用的时间。

决定镜像磁盘资源或共享型镜像磁盘资源中设置的[Unmount]标签页中[超时]时,作为参考值使用。
LOG
(运行)
Unmount Time, Last
(Unmount时间、最新值)
镜像磁盘资源或共享型镜像磁盘资源进行非激活时,执行unmount处理所用的时间。
输出的值为最后执行unmount处理时的值。
LOG
(运行)
Fsck Time, Max
(fsck时间、最大值)
镜像磁盘资源或共享型镜像磁盘资源进行激活时,执行fsck处理所用的最大时间。

决定镜像磁盘资源或共享型镜像磁盘资源中设置的[Fsck]标签页中[fsck超时]时,作为参考值使用。
LOG
(运行)
Fsck Time, Last
(fsck时间、最新值)
镜像磁盘资源或共享型镜像磁盘资源进行激活时,执行fsck处理所用的时间。
输出的值为最后执行fsck处理时的值。
LOG
(运行)
1
括号内的单位为通过命令显示时的单位。输出时,将会输出保留小数点后两位的值。因此,小数点后第3位及以后的值将会舍去。
换算时的变换规则如下。
1KB=1024字节、1MB=1048576字节。
舍去后为0时,则输出"0.00"。没有舍去也为0时,则会在命令中输出"None",在镜像统计信息文件中输出"0"。
2
CMD ... 在命令(clpmdstat, clphdstat)中可视的信息。
LOG ... 输出到镜像统计信息文件的信息。
(运行) ... 运行服务器时输出有效值。待机服务器时保持值,或者为0。
(两个) ... 运行服务器/待机服务器中的任一状态均可输出有效值。
此外,服务器中登录为统计信息的值只是该服务器的信息,并不作为对方服务器的信息来登录。
3(1,2,3,4)
模式为「同步」时,为「从发送镜像同步数据后,到接收到对方服务器发出的ACK为止所需的时间」。
模式为「异步」时,为「从镜像同步数据装载了同步用的队列后,到接收到对方服务器发出的ACK为止所需的时间」。

只有Cluster WebUI中"集群的属性"的"镜像Agent"标签页的"收集统计信息"为有效时,才可通过命令显示。

2.5. 系统资源统计信息采集功能

Cluster WebUI 的设置模式下在[集群的属性]的[监视]标签页中选中"收集系统资源信息"复选框时,集群中添加了系统监视资源或者进程资源监视资源时,采集系统资源相关信息,并以以下文件名规则保存在安装路径/perf/system下。本文件是文本形式(CSV)。以下说明文中本文件作为系统资源统计信息文件说明。

system.cur
system.pre

cur

表示为最新信息的输出目标。

pre

表示已转储的以前的信息输出目标。

采集的信息保存到系统资源统计信息文件中。统计信息到本文件的输出间隔(=每次取样时隔)为60秒。文件大小为16MB时Rotate,可保存2个版本。使用系统资源统计信息文件中记载的信息,可作为性能分析系统的参考。采集的统计信息包含以下项目。

统计值名

单位

说明

CPUCount

CPU数

CPUUtilization

%

CPU使用率

CPUTotal

10毫秒

CPU总时间

CPUUser

10毫秒

用户模式下的消耗时间

CPUNice

10毫秒

优先级低的用户模式下的消耗时间

CPUSystem

10毫秒

系统模式下的消耗时间

CPUIdle

10毫秒

等待任务消耗时间

CPUIOWait

10毫秒

I/O的完成等待时间

CPUIntr

10毫秒

中断处理时间

CPUSoftIntr

10毫秒

软件中断时间

CPUSteal

10毫秒

虚拟环境使用时,其他OS中消耗的时间

MemoryTotalSize

字节(KB)

总内存量

MemoryCurrentSize

字节(KB)

内存使用量

MemoryBufSize

字节(KB)

缓冲大小

MemoryCached

字节(KB)

缓存内存大小

MemoryMemFree

字节(KB)

空余内存容量

MemoryDirty

字节(KB)

磁盘写入待机中的内存

MemoryActive(file)

字节(KB)

缓冲 or 页面缓存内存

MemoryInactive(file)

字节(KB)

空余缓冲 or 空余页面缓存内存

MemoryShmem

字节(KB)

共享内存大小

SwapTotalSize

字节(KB)

可以使用的互换大小

SwapCurrentSize

字节(KB)

使用中的互换大小

SwapIn

swap in次数

SwapOut

swap out次数

ThreadLimitSize

线程上限值

ThreadCurrentSize

当前线程数

FileLimitSize

打开文件数的上限

FileCurrentSize

当前的打开文件数

FileLimitinode

系统全体的inode数

FileCurrentinode

当前的inode数

ProcessCurrentCount

当前的总进程数

记载了被输出的系统资源统计信息文件的示例。

  • system.cur

    "Date","CPUCount","CPUUtilization","CPUTotal","CPUUser","CPUNice","CPUSystem","CPUIdle","CPUIOWait","CPUIntr","CPUSoftIntr","CPUSteal","MemoryTotalSize","MemoryCurrentSize","MemoryBufSize","MemoryCached","MemoryMemFree","MemoryDirty","MemoryActive(file)","MemoryInactive(file)","MemoryShmem","SwapTotalSize","SwapCurrentSize","SwapIn","SwapOut","ThreadLimitSize","ThreadCurrentSize","FileLimitSize","FileCurrentSize","FileLimitinode","FileCurrentinode","ProcessCurrentCount"
    "2019/10/31 15:44:50","2","0","34607369","106953","59","23568","34383133","89785","0","3871","0","754236","231664","948","334736","186888","12","111320","167468","50688","839676","0","0","0","5725","183","71371","1696","22626","22219","121"
    "2019/10/31 15:45:50","2","0","34619340","106987","59","23577","34395028","89816","0","3873","0","754236","231884","948","334744","186660","12","111320","167476","50688","839676","0","0","0","5725","183","71371","1696","22867","22460","121"
    "2019/10/31 15:46:50","2","0","34631314","107022","59","23586","34406925","89846","0","3876","0","754236","231360","948","334764","187164","4","111348","167468","50688","839676","0","0","0","5725","183","71371","1696","22867","22460","121"
                                           :
    

2.6. 集群统计信息采集功能

Cluster WebUI 的设置模式下在[集群属性]的[扩展]标签页中选中"收集统计信息"复选框时,组的失效切换或组资源的启动、监视资源的监视处理等,采集每个处理结果和所需时间的信息。本文件是文本形式(CSV)。以下说明文中本文件作为集群统计信息文件说明。

  • group.cur
    group.pre

    cur

    表示为最新信息的输出目标。

    pre

    表示已转储的以前的信息输出目标。

    保存目标

    安装路径/perf/cluster/group/

  • 组资源

    组资源的每个类型输出到相同文件中。

    [组资源类型].cur
    [组资源类型].pre

    cur

    表示为最新信息的输出目标。

    pre

    表示已转储的以前的信息输出目标。

    保存目标

    安装路径/perf/cluster/group/

  • 监视资源

    监视资源的每个类型输出到相同文件中。

    [监视资源类型].cur
    [监视资源类型].pre

    cur

    表示为最新信息的输出目标。

    pre

    表示已转储的以前的信息输出目标。

    保存目标

    安装路径/perf/cluster/monitor/

注解

集群统计信息文件通过clplogcc指令或Cluster WebUI以日志收集采集。

请在以clplogcc命令收集日志时指定type6,以Cluster WebUI收集日志时指定pattern6。有关收集日志的详细信息,请参考《参考指南》的"EXPRESSCLUSTER命令参考"的"收集日志(clplogcc命令)",或者在线版手册。

定时输出统计信息到集群统计信息文件如下。

  • 4

  • 组启动处理完成时

  • 组停止处理完成时

  • 组移动处理完成时 5

  • 失效切换处理完成时 5

  • 组资源

  • 组资源启动处理完成时

  • 组资源停止处理完成时

  • 监视资源

  • 监视处理完成时

  • 监视状态更改处理完成时

4

组资源单个启动/单个停止时组的统计信息不输出。

5(1,2)

组的移动/失效切换时的统计信息输出到移动/失效切换目标的服务器。

收集的统计信息中包含以下内容。

统计值名

说明

Date
统计信息的输出时间。
以以下形式输出。(000为毫秒)
YYYY/MM/DD HH:MM:SS.000

Name

组/组资源/监视资源的名字。

Action

执行的处理名称。
输出以下字符串。
组时: Start(启动时), Stop(停止时), Move(移动/失效切换时)
组资源时: Start(激活时), Stop(非激活时)
监视资源时: Monitor(执行监视处理时)

Result

执行的处理结果名称。
输出以下字符串。
成功时: Success (监视正常, 激活/非激活正常)
失败时: Failure (监视异常, 激活/非激活异常)
警告时: Warning(只监视时, 警告时)
超时时: Timeout (监视超时)
取消时: Cancel(处理取消(组启动中的集群停止等))

ReturnCode

执行处理的返回值。

StartTime

执行处理的开始时间。
以以下形式输出。(000为毫秒)
YYYY/MM/DD HH:MM:SS.000

EndTime

执行处理的结束时间。
以以下形式输出。(000为毫秒)
YYYY/MM/DD HH:MM:SS.000

ElapsedTime(ms)

执行的处理所需时间。(单位:毫秒)
以毫秒表记输出。

以下配置示例就启动组时输出的统计信息文件示例进行了说明。

    • 组名: failoverA

  • 所属组 (failoverA) 的组资源

    • exec 资源
      资源名: exec01, exec02, exec03
  • group.cur

    "Date","Name","Action","Result","ReturnCode","StartTime","EndTime","ElapsedTime(ms)"
    "2018/12/19 09:44:16.925","failoverA","Start","Success",,"2018/12/19 09:44:09.785","2018/12/19 09:44:16.925","7140"
                                   :
    
  • exec.cur

    "Date","Name","Action","Result","ReturnCode","StartTime","EndTime","ElapsedTime(ms)"
    "2018/12/19 09:44:14.845","exec01","Start","Success",,"2018/12/19 09:44:09.807","2018/12/19 09:44:14.845","5040"
    "2018/12/19 09:44:15.877","exec02","Start","Success",,"2018/12/19 09:44:14.847","2018/12/19 09:44:15.877","1030"
    "2018/12/19 09:44:16.920","exec03","Start","Success",,"2018/12/19 09:44:15.880","2018/12/19 09:44:16.920","1040"
                                        :
    

2.6.1. 有关集群统计信息文件的文件容量的注意事项

集群统计信息文件大小可以设置 1~99MB 。根据配置集群统计信息文件生成的数有所不同。因配置而生成大容量文件,请检查符合配置的集群统计信息的大小设置。集群统计信息文件的最大大小按照以下方式计算。

集群统计信息的文件大小 =

([组的文件大小] x (版本数(2)) +
([组资源的文件大小] x [被设置的组资源的类型数]) x (版本数(2)) +
([监视资源的文件大小] x [被设置的监视资源的类型数]) x (版本数(2))

例: 下记配置示例中保存的集群统计信息文件的合计最大大小是 232MB。(((1MB) x 2) + ((3MB x 5) x 2) + ((10MB x 10) x 2) = 232MB)

  • 组 (文件大小: 1MB)

  • 组资源类型数: 5 (文件大小: 3MB)

  • 监视资源类型数: 10 (文件大小: 10MB)

2.7. 通信端口信息

EXPRESSCLUSTER中默认使用以下端口号。关于端口号,为了让EXPRESSCLUSTER能够使用端口,请更改防火墙的设定。

AWS环境,除了防火墙,在安全组设定中也请将如下端口号设置为能访问。

有关EXPRESSCLUSTER使用的端口号,请参考《开始指南》的"注意限制事项"的"通信端口号"。

2.8. 集群驱动程序设备信息

  • 镜像驱动程序主号码主要使用218。请确认其他驱动程序没有占用该主号码。但,受系统限制,必须使用218以外的号码工作时,可更改主号码。

  • 内核模式LAN心跳线驱动程序主要使用主号码为10,副号码为240。请确认其他驱动程序没有占用该主号码和副号码。

  • keep alive驱动程序主要使用主号码为10,副号码为241。请确认其他驱动程序没有占用该主号码和副号码。

2.9. 服务器宕机的发生条件

EXPRESSCLUSTER发生以下异常后,出于保护资源的目的,将执行服务器的关闭、reset、panic等。

2.9.1. 资源激活/非激活异常时的最终动作

资源激活/非激活异常时的最终动作设置如下时

最终动作

结果

集群服务停止和OS关闭

组资源停止后,进行的关机。

集群服务停止和OS重启

组资源停止后,进行的重启。

Sysrq panic

组资源激活/非激活异常时,进行panic。

Keepalive reset

组资源激活/非激活异常时,进行reset。

Keepalive panic

组资源激活/非激活异常时,进行panic。

BMC reset

组资源激活/非激活异常时,进行reset。

BMC power off

组资源激活/非激活异常时,进行power off。

BMC power cycle

组资源激活/非激活异常时,进行power cycle。

BMC NMI

组资源激活/非激活异常时,进行NMI

I/O Fencing(High-End Server Option)

组资源的激活/非激活异常时,进行I/O Fencing。

2.9.2. 发生资源激活/非激活失控时的动作

发生资源的激活/非激活失控时的动作的设置如下所示,资源激活/非激活处理超过预期时间时。

发生失控时的动作

结果

集群服务停止和OS关机

发生组资源激活/非激活失控时,组资源停止后,进行通常的关机。

集群服务停止和OS重启

发生组资源激活/非激活失控时,组资源停止后,进行通常的重启。

sysrq panic

发生组资源激活/非激活失控时,进行panic。

Keepalive reset

发生组资源激活/非激活失控时,进行reset。

Keepalive panic

发生组资源激活/非激活失控时,进行panic。

BMC reset

发生组资源激活/非激活失控时,进行reset。

BMC power off

发生组资源激活/非激活失控时,进行power off。

BMC power cycle

发生组资源激活/非激活失控时,进行power cycle。

BMC NMI

发生组资源激活/非激活失控时,进行NMI。

I/O Fencing(High-End Server Option)

发生组资源激活/非激活失控时,进行I/O Fencing。

发生资源激活失速时,在警告和syslog中输出下述消息。

  • 模块类型:rc

  • 事件ID:32

  • 消息:Activating %1 resource has failed.(99 : command is timeout)

  • 说明:%1资源启动失败

发生资源非激活失速时,在警告和syslog中输出下述消息。

  • 模块类型:rc

  • 事件ID:42

  • 消息:Stopping %1 resource has failed.(99 : command is timeout)

  • 说明:%1资源停止失败

2.9.3. 查出监视资源异常时的最终动作

监视资源异常时的最终动作设置如下时

最终动作

结果

集群服务停止和OS关闭

组资源停止后,进行关机。

集群服务停止和OS重启

组资源停止后,进行重启。

Sysrq panic

监视资源异常时,进行panic。

Keepalive reset

监视资源异常时,进行reset。

Keepalive panic

监视资源异常时,进行panic。

BMC reset

监视资源异常时,进行reset。

BMC power off

监视资源异常时,进行power off。

BMC power cycle

监视资源异常时,进行power cycle。

BMC NMI

监视资源异常时,进行NMI。

I/O Fencing(High-End Server Option)

监视资源异常时,进行I/O Fencing。

2.9.4. 强行停止处理

当强行停止功能设置为"used"时

  • 物理机

    最终动作

    结果

    BMC reset

    在失效切换组所在的停止的服务器中进行reset。

    BMC power off

    在失效切换组所在的停止的服务器中进行power off。

    BMC power cycle

    在失效切换组所在的停止的服务器中进行power cycle。

    BMC NMI

    在失效切换组所在的停止的服务器中进行NMI。

  • 虚拟机(客机 OS)

    最终动作

    结果

    VMware vSphere CLI power off

    在失效切换组所在的停止的服务器中进行power off。

2.9.5. 紧急关闭服务器、紧急重启服务器

查出以下进程的异常退出时,组资源停止后,进行关机或重启。关机或重启取决于[集群服务进程异常时的动作]的设定。

  • clprc

  • clprm

  • clpnm

2.9.6. EXPRESSCLUSTER Daemon停止时的资源非激活异常

通过clpcl -t停止EXPRESSCLUSTER Daemon服务时发生资源非激活失败时,将发生紧急关机。紧急关闭时的动作取决于[集群服务进程异常时动作]的设定。

2.9.7. 查出用户空间中的停止

运行停止时间超过超时时间的情况发生时,将进行OS的硬件复位或panic或I/O Fencing。执行硬件复位还是panic取决于用户空间监视资源的[超时发生时的动作]的设置。

2.9.8. 查出关机过程中的停止

由于OS关闭的延时发生停止时,将进行OS的硬件复位或panic或I/O Fencing。 硬件复位或panic取决于关机监视的[超时发生时的动作]的设定。

2.9.9. 从网络分区复原

如果没有设置网络分区解决资源时,所有心跳中断时(网络分区),双方服务器将互相进行失效切换,最后使双方服务器中的组都被激活。即使设置了网络分区解决资源时,双方服务器中的组也有可能被激活。

私网从该状态中复原后,将关闭双方服务器或其中某一方服务器。

关于网络分区请参考《参考指南》的 "疑难解答"的"发生了网络分区"。

2.9.10. 网络分区解决

如果设置了网络分区解决资源,当所有的心跳中断时(网络分区),就会执行网络分区解决。

在确认发生网络分区症状的情况,任意服务器或者所有的服务器就会被关机或停止服务。关机或停止服务取决于[NP发生时的动作]的设置。

有关网络分区的解析,请参考《参考指南》的 "网络分区解决资源的详细信息"。

2.9.11. 镜像磁盘异常 -使用Replicator时-

镜像磁盘发生异常时,镜像Agent将进行reset。

2.9.12. Hybrid磁盘异常 -使用Replicator DR 时-

Hybrid磁盘发生异常时,镜像Agent将进行reset。

2.9.13. 集群挂起·恢复失败时

集群挂起·恢复失败的服务器会关机。

2.10. 设置为暂时不执行失效切换的方法

因服务器宕机而暂时控制失效切换时,请执行以下步骤。

因暂时停止监视资源的监视而发生监视异常,暂时控制失效切换时,请执行以下步骤。

  • 暂时停止监视资源的监视
    暂时停止监视可以使服务器暂时不进行监视引起的失效切换。使用[clpmonctrl]命令即可暂时停止监视。请在集群中所有服务器上执行[clpmonctrl]命令。或者在集群内的任一服务器上使用 –h 参数实现在所有服务器上执行[clpmonctrl]命令。

    例) 要停止执行命令服务器上的所有监视时

    clpmonctrl -s

    例) 暂停用-h参数所指定的服务器上的所有监视时

    clpmonctrl –s –h <服务器名>

    关于[clpmonctrl]命令的详细信息,请参考《参考指南》的"EXPRESSCLUSTER命令参考"的"控制监视资源(clpmonctrl命令)"。
  • 重新开始监视资源的监视
    重新开始监视。在集群中所有服务器上执行[clpmonctrl] 命令。或者在集群内的任一服务器上使用–h参数实现在所有服务器上执行[clpmonctrl]命令。

    例) 重新开始执行命令服务器上的所有监视时

    clpmonctrl -r

    例) 重新开始用–h参数所指定的服务器上的所有监视时

    clpmonctrl r –h <服务器名>

    有关详细的[clpmonctrl]命令,请参考《参考指南》的"EXPRESSCLUSTER命令参考"的"控制监视资源(clpmonctrl命令)"。

因禁用监视资源异常时的恢复动作而发生监视异常,暂时控制失效切换时,请执行以下步骤。

  • 禁用监视资源异常时的恢复操作
    设置控制监视资源异常时的恢复操作后,监视资源即使查出异常也不会执行恢复操作。设置该功能时,请在Cluster WebUI的设置模式中选中[集群属性]的[扩展]标签页的[禁用集群操作]中的[监视资源异常时的恢复操作],以应用设置。
  • 启用监视资源异常时的恢复操作
    解除禁用监视资源异常时的恢复操作。请在Cluster WebUI的设置模式中取消[集群属性]的[扩展]标签页的[禁用集群操作]中的[监视资源异常时的恢复操作],以应用设置。

通过禁用组资源激活异常时的复归动作,由于激活异常暂时抑制失效切换时,请执行以下步骤。

  • 禁用组资源激活异常时的复归动作
    如果设置禁用组资源激活异常时的复归动作,即使组资源检测出激活异常也不能进行复归动作。设置该功能时,请在Cluster WebUI的设置模式中选中[集群的属性]的[扩展]标签页的[禁用集群操作]中的[检测出组监视资源异常时的复归动作],以应用设置。
  • 启用组资源激活异常时的复归动作
    解除禁用组资源激活异常时的复归动作。请在Cluster WebUI的设置模式中取消[集群属性]的[扩展]标签页的[禁用集群操作]中的[检测出组监视资源异常时的复归动作],以应用设置。

2.11. 镜像磁盘的更换步骤

镜像磁盘发生故障等,运行开始后需进行更换时,请按以下步骤实施。

参见

有关Daemon的停止及开始的详细信息,请参考《安装&设置指南》的 "操作前的准备工作"的"暂停EXPRESSCLUSTER"。

2.11.1. 更换由单磁盘构成的(非RAID)镜像磁盘时

  1. 结束要更换镜像磁盘侧的服务器运行。

    注解

    结束服务器运行之前,建议执行《安装&设置指南》的"禁用EXPRESSCLUSTER 后台程序"。
    在禁用后台程序的服务器上,执行以下命令,将后台程序设为禁用。
    clpsvcctrl.sh --disable core mgr
    • 共享型磁盘出现故障时,请关闭所有链接更换目标设备的服务器。

  2. 将新磁盘安装到服务器。

  3. 启动已安装新磁盘的服务器。此时,请不要启动EXPRESSCLUSTER服务。步骤1. 中如没有禁用EXPRESSCLUSTER Daemon,则以运行级别1启动OS。

  4. 使用fdisk命令,将新磁盘分成与原先相同的分区。

    注解

  5. 不自动进行初始镜像构建。

    • (A)不更换镜像磁盘侧的服务器上进行业务操作的状态(包括镜像磁盘资源的组激活的状态)下,想并列进行磁盘复制(初始镜像构建)时,不需要将初始镜像构建设置为不能自动进行。)

    • (B) 在磁盘复制结束可以停止业务操作时(组为非激活也可以时),请将包括此镜像磁盘资源的组设为非激活状态。

    注解

    • 步骤(A),由于因文件系统的种类的不同进行磁盘使用量份额的复制,因此复制时间有可能依赖于磁盘使用量。
      另外,由于并行进行业务操作和复制处理,因此有可能变为高负载状态,进行复制比较费时。
    • 在停止业务操作的状态(组为非激活的状态)进行磁盘复制时的步骤(B),由于因文件系统而进行磁盘使用量份额的复制,因此,复制时间有可能会依靠磁盘使用量。业务的开始(组的激活)可在复制结束后进行。

  6. 在安装了新磁盘侧的服务器上,启用EXPRESSCLUSTER Daemon,并重启服务器。

    注解

  7. 使用以下命令开始初始镜像构建(磁盘复制)。

    • (A) 更换镜像磁盘侧的服务器上进行业务操作时
      开始自动进行初始镜像构建(复制磁盘)。
      将"进行初始镜像构建"设置为"off"时,则不能自动开始,请在镜像磁盘列表或利用下述命令,手动开始初始镜像构建。

      【镜像磁盘时】

      clpmdctrl --force <复制源服务器名> <镜像磁盘资源名>

      【共享型镜像磁盘时】

      clphdctrl –-force <复制源服务器名> <共享型镜像磁盘资源名>

    • (B) 停止业务操作,在磁盘复制结束后开始业务操作时
      (在包括镜像磁盘资源的组处于非激活的状态下进行复制时)

      【镜像磁盘时】

      clpmdctrl --force <复制源服务器名> <镜像磁盘资源名>

      【共享型镜像磁盘时】

      clphdctrl --force <复制源服务器名> <共享型镜像磁盘资源名>

  8. 在停止业务操作的状态(非激活状态)下开始初始镜像构建时(B),在初始镜像构建结束后(磁盘复制结束后),可以开始业务操作(激活组)。
    想中断镜像复归时,请不要激活组而再一次开始进行初始镜像构建。

2.11.2. 更换由多磁盘构成的(RAID)镜像磁盘时

  1. 结束要更换镜像磁盘侧的服务器运行。

    注解

    • 结束服务器运行之前,建议先执行《安装&设置指南》的"禁用EXPRESSCLUSTER 后台程序"
      在禁用后台程序的服务器上,执行以下命令,将后台程序设为禁用。

      clpsvcctrl.sh --disable core mgr

    • 共享磁盘出现故障时,请关闭所有链接更换目标设备的服务器。

  2. 将新磁盘安装到服务器。

  3. 设置新磁盘,启动服务器。

  4. 启动OS之前,重新构建RAID。

  5. 启动OS时,请不要启动EXPRESSCLUSTER服务。步骤1. 中如没有禁用EXPRESSCLUSTER Daemon,请以运行级别1启动OS,先禁用EXPRESSCLUSTER Daemon,再以运行级别3启动。

    根据需要,请从数据分区提取数据备份。

  6. LUN初始化时,使用fdisk命令对新设备划分集群分区和数据分区。

    注解

    • 基于共享型磁盘的共享内存侧切换,请在连接此共享内存的其中1台服务器上划出分区。

  7. 以root登录后,可以通过以下任何一种方法进行集群分区初始化。

    • 方法(1) 不使用dd命令时的方法

      【镜像磁盘】

      clpmdinit --create force <镜像磁盘资源名>

      【共享型磁盘】

      clphdinit --create force <共享型磁盘资源名>

      注解

      • 镜像磁盘的情况下,若通过镜像磁盘资源设定将"执行初始mkfs"置"On",则执行此命令时,执行mkfs的文件系统被初始化。
        但是,若是大容量磁盘,则mkfs时有时耗费时间。
        (若执行mkfs,则保存在数据分区的数据将被消除。在执行命令之前根据需要,请数据分区中提取数据备份。)
        镜像数据通过后述的全面恢复从对方服务器侧被复制。
    • 方法(2) 使用dd命令的方法

      【镜像磁盘】

      dd if=/dev/zero of=<集群分区的设备名(例如:/dev/sdb1)>
      clpmdinit --create quick <镜像磁盘资源名>

      【共享型磁盘】

      dd if=/dev/zero of=<集群分区的设备名(例如:/dev/sdb1)>
      clphdinit --create quick <共享型磁盘资源名>

    注解

    • 若执行dd命令,则由of=指定的分区数据被初始化。请仔细确认分区设备名是否有错后,执行dd命令。

    • 实行dd命令时,会显示以下消息。并非表示异常。
      dd: writing to <CLUSTER分区的设备名>: No space left on device
    • 镜像数据通过后述的全面恢复从对方服务器侧被复制。在执行命令之前根据需要,请数据分区中提取数据备份。

  8. 自动进行初始镜像构建。

    • (A) 如果在不更换镜像磁盘侧的服务器上进行业务操作的状态(包括镜像磁盘资源的组激活的状态)下,想并列进行磁盘复制(初始镜像构建)时,不需要将初始镜像构建设置为不能自动进行。)

    • (B) 如果在磁盘复制结束可以停止业务操作时(组为非激活也可以时),请将包括此镜像磁盘资源的组设为非激活状态。

    注解

    • 步骤(A),由于因文件系统的种类的不同进行磁盘使用量份额的复制,因此复制时间有可能依赖于磁盘使用量。
      另外,由于并行进行业务操作和复制处理,因此有可能变为高负载状态,进行复制比较费时。
    • 在停止业务操作的状态(组为非激活的状态)进行磁盘复制时的步骤(B),由于因文件系统而进行磁盘使用量份额的复制,因此,复制时间有可能会依靠磁盘使用量。业务的开始(组的激活)可在复制结束后进行。

  9. 在更换了磁盘侧的服务器上启用EXPRESSCLUSTER demon时,请重启服务器。

    注解

    • 如果结束服务器运行之前已执行《安装&设置指南》的"禁用EXPRESSCLUSTER 后台程序",此时,先启用EXPRESSCLUSTER 后台程序。
      在启用后台程序的服务器上,执行以下命令,将后台程序设为启用。

      clpsvcctrl.sh --enable core mgr

  10. 使用以下命令开始初始镜像构建(磁盘复制)。

    • (A) 更换镜像磁盘侧的服务器上进行业务操作时

      开始自动进行初始镜像构建(复制磁盘)。
      将「进行初始镜像构建」设置为「off」时,则不能自动开始,请在镜像磁盘列表或利用下述命令,手动开始初始镜像构建。

      【镜像磁盘时】

      clpmdctrl --force <复制源服务器名> <镜像磁盘资源名>

      【共享型镜像磁盘时】

      clphdctrl –force <复制源服务器名> <共享型镜像磁盘资源名>

    • (B) 停止业务操作,在磁盘复制结束后开始操作时
      (在包括镜像磁盘资源的组处于非激活的状态下进行复制时)

      【镜像磁盘时】

      clpmdctrl --force <复制源服务器名> <镜像磁盘资源名>

      【共享型镜像磁盘时】

      clphdctrl --force <复制源服务器名> <共享型镜像磁盘资源名>

  11. 在停止业务操作的状态(非激活状态)下开始初始镜像构建时(B),在初始镜像构建结束后(磁盘复制结束后),可以开始业务操作(激活组)。
    想中断镜像复归时,请不要激活组而再一次开始进行初始镜像构建。

2.11.3. 更换两个镜像磁盘时

注解

更换两个镜像磁盘时,镜像磁盘中的数据会丢失。请根据需要,在更换磁盘后使用备份数据等进行恢复。

  1. 两个服务器都停止运行。

    注解

  2. 将新磁盘安装到两个服务器。

  3. 启动两个服务器。此时,请不要启动EXPRESSCLUSTER服务。步骤1.中 如没有禁用EXPRESSCLUSTER Daemon,则以运行级别1启动OS。

  4. 使用[fdisk]命令,将两个服务器中的新磁盘分成与原先相同的分区。

    注解

  5. 重启两个服务器。

    注解

    • 如果结束服务器运行之前已执行《安装&设置指南》的"禁用EXPRESSCLUSTER 后台程序",此时,先启用EXPRESSCLUSTER 后台程序。
      在启用后台程序的服务器上,执行以下命令,将后台程序设为启用。

      clpsvcctrl.sh --enable core mgr

  6. 重启后,自动开始初始镜像构建(全面镜像复归)。
    在"进行初始镜像构建"设置为"off"时,则不会自动地开始而是保持原有的正常状态。因此,此时请务必通过Cluster WebUI的镜像磁盘列表或clpmdctrl, clphdctrl命令,手动开始全面镜像复归。
  7. 根据需要,在全面镜像复归结束后,从备份数据等进行数据复原。

2.12. 更换服务器的方法 -共享磁盘-

使用管理IP地址连接到Cluster WebUI。如果没有管理IP地址,请使用未更换服务器的IP地址连接到Cluster WebUI。

  1. 在已更换的服务器中安装EXPRESSCLUSTER Server。详细请参考《安装&设置指南》的"安装EXPRESSCLUSTER"的"设置EXPRESSCLUSTER Server "。安装完EXPRESSCLUSTER Server的服务器必须在安装之后进行重启。

  2. 从已连接的Cluster WebUI的设置模式中上传集群配置信息。
    使用期间定制License时,请执行以下命令。

    clplcnsc --reregister <保存License文件的文件夹路径>

  3. 从Cluster WebUI的操作模式中启动已更换的服务器上的服务。有关服务的启动,请参考在线版手册。

  4. 从Cluster WebUI的操作模式中执行manager重启。

2.13. 更换服务器的方法 -镜像磁盘-

2.13.1. 同时更换服务器和镜像磁盘时

使用管理IP地址连接到Cluster WebUI。如果没有管理IP地址,请使用未更换服务器的IP地址连接到Cluster WebUI。

  1. 同时更换发生故障的服务器机器和磁盘。在新服务器上设置与之前服务器相同的IP地址、主机名。

  2. 使用[fdisk]命令预留磁盘的分区。

    在已更换的服务器中安装EXPRESSCLUSTER Server。
    详细请参考《安装&设置指南》的 "安装EXPRESSCLUSTER"的"设置EXPRESSCLUSTER Server "。 安装完EXPRESSCLUSTER Server的服务器必须在安装之后进行重启。
  3. 在这之前,如果要再使用曾作为镜像磁盘使用的磁盘,请执行集群分区的初始化。

  4. 从已连接的Cluster WebUI的设置模式中上传集群配置信息。
    使用期间定制License时,请执行以下命令。

    clplcnsc --reregister <保存License文件的文件夹路径>

    上传完成后,请重启已更换的服务器。
  5. 重启后,将自动执行更换磁盘进行集群分区初始化,创建数据分区的文件系统。
    设置为进行初始镜像构建时,则将自动进行镜像复归。
    没有设置为进行初始镜像构建时,需要手动执行镜像复归。镜像复归的方法请参考《参考指南》的"疑难解答"的"通过命令进行镜像复归的方法"以及"通过Cluster WebUI进行镜像复归的方法"。
    镜像复归为全面复制。
    可以执行以下命令或使用Cluster WebUI确认镜像复归是否完毕。详细信息请参考《参考指南》的" EXPRESSCLUSTER命令参考"的"镜像相关命令"。

    clpmdstat --mirror <镜像磁盘资源名(例:md1)>

2.13.2. 保留镜像磁盘时

使用管理IP地址连接到Cluster WebUI。如果没有管理IP地址,请使用未更换服务器的物理IP地址连接到Cluster WebUI。

  1. 只更换发生故障的服务器机器,保留镜像过的磁盘。在新服务器上设置与之前服务器相同的IP地址、主机名。

    在已更换的服务器中安装EXPRESSCLUSTER Server。
    详细请参考《安装&设置指南》的"安装EXPRESSCLUSTER"的"设置EXPRESSCLUSTER Server"。 安装完EXPRESSCLUSTER Server的服务器必须在安装之后进行重启。
  2. 从已连接的Cluster WebUI的设置模式中上传集群配置信息。
    使用期间定制License时,请执行以下命令。

    clplcnsc --reregister <保存License文件的文件夹路径>

    上传完成后,请重启已更换的服务器。
  3. 重启后,如果没有差异,则可以直接开始操作运行。

    重启后,如果镜像磁盘有差异,则需要进行镜像复归。
    如果启用了自动镜像复归,则将自动进行镜像复归。未启用自动镜像复归时,需要手动执行镜像复归。镜像复归的方法请参考《参考指南》的"疑难解答"的"通过命令进行镜像复归的方法"以及"通过Cluster WebUI进行镜像复归的方法"。
    镜像复归为全面复制。
    可以执行以下命令或使用Cluster WebUI确认镜像复归是否完毕。详细信息请参考《参考指南》的"EXPRESSCLUSTER命令参考"的"镜像相关命令"。

    clpmdstat --mirror <镜像磁盘资源名(例:md1)>

2.14. 更换服务器 -共享型镜像磁盘-

2.14.1. 同时更换不是共享磁盘的共享型镜像磁盘时

使用管理IP地址连接Cluster WebUI。没有管理IP地址时,使用不更换磁盘的服务器的IP地址连接Cluster WebUI。

  1. 更换发生故障的服务器和磁盘。设置成和更换前的服务器具有相同的IP地址、主机名。

  2. 使用[fdisk]命令分配磁盘分区。

  3. 在更换的服务器上安装EXPRESSCLUSTER。详细信息请参考《安装&设置指南》的"安装EXPRESSCLUSTER"的"设置EXPRESSCLUSTER Server"。安装EXPRESSCLUSTER的服务器在安装过后需要重新启动。

  4. 从已连接的Cluster WebUI的设置模式中上传集群配置信息。
    使用期间定制License时,请执行以下命令。

    clplcnsc --reregister <保存License文件的文件夹路径>

  5. 在更换的服务器上执行[clphdinit]命令。

    # clphdinit --create force <共享型镜像磁盘资源名(例:hd1)>

  6. 重新启动更换服务器。

  7. 重启后,如果设置为进行初始镜像构建时,则执行自动复原。如果没有设置为进行初始镜像构建时,则需要手动执行镜像复归。关于镜像复归的执行请参考《参考指南》的"疑难解答"的"通过命令进行镜像复归的方法"以及"通过Cluster WebUI进行镜像复归的方法"。
    镜像复归为全面复制。
    可以通过执行下列命令确认镜像复归是否完成,或者也可以通过Cluster WebUI确认镜像复归是否完成。详细信息请参考《参考指南》的"EXPRESSCLUSTER命令参考"的"共享型镜像磁盘相关命令"。

    # clphdstat --mirror <共享型镜像磁盘资源名(例:hd1)>

2.14.2. 同时更换共享磁盘的共享型镜像磁盘时

使用管理IP地址连接Cluster WebUI。没有管理IP地址时,使用不更换磁盘的服务器的IP地址连接Cluster WebUI。

  1. 在发生故障的服务器和连接着共享磁盘的服务器上设置EXPRESSCLUSTER的服务不启动。

    clpsvcctrl.sh --disable core

  2. 通过OS的停止命令等停止发生故障的服务器和连接着共享磁盘的服务器。
    在更换过程中如需要业务继续运行,请将组移动到服务器3上。

  3. 更换发生故障的服务器机器和共享磁盘。设置成和更换前的服务器具有相同的IP地址、主机名。

  4. 在更换的服务器上使用[fdisk]命令对磁盘进行分区。

  5. 在已更换的服务器中安装EXPRESSCLUSTER Server。详细信息请参考《安装&设置指南》的"安装EXPRESSCLUSTER"的"设置EXPRESSCLUSTER Server"。安装EXPRESSCLUSTER服务器在安装过后需要重新启动。
    启动发生故障的服务器和连接共享磁盘的服务器。

  6. 从已连接的Cluster WebUI的设置模式中上传集群配置信息。
    使用期间定制License时,请执行以下命令。

    clplcnsc --reregister <保存License文件的文件夹路径>

  7. 在更换后的服务器上执行[clphdinit]命令。

    # clphdinit --create force <共享型镜像磁盘资源名(例:hd1)>

  8. 在发生故障的服务器和连接着共享磁盘的服务器上设置EXPRESSCLUSTER的服务启动。

    clpsvcctrl.sh --enable core

  9. 重启更换的服务器。请重启通过共享磁盘与发生故障的服务器相连接的服务器。

  10. 重启后,如果设置为进行初始镜像构建时,则将自动进行镜像复归。没有设置为进行初始镜像构建时,需要手动执行镜像复归。关于镜像复归的执行请参考《参考指南》的 "疑难解答"的"通过命令进行镜像复归的方法"以及"通过Cluster WebUI进行镜像复归的方法"。
    镜像目标服务器为通过共享磁盘链接的服务器组的当前服务器。(图示中服务器1为当前服务器)
    镜像复归为全面复制。
    可以执行以下命令或使用Cluster WebUI确认镜像复归是否完毕。详细信息请参考《参考指南》的"EXPRESSCLUSTER命令参考"的"共享型镜像磁盘相关命令"。

    clphdstat --mirror <共享型镜像磁盘资源名(例:hd1)>

2.14.3. 保留磁盘时

使用管理IP地址连接到Cluster WebUI。如果没有管理IP地址,请使用未更换服务器的物理IP地址连接到Cluster WebUI。

  1. 更换发生故障的服务器机器,沿用镜像磁盘。设置与更换前的服务器相同的IP地址和主机名。

  2. 在已更换的服务器中安装EXPRESSCLUSTER Server。详细信息请参考《安装&设置指南》的 "安装EXPRESSCLUSTER"的"设置EXPRESSCLUSTER Server"。安装完EXPRESSCLUSTER Server的服务器必须在安装之后进行重启。

  3. 从已连接的Cluster WebUI的设置模式中上传集群配置信息。
    使用期间定制License时,请执行以下命令。

    clplcnsc --reregister <保存License文件的文件夹路径>

    上传后,请重启更换后的服务器。
  4. 重启后,如果没有差异,则可以直接开始操作运行。
    重启后,如果镜像磁盘有差异,则需要进行镜像复归。
    如果启用了自动镜像复归,则将自动进行镜像复归。未启用自动镜像复归时,需要手动执行镜像复归。镜像复归的方法请参考《参考指南》的 "疑难解答"的"通过命令进行镜像复归的方法"以及"通过Cluster WebUI进行镜像复归的方法"。
    镜像复归为全面复制。
    可以执行以下命令或使用Cluster WebUI确认镜像复归是否完毕。详细信息请参考《参考指南》的"EXPRESSCLUSTER命令参考"的"共享型镜像磁盘相关命令"。

    clphdstat --mirror <共享型镜像磁盘资源名(例:hd1)>

2.14.4. 更换连接有共享磁盘的服务器时

使用管理IP地址连接到Cluster WebUI。如果没有管理IP地址,请使用未更换服务器的IP地址连接到Cluster WebUI。

  1. 更换发生故障的服务器机器及其共享磁盘。在新服务器上设置与之前服务器相同的IP地址、主机名。

  2. 在已更换的服务器中安装EXPRESSCLUSTER Server。详细信息请参考《安装&设置指南》的 "安装EXPRESSCLUSTER 设置EXPRESSCLUSTER Server"。在安装EXPRESSCLUSTER的服务器中在安装后需要重启。

  3. 从已连接的Cluster WebUI的设置模式中上传集群配置信息。
    用期间定制License时,请执行以下命令。

    clplcnsc --reregister <保存License文件的文件夹路径>

    上传完成后,请重启已更换的服务器。

2.15. 集群启动同步等待时间

即使集群内所有的服务器同时接通电源,EXPRESSCLUSTER也未必能够同时启动。集群关闭后重启也是一样,EXPRESSCLUSTER未必能够同时启动。

因此,在EXPRESSCLUSTER中,某一服务器启动后,需要等待集群内其他服务器启动。

初始值设置为5分钟。该等待时间可以通过Cluster WebUI的[集群属性]-[超时]标签页中的[同步等待时间]更改。

有关详细信息,请参考《参考指南》的 "参数的详细信息" - "集群属性" - "超时标签页"。

2.16. 更改磁盘资源的文件系统

使用管理IP地址连接到Cluster WebUI。如果没有管理IP地址,请使用其中任何一个服务器的物理IP地址连接到Cluster WebUI。

需要更改磁盘资源的文件系统时,请按照以下步骤操作。

  1. 从Cluster WebUI的操作模式中执行[停止集群]。

  2. 执行以下命令。
    例)磁盘资源的分区设备为 /dev/sdb5 时

    # clproset -w -d /dev/sdb5

    通过该命令,不管EXPRESSCLUSTER在何种运行状态下,均可以读取写入磁盘资源的磁盘分区。

    注解

    请不要将本命令用于其他目的。如果在启动了EXPRESSCLUSTER Daemon的状态下执行该命令,可能造成文件系统损坏。

  3. 在分区设备中创建文件系统。

  4. 执行以下命令,将磁盘资源的分区设置为ReadOnly。
    例) 磁盘资源的分区设备为 /dev/sdb5 时

    # clproset -o -d /dev/sdb5

  5. 从Cluster WebUI的设置模式中更改磁盘资源的文件系统的设置信息。

  6. 从Cluster WebUI的设置模式中上传更新了的集群配置信息。

  7. 从Cluster WebUI的操作模式中执行[启动集群]。

通过以上步骤,设置生效。

2.17. 更改镜像磁盘资源分区的位移或大小

开始运行以后,若要更改镜像磁盘资源中已设置的数据分区或集群分区的位移(位置)或大小,请执行以下步骤。

注解

必须按照以下步骤执行。指定为数据分区或集群分区的分区只通过fdisk进行更改的话,镜像磁盘资源将不能正常工作。

2.17.1. 在LVM上配置数据分区时

在LVM配置数据分区时,根据使用的文件系统,可以不重新创建资源或者不停止业务扩展数据分区。

表 2.1 LVM配置的数据分区扩展

数据分区的文件系统

重新创建资源

业务停止

参考

xfs, 文件系统无(none)

不需要

不需要

2.17.1.1. 未使用xfs以及文件系统时的数据分区扩展

ext2, ext3, ext4

不需要

需要

2.17.1.2. 使用ext2, ext3或ext4文件系统时的数据分区扩展

上述以外

需要

需要

2.17.1.3. 使用其他文件系统时的数据分区扩展

注解

这个方法只适用于扩展时。缩小时,请执行下述"2.17.2. 在LVW以外配置数据分区时"记载的步骤。

注解

根据下述步骤扩展数据分区时,必须确保数据分区由LVM配置,且卷组的未使用PE(Physical Extent)量充足。

2.17.1.1. 未使用xfs以及文件系统时的数据分区扩展

  1. 通过[clpstat]命令或Cluster WebUI确认想更改大小的镜像磁盘资源的名称。

  2. 要为意外情况做准备,在希望更改大小的镜像磁盘资源所属的组处于激活状态的服务器中,可使用磁带等备份分区内的数据。但是,不支持直接访问分区设备的备份命令。 如果丢弃镜像磁盘资源上的数据不会产生问题,则没有必要执行本步骤。

  3. 请确认以下内容。

    • 镜像磁盘资源状态正常

    • 两服务器间,数据分区所属的卷组的未使用PE(Physical Extent)量充足。

  4. 请使镜像恢复处于自动不执行的状态。方法是以下任一一种。

    • 更改镜像Agent的设置后,关闭自动镜像复归

    • 暂停镜像磁盘监视资源

    有关更改镜像Agent的设置,请参考《参考指南》的 "参数的详细信息 " - "集群属性" - "镜像Agent标签页"。

  5. 在镜像磁盘资源未处于激活状态的服务器上,执行以下[clpmdctrl]命令。以下是md01数据分区扩展到500GB时的示例。

    # clpmdctrl --resize 500G md01
  6. 在另一台服务器上执行以下[clpmdctrl]命令。以下是md01数据分区扩展到500GB时的示例。

    # clpmdctrl --resize 500G md01
  7. 数据分区上构筑xfs文件系统时,在镜像磁盘资源激活的服务器上执行[xfs_growfs]命令后,文件系统的对象领域扩大。

    # xfs_growfs /mnt/nmp1
    (/mnt/nmp1是对应镜像磁盘资源的Mount point更改的)

    数据分区上未使用文件系统时(none),不需要执行此步骤。

  8. 根据需要还原步骤4中已更改的自动镜像复归的设置。

重要

只在镜像磁盘资源状态正常的情况下可以执行[clpmdctrl --resize]。
步骤5和6之间发生了镜像中断时,步骤6的扩展不能执行。这时,步骤6中使用-force选项后强制执行扩展,所有步骤结束后,请执行镜像复归。
另外,使用选项[-force]选项后扩展大小,紧接着的镜像复归则变成全复制。

# clpmdctrl --resize -force 500G md01

注解

数据分区大小的粒度取决于PE大小。
PE的大小为4M时,指定 # clpmdctrl --resize 1022M md01 ,则数据分区的大小为1024M,文件系统扩展的上限为1022M。

注解

执行xfs_growfs时会发生大量的读入,所以有时会造成业务I/O的性能低下。

2.17.1.2. 使用ext2, ext3或ext4文件系统时的数据分区扩展

  1. 通过[clpstat]命令或Cluster WebUI确认想更改大小的镜像磁盘资源的名称。

  2. 要为意外情况做准备,在希望更改大小的镜像磁盘资源所属的组处于激活状态的服务器中,可使用磁带等备份分区内的数据。但是,不支持直接访问分区设备的备份命令。 如果丢弃镜像磁盘资源上的数据不会产生问题,则没有必要执行本步骤。

  3. 请确认以下内容。

    • 镜像磁盘资源状态正常

    • 两服务器间,数据分区所属的卷组的未使用PE(Physical Extent)量充足。

  4. 请使镜像复归处于自动不执行的状态。方法是以下任一一种。

    • 更改镜像Agent的设置后,关闭自动镜像复归

    • 暂停镜像磁盘监视资源

    有关更改镜像Agent的设置,请参考《参考指南》的 "参数的详细信息 " - "集群属性" - "镜像Agent标签页"。

  5. 请停止包含对象镜像磁盘资源的失效切换组。

  6. 执行[clpmdctrl]命令,在不mount的状态下解除对镜像磁盘资源的访问限制。

    # clpmdctrl --active -nomount md01
  7. 在访问限制没有解除的服务器上,执行以下[clpmdctrl]命令。以下是md01数据分区扩展到500GB时的示例。

    # clpmdctrl --resize 500G md01
  8. 访问限制解除的服务器上,执行以下[clpmdctrl]命令。以下是md01数据分区扩展到500GB时的示例。

    # clpmdctrl --resize 500G md01
  9. 执行[e2fsck],进行文件系统的检查、修复。

    # e2fsck -f /dev/NMP1
    (NMP1是对应镜像分区设备名更改的)
  10. 解除访问限制的服务器上执行[resize2fs]命令,文件系统的目标领域扩大。

    # resize2fs -p /dev/NMP1
    (NMP1是对应镜像分区设备名更改的)
  11. 执行[clpmdctrl]命令,镜像磁盘资源的访问限制还原。

    # clpmdctrl --deactive md01
  12. 开始步骤5中已停止的失效切换组。

  13. 必须还原步骤4中已更改的自动镜像恢复的设置。

重要

只在镜像磁盘资源状态正常的情况下可以执行[clpmdctrl --resize]。
步骤7和8之间发生了镜像中断时,步骤8的扩展不能执行。这时,步骤8中使用-force选项后强制执行扩展,所有步骤结束后,请执行镜像复归。
另外,使用选项[-force]选项后扩展大小,紧接着的镜像复归则变成全复制。

# clpmdctrl --resize -force 500G md01

注解

数据分区大小的粒度取决于PE大小。
PE的大小为4M时,指定 # clpmdctrl --resize 1022M md01 ,则数据分区的大小为1024M,文件系统扩展的上限为1022M。

2.17.1.3. 使用其他文件系统时的数据分区扩展

基本步骤同"2.17.2. 在LVW以外配置数据分区时"。

但是,如果使用[fdisk]更改了分区的大小,请改用[lvextend]命令扩展分区。

2.17.2. 在LVW以外配置数据分区时

2.17.2.1. 不更改镜像磁盘资源分区的设备名时

  1. 通过[clpstat]命令或Cluster WebUI确认希望更改大小的镜像磁盘资源名称。

  2. 在希望更改大小的镜像磁盘资源所属的组处于激活状态的服务器中,可使用磁带等备份分区内的数据。但是,不支持直接访问分区磁盘的备份命令。
    如果丢弃镜像磁盘资源上的数据不会产生问题,则没有必要执行本步骤。
  3. 将EXPRESSCLUSTER Server设置为不启动。

    clpsvcctrl.sh --disable core

  4. 集群关闭以后,重启OS。
    在任意服务器上使用[clpstdn] 命令重启集群,或者使用Cluster WebUI重启集群。
  5. 在两台服务器上使用[fdisk]命令更改分区的位移或大小。

  6. 在两台服务器上执行以下命令。

    # clpmdinit --create force <镜像磁盘资源名>

    注解

    镜像磁盘资源的设定中,不勾选[构建初始文件系统]时,因为不会自动执行mkfs,所以请手动对数据分区执行mkfs。

  7. 将EXPRESSCLUSTER Server设置为启动。

    clpsvcctrl.sh --enable core

  8. 使用[reboot]命令重启两台服务器。作为集群启动。

  9. 在集群启动时,执行了与集群创建后初始化镜像配置相同的处理,可以使用以下命令或使用Cluster WebUI来确认初始化镜像配置是否已完成。

    # clpmdstat --mirror <镜像磁盘资源名>

  10. 在初始化镜像配置完成并启动了失效切换组之后,镜像磁盘资源变成激活状态。

  11. 在更改了大小的镜像分区所属的组处于激活状态的服务器中,复原备份数据。但是,不支持直接访问分区设备的备份命令。
    如果丢弃镜像磁盘资源上的数据不会产生问题,则没有必要执行本步骤。

2.17.2.2. 更改镜像磁盘资源分区的设备名

  1. 使用[clpstat]命令或使用Cluster WebUI确认要更改的镜像磁盘资源名。

  2. 在希望更改大小的镜像磁盘资源所属的组处于激活状态的服务器中,可使用磁带等备份分区内的数据。但是,不支持直接访问分区磁盘的备份命令。
    如果丢弃镜像磁盘资源上的数据不会产生问题,则没有必要执行本步骤。
  3. 设置不启动EXPRESSCLUSTER服务。

    clpsvcctrl.sh --disable core

  4. 集群关闭以后,重启OS。
    在任意服务器上使用[clpstdn] 命令重启集群,或者使用Cluster WebUI重启集群。
  5. 在两台服务器上使用[fdisk]命令,更改分区的位移或大小。

  6. 更改上传集群配置信息。更改镜像磁盘资源时,请参考《安装&设置指南》的"更改集群配置信息"中"使用Cluster WebUI更改集群配置信息"。

  7. 在两台服务器上执行以下命令。

    # clpmdinit --create force <镜像磁盘资源名>

    注解

    镜像磁盘资源的设定中,不勾选[构建初始文件系统]时,因为不会自动执行mkfs,所以请手动对数据分区执行mkfs。

  8. 设置启动EXPRESSCLUSTER服务。

    clpsvcctrl.sh --enable core

  9. 使用[reboot]命令重启两台服务器。作为集群启动。

  10. 在集群启动时,执行了与集群创建后初始化镜像配置相同的处理,可以使用以下命令或使用Cluster WebUI来确认初始化镜像配置是否已完成。

    # clpmdstat --mirror <镜像磁盘资源名>

  11. 在初始化镜像配置完成并启动了失效切换组之后,镜像磁盘资源变成激活状态。

  12. 在已更改大小的镜像分区所属的组处于激活状态的服务器中,复原备份数据。但是,不支持直接访问分区设备的备份命令。
    如果丢弃镜像磁盘资源上的数据不会产生问题,则没有必要执行本步骤。

2.18. 更改共享型镜像磁盘资源分区的位移或大小

开始运行以后,若要更改共享型镜像磁盘资源中已设置的数据分区或集群分区的位移(位置)或大小,请执行以下步骤。

注解

必须按照以下步骤执行。指定为数据分区或集群分区的分区只通过fdisk进行更改的话,共享型镜像磁盘将不能正常工作。

2.18.1. 不更改共享型镜像磁盘分区的设备名时

  1. 通过[clpstat]命令或Cluster WebUI确认希望更改大小的共享型镜像磁盘资源名称。

  2. 在希望更改大小的共享型镜像磁盘资源所属的组处于激活状态的服务器中,可使用磁带等备份分区内的数据。但是,不支持直接访问分区磁盘的备份命令。
    如果丢弃共享型镜像磁盘资源上的数据不会产生问题,则没有必要执行本步骤。
  3. 设置不启动EXPRESSCLUSTER服务。

    clpsvcctrl.sh --disable core

  4. 集群关闭以后,重启OS。
    在任意服务器上使用[clpstdn] 命令重启集群,或者使用Cluster WebUI重启集群。
  5. 在服务器上使用[fdisk]命令更改分区的位移或大小。
    在连接有共享磁盘的服务器中,通过某一侧的服务器执行[fdisk]命令进行更改。
  6. 在服务器上执行以下命令。
    在连接有共享磁盘的服务器中,在执行了上述操作步骤的服务器中执行命令。

    # clphdinit --create force <共享型镜像磁盘资源名>

  7. 执行mkfs
    在连接着共有磁盘,并且执行了上述步骤的服务器中执行mkfs命令。

    # mkfs –t <文件系统类型> <数据分区>

  8. 设置启动EXPRESSCLUSTER服务。

    clpsvcctrl.sh --enable core

  9. 使用[reboot]命令重启全部服务器。作为集群启动。

  10. 在集群启动时,执行了与集群创建后初始化镜像配置相同的处理,可以使用以下命令或使用Cluster WebUI来确认初始化镜像配置是否已完成。

    # clphdstat --mirror <共享型镜像磁盘资源名>

  11. 在初始化镜像配置完成并启动了失效切换组之后,共享型镜像磁盘资源变成激活状态。

  12. 在更改了大小的分区所属的组处于激活状态的服务器中,复原备份数据。但是,不支持直接访问分区磁盘的备份命令。
    如果丢弃共享型镜像磁盘资源上的数据不会产生问题,则没有必要执行本步骤。

2.18.2. 更改共享型镜像磁盘资源分区的设备名

  1. 使用[clpstat]命令或使用Cluster WebUI确认要更改的共享型镜像磁盘资源。

  2. 在希望更改大小的共享型镜像磁盘资源所属的组处于激活状态的服务器中,可使用磁带等备份分区内的数据。但是,不支持直接访问分区磁盘的备份命令。
    如果丢弃共享型镜像磁盘资源上的数据不会产生问题,则没有必要执行本步骤。
  3. 设置不启动EXPRESSCLUSTER服务。

    clpsvcctrl.sh --disable core

  4. 集群关闭以后,重启OS。
    在任意服务器上使用[clpstdn] 命令重启集群,或者使用Cluster WebUI重启集群。
  5. 在服务器上使用[fdisk]命令更改分区的位移或大小。
    在连接有共享磁盘的服务器中,通过某一侧的服务器执行[fdisk]命令进行更改。
  6. 更改上传集群配置信息。更改共享型磁盘资源时,请参考《安装&设置指南》的"更改集群配置信息"中"使用Cluster WebUI更改集群配置信息"。

  7. 在服务器上执行以下命令。
    在连接有共享磁盘的服务器上,在执行上述操作步骤的服务器中执行该命令。

    # clphdinit --create force <共享型镜像磁盘资源名>

  8. 在服务器上执行mkfs命令。

    在连接着共有磁盘,并且执行了上述步骤的服务器中执行mkfs命令。

    # mkfs -t <文件系统类型> <数据分区>

  9. 设置启动EXPRESSCLUSTER服务。

    clpsvcctrl.sh --enable core

  10. 使用[reboot]命令重启全部服务器。作为集群启动。

  11. 在集群启动时,执行了与集群创建后初始化镜像配置相同的处理,可以使用以下命令或使用Cluster WebUI来确认初始化镜像配置是否已完成。

    # clphdstat --mirror <共享型镜像磁盘资源名>

  12. 在初始化镜像配置完成并启动了失效切换组之后,共享型镜像磁盘资源变成激活状态。

  13. 在已更改大小的分区所属的组处于激活状态的服务器中,复原备份数据。但是,不支持直接访问分区磁盘的备份命令。
    如果丢弃共享型镜像磁盘资源上的数据不会产生问题,则没有必要执行本步骤。

2.19. 更改服务器配置(添加、删除)

2.19.1. 添加服务器(不使用镜像磁盘、共享型磁盘的环境时)

添加服务器时,请按照以下步骤进行。

重要

  • 在更改集群配置中添加服务器时,请不要进行其他的更改(组资源的添加等)。

  • 添加的服务器必须License注册。
    注册License请参考《安装&设置指南》的"注册License"。
  1. 确定集群状态正常。

  2. 在要添加的服务器中安装EXPRESSCLUSTER Server。详细信息请参考《安装&设置指南》的"安装EXPRESSCLUSTER" - "设置EXPRESSCLUSTER Server" - " 安装EXPRESSCLUSTER RPM"。安装了EXPRESSCLUSTER Server的服务器在安装结束之后,必须进行重启。

  3. 通过 Web 浏览器连接到集群内的其他服务器后点击 Cluster WebUI 的设定模式的[添加服务器]。

  4. 从Cluster WebUI 的设定模式重新设置添加服务器的以下信息。

    虚拟IP资源 [属性]->[详细]标签页中的添加服务器的发信方的IP地址信息 (使用虚拟IP资源时)。

    AWS Elastic IP资源 [属性]->[详细]标签页中的添加服务器的ENI ID信息 (使用AWS Elastic IP资源时)。

    AWS虚拟IP资源 [属性]->[详细]标签页中的添加服务器的ENI ID信息 (使用AWS虚拟IP资源时)。

    Azure DNS资源 [属性]->[详细]标签页中的添加服务器的IP地址信息 (使用Azure DNS资源时)。

  5. 点击Cluster WebUI的设定模式的[应用配置文件],把集群配置信息反映到集群中。

    显示询问执行反映动作的画面。请按照画面反映。

  6. 从Cluster WebUI的操作模式执行已添加服务器的[开始服务器服务]。

  7. 在Cluster WebUI的操作模式中点击[刷新],通过显示的信息确认集群是否正常。

2.19.2. 添加服务器(使用镜像磁盘、共享型磁盘的环境时)

添加服务器时,请按以下步骤操作。

重要

  • 在更改集群配置中添加服务器时,请不要进行其他更改(添加组资源等)。

  • 必须注册要添加的服务器的License。
    注册License请参考《安装&设置指南》的"注册License"。
  1. 确定集群状态正常。

  2. 在要添加的服务器中安装EXPRESSCLUSTER Server。详细信息请参考《安装&设置指南》的"安装EXPRESSCLUSTER 设置EXPRESSCLUSTER Server 安装EXPRESSCLUSTER RPM "。安装了EXPRESSCLUSTER Server的服务器在安装结束之后,必须进行重启。

  3. 从Cluster WebUI的操作模式中,执行[停止集群]。

  4. 从Cluster WebUI的操作模式中,执行[停止镜像代理]。

  5. 通过Web浏览器连接集群中其他服务器点击Cluster WebUI的设置模式中的[添加服务器]。

  6. 从Cluster WebUI的设置模式重新设置添加服务器的以下信息。

    • 虚拟IP资源 [属性]->[详细]标签页中的添加服务器的发信方的IP地址信息 (使用虚拟IP资源时)。

    • AWS Elastic IP资源 [属性]->[详细]标签页中的添加服务器的ENI ID信息 (使用AWS Elastic IP资源时)。

    • AWS虚拟IP资源 [属性]->[详细]标签页中的添加服务器的ENI ID信息 (使用AWS虚拟IP资源时)。

    • Azure DNS资源 [属性]->[详细]标签页中的添加服务器的IP地址信息 (使用Azure DNS资源时)。

  7. 在添加的服务器中使用共享型镜像磁盘时,点击Cluster WebUI的设置模式的[服务器]的[属性]。从[服务器组]标签页添加可以启动的服务器。请仅对需要的服务器组添加可以启动的服务器。

  8. 点击Cluster WebUI的设置模式的[应用配置文件],将集群配置信息反映到集群中。显示重新启动服务的对话框,选择[确定]。

  9. 从Cluster WebUI的操作模式中,执行[启动镜像代理]。

  10. 从Cluster WebUI的操作模式中,执行[启动集群]。

  11. 在Cluster WebUI的操作模式中点击[刷新],通过显示的信息确认集群是否正常。

2.19.3. 删除服务器(不使用镜像磁盘、共享型磁盘的环境时)

删除服务器时,请按照以下步骤进行。

重要

  • 在更改集群配置中删除服务器时,请不要进行其他的更改(组资源的添加等)。

  • 有关在要删除的服务器上注册的License,请参考以下内容。

    • CPU License不需要对应处理。

    • 卸载ExpressCluster时,VM node License和node License将被丢弃。
      如有必要,请避开Lincens序列号和license密钥。
    • 期间定制License不需要对应处理。如有未启动的license,会自动回收并分发到其他服务器。

  1. 确定集群状态正常。如果要删除的服务器上有已经激活的组,请将这些组移动到其他服务器上。

  2. 如果要删除的服务器已经登录在服务器组内,则点击Cluster WebUI的设置模式的[服务器]的[属性]。在[服务器组]标签页中从可以启动的服务器内删除对象服务器。

  3. Cluster WebUI的设置模式中点击要删除的服务器的[删除服务器]。

  4. 点击Cluster WebUI的设置模式的[应用配置文件],将集群配置信息反映到集群中。

    显示询问执行反映动作的画面。请按照画面反映。

  5. 在Cluster WebUI的操作模式中点击[刷新],通过显示的信息确认集群是否正常。

  6. 已删除的服务器是集群未构筑状态。卸载要删除服务器的EXPRESSCLUSTER Server时,请参考《安装&设置指南》的"卸载/重新安装EXPRESSCLUSTER" - "卸载方法" - " 卸载EXPRESSCLUSTER Server"。
    此外,上述卸载步骤中包含的重启服务器,阅读时,请替换为从操作系统重启要删除的服务器来实施。

2.19.4. 删除服务器(使用镜像磁盘、共享型磁盘的环境时)

删除服务器时,请按以下步骤操作。

重要

  • 在更改集群配置中删除服务器时,请不要进行其他更改(添加组资源等)。

  • 有关在要删除的服务器上注册的License,请参考以下内容。

    • CPU License不需要对应处理。

    • 卸载ExpressCluster时,VM node License和node License将被丢弃。
      如有必要,请避开Lincens序列号和license密钥。
    • 期间定制License不需要对应处理。如有未启动的license,会自动回收并分发到其他服务器。

  1. 确定集群状态正常。如果要删除的服务器上有已经激活的组,请将这些组移动到其他服务器上。

  2. 从Cluster WebUI的操作模式中执行[停止集群]。

  3. 从Cluster WebUI的操作模式中来执行[停止镜像代理]。

  4. Cluster WebUI 的设置模式中点击镜像磁盘资源、共享型磁盘资源的[删除资源]。

  5. 如果要删除的服务器已经登录在服务器组内,则点击Cluster WebUI的设置模式的[服务器]的[属性]。在[服务器组]标签页中从可以启动的服务器内删除对象服务器。

  6. Cluster WebUI的设置模式中点击要删除的服务器的[删除服务器]。

  7. 点击Cluster WebUI的设置模式的[应用配置文件],将集群配置信息反映到集群中。

  8. 从Cluster WebUI的操作模式中执行[启动镜像代理] 、[启动集群]。

  9. 在Cluster WebUI的操作模式中点击[刷新],通过显示的信息确认集群是否正常。

  10. 已删除的服务器是集群未配置状态。卸载要删除服务器的EXPRESSCLUSTER Server时,请参考《安装&设置指南》的"卸载/重新安装EXPRESSCLUSTER" - "卸载方法" - " 卸载EXPRESSCLUSTER Server"。
    此外,上述卸载步骤中包含的重启服务器,阅读时,请替换为从操作系统重启要删除的服务器来实施。

2.20. 更改服务器IP地址的步骤

开始操作后,需要更改服务器的IP地址时,请按照以下步骤操作。

2.20.1. 更改私网IP地址/镜像磁盘连接IP地址的步骤

  1. 使用[clpstat]命令或Cluster WebUI确认集群内所有服务器是否正常。

  2. 备份集群配置信息。使用[clpcfctrl]命令创建备份。
    如果有生成集群时的配置信息,则可以使用该配置信息。
  3. 从Cluster WebUI的设置模式,根据备份的集群配置信息更改服务器的IP地址后,将更改后信息保存。

  4. 禁用集群中所有服务器上的EXPRESSCLUSTER Daemon的启动设置。有关详细信息,请参考《安装&设置指南》的"操作前的准备工作"的"暂停EXPRESSCLUSTER"的"禁用EXPRESSCLUSTER Daemon"。

  5. 通过[clpstdn]命令或Cluster WebUI的操作模式关闭集群后,重启所有服务器。

  6. 更改IP地址。更改IP地址后,如果需要重启服务器,则请在更改了IP地址的服务器上使用[reboot]等命令重启。

  7. 通过[ping]等命令确认更改后的IP地址是否有效。

  8. 将集群配置信息传送给所有服务器。可以使用[clpcfctrl]命令传送配置信息数据。

  9. 启用集群中所有服务器上的EXPRESSCLUSTER Daemon的启动设置。

  10. 在集群中所有服务器上使用[reboot]等命令重启。

  11. 使用[clpstat]命令或Cluster WebUI确认集群中所有服务器是否正常。

2.20.2. 只更改私网IP地址的子网掩码

  1. 使用[clpstat]命令或Cluster WebUI确认集群内所有服务器是否正常。

  2. 备份集群配置信息。使用[clpcfctrl]命令创建备份。
    如果有生成集群时的配置信息,则可以使用该配置信息。
  3. Cluster WebUI的设置模式中,根据集群配置信息更改服务器的IP地址后,将更改后信息保存。

  4. 禁用集群中所有服务器上的EXPRESSCLUSTER Daemon的启动设置。

  5. 通过[clpstdn]命令或Cluster WebUI的操作模式关闭集群后,重启所有服务器。

  6. 更改IP地址的子网掩码。更改IP地址的子网掩码后,如果需要重启服务器,则请在更改了IP地址的子网掩码的服务器上使用[reboot]等命令重启。

  7. 通过[ping]等命令确认更改后的IP地址是否有效。

  8. 将集群配置信息传送给所有服务器。可以使用[clpcfctrl]命令传送配置信息数据。

  9. 启用集群中所有服务器上的EXPRESSCLUSTER Daemon的启动设置。

  10. 在集群中所有服务器上使用[reboot]等命令重启。

  11. 使用[clpstat]命令或Cluster WebUI确认集群中所有服务器是否正常。

2.21. 更改主机名的步骤

开始操作后,需要更改服务器的主机名时,请按照以下步骤操作。

2.21.1. 更改主机名的步骤

  1. 使用[clpstat]命令或Cluster WebUI确认集群内所有服务器是否正常。

  2. 备份集群配置信息。使用[clpcfctrl]命令创建备份。
    如果有生成集群时的配置信息,则可以使用该配置信息。
  3. Cluster WebUI的设置模式,根据备份的集群配置信息更改服务器的主机名后,将更改后信息保存。

  4. 禁用集群中所有服务器上的EXPRESSCLUSTER Daemon的启动设置。有关详细信息,请参考《安装&设置指南》的"操作前的准备工作 暂停EXPRESSCLUSTER 禁用EXPRESSCLUSTER Daemon"。

  5. 通过[clpstdn]命令或Cluster WebUI的操作模式关闭集群后,重启所有服务器。

  6. 更改主机名。更改主机名后,如果需要重启服务器,则请在更改了主机名的服务器上使用[reboot]等命令重启。

  7. 通过[ping]等命令确认更改后的主机名是否有效。

  8. 将集群配置信息传送给所有服务器。可以使用[clpcfctrl]命令传送配置信息数据。

注解

检查集群配置信息时,请在发送集群配置信息之前执行此操作。

  1. 启用集群中所有服务器上的EXPRESSCLUSTER Daemon的启动设置。

  2. 在集群中所有服务器上使用[reboot]等命令重启。

  3. 使用[clpstat]命令或Cluster WebUI确认集群中所有服务器是否正常。

参见

有关[clpcfctrl]的疑难解答,请参考《参考指南》的"EXPRESSCLUSTER命令参考"的"更改集群配置信息、备份集群配置信息、检查集群配置信息(clpcfctrl命令)"。
有关Daemon的停止及开始的详细信息,请参考《安装&设置指南》的"操作前的准备工作"的"暂停EXPRESSCLUSTER"。

2.22. 不停止组追加资源的步骤

对应了动态资源追加的相应的资源,在运用开始后,能够在组不停止的情况下被追加到组。

目前,支持动态资源追加的资源如下所示。

组资源名

略称

支持版本

EXEC 资源

exec

4.0.0-1~

磁盘资源

disk

4.0.0-1~

浮动IP资源

fip

4.0.0-1~

虚拟IP资源

vip

4.0.0-1~

卷管理资源

volmgr

4.0.0-1~

参见

追加资源所属的组内全部资源正常启动时,追加的资源的状态也为启动状态。
另外,追加资源所属组内即使存在一个活性异常或非活性异常状态的资源时,动态资源追加功能被无效化,组被要求停止。组为停止状态时,资源以停止状态被追加。

运用开始后,执行动态资源追加时请遵循以下步骤。

2.22.1. 动态资源追加步骤

  1. 使用[clpstat]命令或Cluster WebUI确认集群内所有服务器是否正常。

  2. 使用[clpstat]命令或Cluster WebUI确认追加资源的组内所有的资源是否正常启动。

  3. 使用Cluster WebUI的设置模式添加资源到组后,保存。

  4. 使用[clpcl --suspend]命令或Cluster WebUI的操作模式暂停集群。

  5. 发送配置集群配置信息到所有服务器。使用[clpcfctrl]命令发信。执行如下的命令进行动态资源的追加。
    根据用Cluster WebUI的设置模式保存的配置信息的种类执行以下步骤之一。
    • Linux上发送利用Cluster WebUI保存在文件系统上的配置信息时,执行如下的命令。

      clpcfctrl --dpush -l -x <配置信息的路径>

    • Windows上利用Cluster WebUI保存配置信息文件时,执行如下的命令。

      clpcfctrl --dpush -w –x <配置信息的路径>

  6. 使用[clpcl --resume]命令或Cluster WebUI的操作模式恢复集群。

  7. 使用[clpstat]命令或Cluster WebUI确认资源是否被追加。