1. 前言

1.1. 读者对象及用途

本手册《EXPRESSCLUSTER® X 硬件整合指南》面向管理者,对特定的硬件以及与其整合的功能进行说明。

本手册是对《EXPRESSCLUSTER X 安装&设置指南》的补充。

请参考在构建和操作集群时所需要的信息。

1.2. 本手册的构成

1.3. EXPRESSCLUSTER X手册体系

EXPRESSCLUSTER X 的手册分为以下 6 类。各指南的标题和用途如下所示。

EXPRESSCLUSTER X 开始指南》(Getting Started Guide)

本手册的读者对象为使用EXPRESSCLUSTER的用户,对产品概要,运行环境,升级信息,现有的问题等进行了说明。

EXPRESSCLUSTER X 安装&设置指南》(Install and Configuration Guide)

本手册的读者对象为导入使用EXPRESSCLUSTER的集群系统的系统工程师以及导入集群系统后进行维护和操作的系统管理员,对导入使用EXPRESSCLUSTER的集群系统后到开始操作前的必备事项进行说明。手册按照实际导入集群系统时的顺序,对使用EXPRESSCLUSTER 的集群系统的设计方法,EXPRESSCLUSTER 的安装设置步骤,设置后的确认以及开始操作前的测试方法进行了说明。

EXPRESSCLUSTER X 参考指南》(Reference Guide)

本手册的读者对象为管理员以及使用EXPRESSCLUSTER导入集群系统的系统工程师。手册对EXPRESSCLUSTER的操作步骤,各模块的功能以及疑难解答信息等进行了说明,是对《安装&设置指南》的补充。

EXPRESSCLUSTER X 维护指南》(Maintenance Guide)

本手册的读者对象为管理员以及导入使用EXPRESSCLUSTER的集群系统后进行维护和操作的系统管理员,对EXPRESSCLUSTER的维护的相关信息进行了说明。

《EXPRESSCLUSTER X 硬件整合指南》 (Hardware Feature Guide)

本手册的读者对象为管理员以及导入使用EXPRESSCLUSTER的集群系统的系统工程师,对特定的硬件以及与其整合的功能进行说明。是对《安装&设置指南》的补充。

EXPRESSCLUSTER X 兼容功能指南》(Legacy Feature Guide)

本手册的读者对象为管理员以及导入使用EXPRESSCLUSTER的集群系统的系统工程师,对EXPRESSCLUSTER X 4.0 WebManager以及Builder的相关信息等进行了说明。

1.4. 本手册的标记规则

在本手册中,需要注意的事项,重要的事项以及相关信息等用如下方法标记。

注解

表示虽然比较重要,但是并不会引起数据损失或系统以及机器损伤的信息。

重要

表示为避免数据损失和系统,机器损坏所必需的信息。

参见

表示参考信息的位置。

另外,在手册中使用以下标记法。

标记

使用方法

[ ]方括号
在命令名的前后
显示在画面中的字句 (对话框,菜单等) 的前后。
点击[开始]。
[属性]对话框

命令行中的[ ]方括号

表示括号内的值可以不予指定(可省)。

clpstat -s[-h host_name]

#

表示Linux用户正以root身份登录的提示符。

# clpcl -s -a

等宽字体
路径名,命令行,系统输出(消息,提示等),目录,文件名,函数,参数。
/Linux/4.3/cn/server/
粗体
表示用户在命令提示符后实际输入的值。
输入以下内容。
clpcl -s -a
斜体
用户将其替换为有效值后输入的项目。
clpstat -s [-h host_name]

EXPRESSCLUSTER X 在本手册的图中,为了表示EXPRESSCLUSTER,使用该图标。

1.5. 最新信息来源

关于最新的产品信息,请参考以下Web站点

2. 与特定硬件的整合

本章就特定的硬件与EXPRESSCLUSTER进行整合时的设置进行说明。

本章中说明的项目如下所示。

2.1. 与NX7700x系列的整合

2.1.1. 何谓NX7700x 系列整合

那个不能被使用。

2.2. 与Express5800/A1080a,A1040a系列的整合

2.2.1. 何谓Express5800/A1080a,A1040a系列整合

Express5800/A1080a,A1040a 系列整合指当搭载在服务器的BMC查出异常时,通过与EXPRESSCLUSTER整合,使交接业务可确实执行的功能。

本功能中使用BMC心跳和消息接收监视资源。

BMC心跳使用BMC用的网络进行服务器的死活监视。

通过将消息接收监视资源设置为与Express5800/A1080a,A1040a 系列整合,搭载在服务器的 BMC 查出异常时发出异常通知,使复归动作执行。

2.2.2. Express5800/A1080a,A1040a 系列整合的注意事项

使用本功能时,需要满足以下的条件。

  • 需要BMC的硬件或固件支持。关于可使用的机型,请参照《开始指南》的"第3章 EXPRESSCLUSTER的运行环境" - "硬件" - "与Express5800/A1080a,A1040a系列整合相对应的服务器"。

  • 需要 ipmi 服务处于事先运行状态。

  • 与ESMPRO/ServerAgent在统一环境下使用时,使用ESMPRO/ServerAgent的控制面板(ESMamsadm)将以下的Agent事件的通报后的动作从"关机"更改为"不操作"。

    资源名:ESMCOMMONSERVICE,ID:C00001FD,C0000203,C0000454

    【控制面板(ESMamsadm)的启动方法】

    1. 使用拥有root 权限的账户登录。

    2. 移动至ESMamsadm存储的目录。

      # cd /opt/nec/esmpro_sa/bin/
    3. 启动控制面板(ESMamsadm)。

      # ./ESMamsadm

    【根据各监视事件指定通报后动作的方法】

    1. 启动控制面板(ESMamsadm),选择"设置Agent事件"。

    2. 在[资源名]中选择资源。(使用"↑" 或 "↓"键来选择)

    3. 选择在[事件ID]中要设置的事件ID。("↑" 或 "↓"键来选择)

    4. 按[设置...]按钮。显示[设置监视事件] 画面。

    5. [通报后动作]从"关机"更改为"不操作"。详细内容请参照ESMPRO/ServerAgent 用户指南(Linux编)。

2.2.3. 使用Express5800/A1080a,A1040a 系列整合的配置信息的创建方法

具体举例对使用Express5800/A1080a,A1040a 系列整合功能的配置信息的创建步骤进行说明。

集群环境下的事例

下面以构筑环境构成的集群环境为例进行说明。下图中的事例与 Express5800/A1080a,A1040a系列整合功能没有直接的关系,因此省略了磁盘构成等。

通过两个互联网络和一个BMC网络连接的Server1和Server2

图 2.1 集群环境下的事例

下表中记载了构筑上图集群系统时所需的集群配置信息的事例值。以下章节中将在这条件下对如何创建集群配置信息逐步进行说明。进行实际值的设定时,请替换为构筑集群的配置信息输入。

设定参数

设定值

集群

集群名

cluster

服务器数

2

失效切换组数

1

监视资源数

2

心跳资源

LAN心跳数

2

COM 心跳数

0

磁盘心跳数

0

BMC 心跳数

1

第1 台服务器的信息
(主服务器)

服务器名

server1

私网的 IP 地址
(专用)
192.168.0.1 (NIC1-1)
私网的IP 地址
(备份)
10.0.0.1 (NIC1-2)

BMC的服务器Web控制台用IP地址

192.168.0.11 (BMC1)

第2 台服务器的信息

服务器名

server2

私网的IP 地址
(专用)
192.168.0.2 (NIC2-1)
私网的IP 地址
(备份)
10.0.0.2 (NIC2-2)

BMC的服务器Web控制台用IP地址

192.168.0.12 (BMC2)

第1 个组

类型

失效切换

组名

failover1

启动服务器

所有的服务器

组资源数

-

组资源(略)

-

-

-

-

-

-

第1个监视资源
(创建默认值)

类型

用户空间监视

监视资源名

userw

第2个监视资源

类型

消息接收监视

种类

BMCNOTICE

关键字 (共通)

192.168.0.1 (NIC1-1)

关键字
(服务器个别设置:server1)
192.168.0.1 (NIC1-1)
关键字
(服务器个别设置:server2)
192.168.0.2 (NIC2-1)

复归动作

对复归对象执行失效切换

复归对象

failover1

创建集群配置信息的步骤

创建集群配置信息基本上按照创建集群,创建组,创建监视资源 3个步骤来进行。下面说明设定 Express5800/A1080a,A1040a 系列整合固有的项目的步骤/流程。关于其他项目,请参照《安装&设置指南》的 "创建集群配置信息"。

注解

集群配置信息的操作可重复多次进行。并且,除一部分内容外,设置的内容可使用名称变更功能,属性显示功能之后进行更改。

1 创建集群

进行集群的生成,服务器的添加。

1-1 添加集群

添加构筑的集群,输入名称。没有Express5800/A1080a,A1040a 系列整合固有的项目。

1-2 添加服务器

添加服务器。设置服务器名,IP 地址等。没有Express5800/A1080a,A1040a 系列整合固有的项目。

1-3 设置网络构成

设置构筑集群的服务器间的网络构成。设置BMC 心跳资源为Express5800/A1080a,A1040a系列整合固有的项目。

1-4 设置网络分区解决处理

设置网络分区解决资源。没有Express5800/A1080a,A1040a 系列整合固有的项目。

2 创建失效切换组

执行失效切换时的单位,创建失效切换组。没有Express5800/A1080a,A1040a 系列整合固有的项目。

2-1 添加失效切换组

添加失效切换的单位,组。没有Express5800/A1080a,A1040a 系列整合固有的项目。

2-2 添加组资源

添加构成组的资源。没有Express5800/A1080a,A1040a 系列整合固有的项目。

3 创建监视资源

监视指定的监视对象,添加监视资源到集群内。

3-1 添加监视资源 (消息接收监视资源)

添加使用的监视资源。

1 创建集群的步骤

首先,创建集群。在创建的集群中添加配置集群的服务器,决定优先级和心跳的优先级。Express5800/A1080a,A1040a 系列整合固有的设置仅需 1-3。

1-1 添加集群

本项目中没有Express5800/A1080a,A1040a 系列整合固有的项目的设置。

1-2 添加服务器

本项目中没有Express5800/A1080a,A1040a 系列整合固有的项目的设置。

1-3 设置网络构成

设置构筑集群的服务器间的网络构成。

  1. BMC心跳的接发用通信路径(私网)可通过点击[种类] 列的单元格来选择[BMC]。请点击各服务器的列的单元格,输入BMC的服务器Web控制台用IP地址。

1-4 设置网络分区解决处理

本项目中没有Express5800/A1080a,A1040a 系列整合固有的项目的设置。

2 创建失效切换组

本项目中没有Express5800/A1080a,A1040a 系列整合固有的项目的设置。

3 创建监视资源

添加监视指定对象的监视资源到集群。然后在Express5800/A1080a,A1040a 系列整合功能中设置消息接收监视资源。关于监视资源的详细内容,请参照"何谓消息接收监视资源的 Express5800/A1080a,A1040a 系列整合" (19页)。

3-1 添加监视资源 (消息接收监视)

添加监视服务器发出的异常发生通知的接收监视资源。

  1. 在[组]中点击[下一步]。

  2. 显示[监视资源一览表]。点击[添加]。

  3. 打开[定义监视资源]对话框。在[类型]框中选择监视资源的类型 (消息接收监视),输入监视资源名 (mrw1) 到[名称]框。点击[下一步]。

  4. 输入监视设置。此处不对默认值进行更改,点击[下一步]。

  5. [种类]框中输入BMCNOTICE,[关键字]框中则输入可与各服务器的 BMC进行通信的OS端的IP 地址作为异常发生通知的通知目标 IP 地址。IP 地址因服务器不同而异,因此请务必进行个别设置。此事例中输入192.168.0.1 到[共通] 和 [server1]中,输入192.168.0.2 到[server2]。

  6. 复归动作中设置 [对复归对象执行失效切换]。原则上,在Express5800/A1080a,A1040a 系列整合中请选择本设置作为复归动作。

  7. 设置复归对象。点击[参照],在显示的树形图中选择 [failover1],点击[确定]。[failover1] 为设置为[复归对象]。

  8. 点击[结束]。

至此为止,创建 Express5800/A1080a,A1040a 系列整合固有项目的集群配置信息完毕。

2.2.4. 何谓消息接收监视资源的 Express5800/A1080a,A1040a 系列整合

当Express5800/A1080a,A1040a 系列中搭载的BMC查出异常时,立刻在EXPRESSCLUSTER中执行复归动作的功能。

不使用本功能时,一旦BMC查出异常就会马上执行服务器的重置等。因此不执行应用程序的结束处理等。

通过使用本功能,即便BMC查出异常时,也能在EXPRESSCLUSTER执行复归动作后进行服务器的重置。

下面是消息接收监视资源的 Express5800/A1080a,A1040a 系列整合中的运行概略图。

将BMC和NIC连接到同一个网络中,在内部运行消息接收监视资源的服务器

图 2.2 消息接收监视资源的 Express5800/A1080a,A1040a 系列整合的运行概要

2.2.5. 有关消息接收监视资源的 Express5800/A1080a,A1040a 系列整合的注意事项

除"Express5800/A1080a,A1040a 系列整合的注意事项"(13页)所记载的内容外,还需满足下面的条件。

  • BMC向消息接收监视资源发出异常通知由于使用 SNMP Trap,需要BMC 的网络接口和OS 的网络接口可利用TCP/IP进行通信。
    并且,BMC 连动用的设置中需要注意以下事项。
  • 种类需要设置为"BMCNOTICE"。

  • 关键字需要对各服务器进行分别设置。由于是异常发生时的通知目标,请在各服务器中设置为与 BMC相连接的 OS 端的 IP 地址和端口号。

2.2.6. 监视(固有)标签页

其他标签页请参考《参考指南》的 " 监视资源的详细信息"。

分类 (32 字节以内)

指定种类。
请务必指定 BMCNOTICE。

关键字 (1023 字节以内)

指定各服务器中可以与 BMC进行通信的IP 地址。此IP 地址为接收异常发生通知用的 IP 地址和端口号。

请务必使用服务器个别设置,对各服务器进行单独设置。

可省略端口号 (默认值为 162)。设置数值时,请指定设置所有的消息接收监视资源中的同一服务器的值为相同值。

记述格式如下。

<IP 地址>[:<端口号>]

3. 与服务器管理基础设施的整合

本章介绍Enterprise Linux with Dependable Support中包含的服务器管理基础设施的概要。

本章包含以下内容。

3.1. 服务器管理基础设施的概要

服务器管理基础设施是Enterprise Linux with Dependable Support中的产品之一。服务器管理基础设施是提供以下功能的软件。

  • 是记录与强化设备驱动器所检测到的故障相关的信息的功能。

  • 强化设备驱动器检测到系统致命故障时,与EXPRESSCLUSTER联动,执行失效转换的功能

详细信息,请参考Enterprise Linux with Dependable Support手册。

3.2. 与服务器管理基盘的整合概要

所谓与EXPRESSCLUSTER中的服务器管理基础设施的整合功能,并非EXPRESSCLUSTER自行执行监视,而是EXPRESSCLUSTER接收由driver模块自动发出的消息,被动执行失效切换等的整合功能。

以下显示概要图。

发生错误的Server1,正常的Server2以及Management PC

图 3.1 与服务器管理基盘的整合概要

Enterprise Linux with Dependable Support中包含的强化设备驱动器(以下称强化驱动器)在系统出现致命错误时通过服务器管理基础设施向EXPRESSCLUSTER发送消息。EXPRESSCLUSTER在接收到消息时执行以下动作。

  • 将对应的消息接收监视资源(mrw)的状态设为异常。由此,管理员可以从视觉上确认通过Cluster WebUI及EXPRESSCLUSTER的命令进行状态确认从而查出了异常。

  • 按照发生异常时所设置的动作,执行业务的失效切换及关闭OS。

3.4. 消息接收监视资源

消息接收监视资源对外部通知的错误消息进行监视。本节只介绍与服务器管理基础设施整合时的情况。其它情况,请参考《参考指南》的 "监视资源的详细信息"。

3.4.1. 与消息接收监视资源相关的注意事项

与服务器管理基础设施整合时,消息接收监视资源的状态由EXPRESSCLUSTER进行管理,因此,请不要使用[clprexec]命令。
指定了消息接收监视资源的关键字时,指定为关键字的设备在查出异常时将出现错误,执行查出异常时的动作。
未指定消息接收监视资源的关键字时,在与种类相同的任意一个的设备中查出异常时将出现错误,执行查出异常时的动作。

3.4.2. 使用消息接收监视资源进行监视的种类

与服务器管理基础设施整合时,消息接收监视资源接收的消息类型如下。

  1. NIC
    监视网络接口卡的错误消息。
  2. FC
    监视Fibre Channel的错误消息。
  3. HA/SS
    监视EXPRESSCLUSTER X HA/StorageSaver的错误消息。
  4. HA/AM
    监视EXPRESSCLUSTER X HA/ApplicationMonitor的错误消息。
  5. HA/RS
    监视EXPRESSCLUSTER X HA/ResourceSaver的错误消息。
  6. SPS
    监视SPS的错误消息。

3.4.3. 监视(固有)标签页

信息标签页,监视(共通)标签页请参考《参考指南》的" 监视资源的详细信息"。

分类 (32字节以内)

指定种类
请务必从列表框中选择默认字符串。

关键字 (1023字节以内)

指定监视对象。

3.4.4. 复归动作标签页

信息标签页,监视(共通)标签页请参考《参考指南》的 "监视资源的详细信息"。

设置复归对象和查出异常时的操作。如为消息接收监视资源,则查出异常时的动作从"重新启动复归对象","针对复归对象执行失效切换"或"最终动作"中选择1个。但,如复归对象处于停止状态时,则不进行恢复动作。

复归动作

选择监视器查出异常时的动作。

  • 执行复归脚本
    监视器查出异常时,执行复归脚本。
  • 重启复归对象
    监视器查出异常时,重启选中为复归对象的组或组资源。
  • 针对复归对象执行失效切换
    监视器查出异常时,针对选中为复归对象的组或组资源所属组执行失效切换。
  • 执行最终动作
    监视器查出异常时,执行选中为最终动作的动作。

在服务器组外进行失效切换

只可设置消息接收监视资源。设置是否在接收到异常检测通知时,让非主服务器组的其他服务器组执行失效切换。

* 关于其它设置项目,请参考《参考指南》的 "监视资源的详细信息" - "监视资源的属性" - "复归动作标签页"。