XtremIO 是EMC过去主推的一款全闪存储系统,号称性能小怪兽,对付那些对于性能要求极高的业务场景是比较合适的,先后推出了1代和2代产品,目前这个产品好像未来的演进到了PowerStor或者PowerMax全闪,应该不独立发展这个产品了。
由于这款产品推出时间短,市场考验的时间也不是很长,所以产品在维护方面有很多的问题,不是很友善和方便。本文就对我们在处理XtremIO维护过程中的一些典型问题分享给大家,对于出现的具体问题,可以添加vx(wechat) 在StorageExpert进行进一步的沟通。
首先,最重要的一点,这个产品的所有部件更换不是热插拔,不是热插拔,不是热插拔,重要的问题说三遍。即使冗余的控制器电源、扩展柜电源这些部件,也不是热插拔的。热插拔后,会带来一些列的问题,后患无穷。但总有一些人,说我就是直接更换过电源,没有出现问题呀,系统还正常运行呀。问题是你这是把坑留给了别人,如果后面还有部件故障,可能就是double fault。这种问题我一般就不讨论了,你和一个认知存在障碍的人是无法沟通的。他的认知世界就是“发射火箭需要水洗煤,而不能是普通煤球”。
第二,所有的部件更换都建议使用专门的工具,叫做Technician Advisor Utility,简称TA。这个工具有很多个版本,好像是 2.X,3.X和4.x,每个版本对应的是不同的XMS版本。要使用这个工具之前先要搞清楚客户的XtremIO操作系统版本,然后再找对应的TA版本,坚决不要搞错了。
第三,如果没有这个TA工具,是否可以手工更换部件。答案是可以的。在XMS管理控制台上有专门的命令行工具,以replace开头的都是,下面就是replace的命令
replace-bbu replace-infiniband-switch
replace-dae replace-infiniband-switch-fan-module
replace-dae-controller replace-infiniband-switch-prepare
replace-dae-controller-prepare replace-infiniband-switch-psu
replace-dae-fan-pair replace-local-disk
replace-dae-prepare replace-ssd
replace-dae-psu replace-ssd-prepare
replace-dae-row-controller replace-storage-controller
replace-dae-row-controller-prepare replace-storage-controller-prepare
replace-dimm replace-storage-controller-psu
replace-dimm-prepare
但是这些手工更换的命令是给那些非常专业的人员使用的,他知道那些情况可以直接更换,然后运行命令做更新,那些不可以。对于我们这些对于产品接触少的人,建议不要使用。
第三,什么是TA工具呢?
下面是TA2.8工具的说明,给大家翻译过来看看。4.X工具的能力更强,但是4.X对于某些版本是不支持的。目前我们大量遇到的是XtremIO的1代产品,绝大多数都用到的是 2.8版本。所以这里对2.8版本做个介绍。
XtremIO Technician Advisor工具为客户服务工程师(CE或FSS)提供了一种半自动化的方式来执行XtremIO集群上的各种支持任务。XtremIO Technician Advisor工具不支持2.4版本之前的XtremIO。
XtremIO Technician Advisor工具的功能包括:
- 监控集群:通过Technician Advisor GUI 可以查看X-Bricks,还能旋转各种角度观察,以便清晰查看集群的组件,无论是在前端还是后端。
- 检查系统健康状况:运行XtremIO健康检查脚本(HCS)来检查集群的健康状况。
- 检查XtremIO集群电缆:检查连接性和完整性。
- 在XtremIO集群上执行签名脚本:上传并执行签名脚本,包括执行加密分区初始化脚本的能力。
- 导入/导出集群配置:半自动方式将一个集群的配置导出到另一个集群,或导回到同一个集群(例如,在将集群的设置复制到灾难恢复站点时)。
- 更改IP配置:半自动更改XMS和/或集群的IP配置。
- 更换存储控制器:半自动更换XtremIO集群的存储控制器。
- 更换DIMM:半自动更换XtremIO存储控制器的DIMM。
- 更换电池备份单元:半自动更换XtremIO电池备份单元。
- 更换SSD:半自动更换XtremIO集群的SSD。
- 在线扩展集群:以不中断的方式在线扩展XtremIO存储阵列,从单个X-Brick集群扩展到双X-Brick集群,从双X-Brick扩展到多X-Brick集群,以及从多X-Brick集群扩展到更大的集群。
第四,看看TA 2.8工具长什么样子
连接XMS或者SC的tech port登录后的外观如下:
第五,运行TA工具,检查过不去,脚本不让执行怎么办?
这个要看具体是什么问题,有些问题是可以跳过去的,但有些问题必须是要解决了才能更换,否则即使跳过,后面更换也会失败,而且还会带来更麻烦的后果,甚至丢失数据。其实这也是为什么XtremIO的部件更换要如此限制的原因。
对于如何跳步,遇到问题,可以联系我们,加vx 在StorageExpert。
好了,今天周末送福利就到这里,都是泪呀。要去处理一个由于未按照流程去做,把问题搞的很复杂的xtremIO 1代case去了。