春季开幕式“华为云技术收藏”将与各大厂商的100多种前沿技术分享! >>>
最近,该公司其中一台服务器的磁盘警报为“磁盘阵列错误”。检查后,发现磁盘为:“ PD0 / PD1 / PD2硬盘中错误DevId和BadStripe PD0 PD1”。需要在服务器磁盘完全崩溃之前执行raid修复。过程如下:
故障排除
根据警报信息定位:
查看服务器的当前配置信息
主要检查当前服务器磁盘的RAID类型,结果如下:
[root@db08 linux]# hwinfo
basename: 缺少操作数
Try 'basename --help' for more information.
{
"机器型号":"R430",
"机器高度":"1U",
"CPU信息":{"CPU型号":"E5-2620","核数":6,"线程":12,"CPU个数":2},
"内存信息":{"内存型号":"M393A2G40DB0-CPB,NotSpecified","每条大小":"16G","条数":2},
"系统盘信息":{"磁盘类别":"SAS","磁盘大小":"600G","磁盘个数":4,"阵列类型":"RAID-10"},
"运行盘信息":{"磁盘类别":"","磁盘大小":"G","磁盘个数":0,"阵列类型":" Layout RAID-10"},
"备份盘信息":{"磁盘类别":"","磁盘大小":"G","磁盘个数":0,"阵列类型":" Layout RAID-10"},
"操作系统版本":"CentOSrelease",
"快速服务代码":"943XG82",
"其他信息":"null"
}

根据结果确定磁盘的raid类型为raid10。如果磁盘严重损坏且仅一个磁盘正在工作,则看不到工作类型,结果为如下:
[root@db08 linux]# hwinfo disk
basename: 缺少操作数
Try 'basename --help' for more information.
{
"机器型号":"R430",
"机器高度":"1U",
"CPU信息":{"CPU型号":"E5-2620","核数":6,"线程":12,"CPU个数":2},
"内存信息":{"内存型号":"M393A2G40DB0-CPB,NotSpecified","每条大小":"16G","条数":2},
"系统盘信息":{"磁盘类别":"/dev/sda","磁盘大小":"600G","磁盘个数":4,"阵列类型":"No"},
"运行盘信息":{"磁盘类别":"","磁盘大小":"G","磁盘个数":0,"阵列类型":" Encrypted No"},
"备份盘信息":{"磁盘类别":"","磁盘大小":"G","磁盘个数":0,"阵列类型":" Encrypted No"},
"操作系统版本":"CentOSrelease",
"快速服务代码":"943SG82",
"其他信息":"null"
}
到目前为止,只能确定RAID的类型,那么是什么导致磁盘阵列故障?请观看以下部分。
故障位置:请求支持
如何找到问题所在? ? ?答案只有一个:日志!
日志太多,需要查看哪些日志?如果我对硬件一无所知,则只能请求支持-Dell服务器技术支持()。
故障位置:信息收集
戴尔技术支持将提供一个日志收集工具,在这里我们建议使用MegaCLI8_Linux.zip(为方便起见,已上载到本地镜像库,内置使用说明),如果要下载和使用,请单击链接。在家工作,此地址无法使用,请提供个人自愿地址:链接:密码:3dqn。

安装和使用
因为下载的安装包包含使用说明,所以在此不再赘述,仅记录使用过程中的一些问题:
# 安装出现冲突(注意:使用Run脚本安装的时候看不到该错误,所以需要手动安装调试)
[root@db08 linux]# rpm -ivh Lib_Utils-1.00-09.noarch.rpm MegaCli-8.02.21-1.noarch.rpm
准备中... ################################# [100%]
file /opt/lsi/3rdpartylibs/x86_64/libsysfs.so.2.0.2 from install of Lib_Utils-1.00-09.noarch conflicts with file from package srvadmin-storelib-sysfs-9.1.0-2757.12163.el7.x86_64
# 原因是与Dell服务器自带的包srvadmin冲突,直接将其卸载即可
[root@db08 linux]# rpm -e srvadmin-storelib-sysfs-9.1.0-2757.12163.el7.x86_64 --nodeps
[root@db08 linux]# rpm -ivh Lib_Utils-1.00-09.noarch.rpm MegaCli-8.02.21-1.noarch.rpm
准备中... ################################# [100%]
Installing....
正在升级/安装...
1:Lib_Utils-1.00-09 ################################# [ 50%]
2:MegaCli-8.02.21-1 ################################# [100%]
# 安装完成后更改Run脚本,把安装操作注释掉,直接进行日志采集
[root@db08 linux]# ./Run-Linux-PERC6-v1.0.sh
WARNING!!!!!!
TTY Log collecting, Please wait a moment! Thanks!
Success in AdpEventLog
FINISH......
PERC TTY-log Tools for Linux had collected the logs to PERCLINUX.tgz
Please send the PERCLINUX.tgz file to DELL support, thanks!
完成日志收集后,将日志文件发送给技术支持(另一方会提前通过电子邮件与您联系)。
故障位置:电视剧的结尾!
戴尔技术支持将在对日志进行故障排除后反馈结果和处理建议。后续工作需要与ucloud机房和Dell工程师协调时间,更换磁盘,记住在备份磁盘之前备份数据并做好迁移工作! ! !
数据备份和服务迁移检查当前服务器信息
迁移和备份之前要做的第一件事是了解服务器的当前状况,主要包括以下各项:

实施迁移
首先检查现有服务器,以查看是否有足够的资源。如果资源足够,请直接使用它们。如果资源不足,请暂时申请云托管。注意:如果您使用物理机器资源,则必须记住配置iptables规则以根据源服务器释放服务端口。不需要云主机。申请时可以直接使用Intranet防火墙。
由于该公司集成了devops自动化操作和维护管理平台,因此可以在环境部署过程中直接通过devops完成。如果公司尚未实现自动化,则需要手动部署。
迁移过程如下:
如果未将项目添加到devops管理中,则需要对其进行手动处理,例如test_typo项目; Geo_location,ip_location直接将配置文件从源计算机复制到备份主机以启动它; filebeat(收集日志)等需要通过ansible部署;项目迁移完成后,检查服务的可用性,然后medweb项目可以检查日志信息(此处收集的日志表明服务正常):
注意:外部服务还需要通知第三方(百度,微信等)来配置ip白名单(物理机当前使用统一的外部网络IP,不需要处理;云主机使用端口由nat网关完成映射,需要提醒第三方将网关ip添加到白名单);磁盘更换和&项目迁移
数据迁移后,请与Dell技术支持和ucloud机房经理联系以协调机房的进入时间,并在协商后在ucloud上填写服务表格。
完成磁盘更换后,安排ucloud机房管理人员重新安装系统,在检测正确后将原始服务移回原处,并在确认正常操作后释放临时应用的云主机资源。
本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/dianqi/article-360342-1.html
公关出力了