服务器RAID磁盘坏道修正实战51CTO博客 - AG环亚娱乐

服务器RAID磁盘坏道修正实战51CTO博客

2019年04月14日09时15分33秒 | 作者: 尔曼 | 标签: 磁盘,进行,效劳 | 浏览: 555

上星期在线监控体系nagios发送了一条报警正告短信,内容大体是磁盘阵列过错

所以乎登陆报警效劳器使磁盘阵列检测东西进行了详细的检查,陈述显现

Media Error Count :2

既然是正告也就不是特别严重的过错,经过与戴尔工程师的承认,是磁盘呈现了坏道,由所以图片效劳器且有备份,暂时没有去机房处理。

过了两天又呈现了另一台MySQL数据库效劳器也发出了相同的警报,可怕的是经过检测陈述的

Media Error Count :24

Other Error Count:2

看样子效劳器在本年是硬件毛病高发期啊,Dell效劳器假如不是由厂家进货的话,假如你是保护的人员可就要留神了。

我说的什么意思你懂得!


    所以发邮件和总监和开发司理进行交流,邮件中说了毛病的详细情况,而且给出了当时的紧迫处理办法(其间图片效劳器做了文件的异机备份,数据库效劳器由所以主从结构,这个不必太忧虑,切每天都有备份方案本地和异地)有一点效劳器的磁盘是支撑热插拔的,也便是说不必停机进行磁盘的替换是没有问题的,可是为了安全平稳经过交流共同以为在晚上比较适宜(其实这完全是没决心导致的,白日处理其实影响不大,或许便是会导致IO负载高一些),避开了事务顶峰和拜访顶峰,这样给咱们处理问题供给了足够的时刻。

    最让我定心的是效劳器的阵列装备是经过4块磁盘做的RAID5+hot spare 这样的装备有一个很大的优点便是: 假如正常的RAID5中的三块磁盘有任何一块损坏了,RAID阵列暂时是安全的

假如装备了热备盘,那么热备盘会在RAID阵列中某块磁策画坏的时分进行候补,RAID阵列重建。 当损坏的磁盘替换后。 热备盘会辨认到,然后将本身的数据与新替换的磁盘进行数据同步。当数据同步完结之后就会康复到本来的人物-热备盘。 好奇特啊:)

     知道了阵列的作业原理也就不必忧虑了,第二天晚上依照事前方案好的方案进行

首要进行重要文件的手艺备份以坚持备份的最新,图片,数据库等备份到异地Ok

然后依照预先的方案,拔下毛病磁盘,当即刺进新的磁盘,这个时分,新刺进磁盘会闪耀几秒钟,这个进程便是主板辨认的进程,然后指示一向处于停止状况。

这个时分第四块硬盘也便是热备盘的数据读写灯狂闪,你应该猜到了,热备现已检测到有磁盘掉线了,然后就主动参加RAID进行重建,300G的容量大约重建完结用了30分钟的时刻

为了验证我的主意,我把图片效劳器进行了重启然后进入到BIOS里边的RAID卡装备东西里边进行检查,这个时分显现的是热备盘参加阵列进行重建,而替换的新磁盘状况是READY

等了大约30分钟后,RAID重建完结。 替换的新磁盘的状况立刻就变成了 replacing 。这个进程大约相同需求30分钟左右。

在体系中进行检测磁盘的状况是 cpoyback。

最终正常的状况是 热备盘的人物康复成热备形式,阵列完结重建,正常作业。

进入体系从头检测过错消失了

注:以上说道的在体系中检测的详细东西是:

/opt/MegaRAID/MegaCli/MegaCli64  -PDList -aAll


版权声明
本文来源于网络,版权归原作者所有,其内容与观点不代表AG环亚娱乐立场。转载文章仅为传播更有价值的信息,如采编人员采编有误或者版权原因,请与我们联系,我们核实后立即修改或删除。

猜您喜欢的文章