
摘要 IBM高性能计算机系统承担着中国气象局主要气象气候业务科研模式运行,整个系统的数据交换网络是通过HPS(High Performance switch)来实现的。2006年9月21日,IBM高性能计算机系统的HPS网络发生故障,导致了科研分区不能使用,但没有影响业务模式系统。文章主要介绍了这次故障现象和解决办法,分析了故障发生的原因,并通过对故障的分析总结,探讨了目前存在的问题,以及以后的一些工作计划和建议。
引言
IBM高性能计算机系统承担中国气象局主要的天气气候业务科研模式运行,系统在2004年末安装以来,运行一直比较平稳。在整个系统中,数据交换是通过IBM HPS(High Performance Switch)网络实现的,通过SWITCH网络为用户的并行作业提供通信。如果SWITCH网络出现问题,就会影响模式的运行效率,甚至可以导致整个系统不能使用。在2006年9月21日,科研分区的SWITCH网络故障,导致了整个科研分区的瘫痪,9月24日故障恢复;此次故障对数值预报系统和动力气候模式预测系统的业务模式没有影响,只是涉及了科研分区的用户和作业。
1 故障基本情况
1.1 故障现象
2006年9月21日,科研分区的系统性能下降,用户作业的运算速度比较慢,检查发现HPS(High Performance Switch)[1]网络的通信状态大面积出现异常,影响了GPFS(General Parallel File System)[2]数据文件系统和作业管理软件L DLEVEL的正常运行,导致用户无法使用数据空间和正常提交用户作业,最终导致了用户无法使用科研分区;在SWITCH网络通信正常后,GPFS文件系统中的有些文件不能正常访问。
1.2 处理过程
在故障发生后,为了确保不影响业务,代写论文 对系统上运行的业务模式分析并做应急处理。系统承担的业务模式包括数值预报业务模式系统和动力气候模式系统,这些业务模式都运行在业务分区,但是动力气候模式系统的用户空间挂接在科研分区的服务节点上,为了避免维护科研分区时影响业务,紧急切换HACMP(High Available Cluster Multi—Processing),使文件系统挂接在业务分区。
在确保业务可以稳定运行后,由于当时用户已无法使用科研分区,因此首先申请对科研分区进行停机维护,然后分析并解决故障,处理过程如下。
(1)分析HPS网络通信数据,发现F45一S11和F46一S07的两块主板上的芯片内部通信不正常,决定更换这两块主板;但由于备件新损的原因,只有一块主板可用,只更换了F46一S07 SWITCH的主板。
plc正常启动时,刚开始30秒左右cpu上的灯都会闪亮,后只有dc5v和run两个绿灯亮时,表示启动完毕,运行正常。电子式电(diàn)能(néng)表(biǎo)可分为全电子式电(diàn)能(néng)表(biǎo)和机电式电(diàn)能(néng)表(biǎo)。电(diàn)能(néng)表(biǎo)按其工作原理可分为电气机械式电(diàn)能(néng)表(biǎo)和电子式电(diàn)能(néng)表(biǎo)。
(3)用SWITCH管理界面检查SWITCH状态时,显示大量节点存在光纤卡故障的报错ibm 高性能计算机,但光纤卡的状态指示灯显示正常,更换了5块光纤卡进行检测,没有作用,故排除了光纤卡故障的可能。
(4)收集SWITCH的SNAP数据传给美国实验室,对数据进行分析;经过数据的多次收集传递,美国实验室SWITCH产品专家对底层数据进行分析后,建议对F20、F21、F22、F24、F28、F30、F34、F36、F38、F45、F46、F47、F48、F49、F50机柜进行电源微码刷新,刷新为统一的26A6版本后,SWITCH网络恢复正常。
(5)系统启动后,对科研分区进行检查,发现不能正常访问GPFS文件系统,3个文件系统均报I/O读的错误,但可以正常写入数据;fsl可以用mmfsck命令进行修复,但fs2和fs3均各有一个NsD(Net—work Shared Disk)的状态为“down”状态,然后手工启动GPFS文件系统,整个系统恢复正常。
2 故障原因分析
2.1 控制信号传输过程
从图1可见,IBM 高性能计算机系统是通过硬件控制终端HMC(Hardware Management Console)对主机和SWITCH的硬件进行控制,通过HMC上的SNM (SWITCH Network Manager)软件管理HPS,在HMC上启动FNMD(Federation Network Manager Daemon)进程,实现对HPS网络的配置、初始化、监视、控制、恢复、分析和诊断。此功能与节点是否安装操作系统无关,因为这些指令直接由HMC发起,控制指令都是通过电源传输的,只要电源正常,就会响应执行,SWITCH的拓扑结构是在电源启动的过程中通过自检获得的。
每个HMC系统有一个RS232串口连接CSP(Common Service Processor)[2],代写毕业论文实现对主机的控制和管理,如开机、关机、关闭系统、重新启动等;有两个RS422串口分别连接节点和SWITCH机柜的两个BPA(Bulk Power Assembly)电源,实现对BPA的监视和firmware管理。所有的HPS都是通过BPA提供电源,对于每一个SWITCH,通过HMC将信号发送给BPA,再通过BPA 将控制信息通过SWITCH的DCA(Distributed Converter Assembly)电源传送给SWITCH,来实现对SWITCH的管理。

2.2 SWITCH初始化实现的功能
在启动SWITCH之前ibm 高性能计算机,首先要确保HMC已经正常启动;在SWITCH 机柜加电后,由SSP(SWITCH Service Processor)控制SWITCH的加电过程,在每一个SWITCH芯片的寄存器中记录本地以及相邻芯片的机柜号、端口号等信息。
在节点机柜加电后,每个SNI芯片寄存器中保存自己的机柜号和GX-BUS信息,并将这些信息传输给相邻的SNI芯片寄存器。
由HMC节点启动FNM进程,对所有的硬件控制器初始化,配置FNM 网络;网络配置好以后对FNM初始化,FNM 将与每个激活的SWITCH和SNI网络部件通信;将FRAME、CHIP、PORT、ROUTE、SWITCH等信息都保存在寄存器中,节点转入LPAR状态后将信息保存在内存中,SWITCH初始化完毕。
2.3 故障原因分析
在2006年6月到9月期问,科研分区共更换了7块BPA机柜电源、8块SWITCH DCA电源、8块p655 DCA节点电源。
由于IBM高性能计算机系统的有些电源模块被更换,并且有些备件号发生了变化,虽然新备件可以实现对原备件的替代功能,但是新旧电源备件的微码版本部分存在不一致;而SWITCH的控制信息是通过HMC—BPA—DCA进行传送,电源相关部件微码版本的不一致影响了信息的正常传送,进而影响SWITCH的网络初始化,不能得到正确的网络拓扑结构,导致不能建立正常的SwITCH通路;而通过刷新一次机柜电源BPA同版本微码,使电源模块上的通信进程状态重新初始化(归零操作),清除了电源模块上的错误通信信息记录,可以将控制信息正确传送,重新建立了正确的网络通路。
GPFS文件系统不能正常读写主要是由于SWITCH网络通信不稳定,GPFS的通信频繁发生中断,所以GPFS的文件系统也会频繁异常上线或离线(mount或umount状态),使GPFS文件系统控制的有些硬盘上的NSD(Network Shared Disk)控制信息不一致,GPFS为了保证数据的安全性,系统自动对此NSD进行了隔离操作。
3 故障事件的分析和启发

该设备实现自动化的操作模式,操作过程的简单性和顺畅性,为操作人员提供了方便的空间,而且设备的维护和保养很简单,维护成本低,故障率低,综合性能强,从破碎机到分选工作,每一个环节处理的都非常得当。我们本着“诚信置业,顾客至上”的办事原则,郑重承诺:不收开机检测费,免费检测相机故障,找到原因所在,咨询日常相机的维护问题.一遍用户日后会更好的维护相机。此类 故障危害程度大,影响范围将造成分区或整个系统与外界通信中 断,信道传输系统属集团公司电信中心运维部维护职责。
3.1 系统可靠性验证
由于在系统设计上考虑了用户文件系统高可用性的设计以及全局的用户环境一致性,代写职称论文 同时在日常维护工作中对用户文件系统都做了备份,因此对业务用户没有造成影响。
3.2 系统本身的问题
SWITCH设备故障率比较高:从系统投入运行以来,SWITCH设备的故障率就比较高。2006年5月1日到10月31日期问,科研分区就出现了39次SWITCH硬件故障,其中光纤卡故障22次,铜卡故障6次,主板故障1次、电源故障10次;业务分区有17次SWITCH硬件故障,其中光纤卡故障8次,电源故障9次。
故障诊断定位难:在对SWITCH设备维护时,光纤卡和铜卡的故障诊断相对容易,故障现象明显,有冗余连接,一般不影响系统和用户的正常使用;而SWITCH背板故障及电源微码不一致等故障,则不容易定位具体的故障点,对系统的影响也比较大。
3.3 日常维护及管理问题
12.eec 包括大量的连续使用的自测路程,通过测试证实输入数据,通道部件和输出驱动器工作的正确性,自检测试bite发现和隔离eec和它输入输出部件内的故障,并以故障代码的形式储存在两个通道的储存器上,这些故障可用中央维护计算机选取,在地面维护或eec 返厂维护时审查和评估 故障检测方式和处理 (1)单一传感器的丧失通常不会导致通道的关断,在这种情况下主控通道通过交互通道数据交换总线从备用通道的相同敏感元件接受缺失的信息。引入硬件运维公司(硬件及网络日常运行的维护管理)。我们本着“诚信置业,顾客至上”的办事原则,郑重承诺:不收开机检测费,免费检测相机故障,找到原因所在,咨询日常相机的维护问题.一遍用户日后会更好的维护相机。
管理流程不完善:从本次故障来看,备件不能满足在重大情况下的处理要求;厂家技术支持不畅通,响应速度慢,这都直接延长了故障恢复时问。

4 后续工作和建议
此次故障发生后,陆续完成和制定了一些工作计划。
flash [ ] 将文件写入分区.文件必须正确的格式.分区名有但不限于system,recovery,boot,splash1,hboot,radio,userdata,cacheerase 清空一个分区.getvar 显示一个启动参数boot [ ] 将电脑上的内核下载到手机并用该内核启动系统.flash:raw boot [ ] 创建boot.img并下载到手机启动系统.devices 列出所有与电脑连接的设备.reboot 正常启动系统reboot-bootloader 启动系统到hboot-w 清空用户数据分区和缓存分区.相当于recovery中的"wipe data/factoryreset"-s 指定要操作的设备的串口号-p 指定要操作的设备的产品名.比如hero,bravo,dream...-c 用命令行替换系统的启动命令行.system:系统分区.我们刷机器一般就是刷的这个分区.userdata:数据分区.cache:缓存分区recovery:recovery分区.boot:存放内核和ramdisk的分区.hboot:这个是spl所在的分区.很重要哦.也是fastboot所在的分区.刷错就真的变砖了.splash1:这个就是开机第一屏幕了.radio:这个是基带所在的分区.。()只要点击“网络更新”,它会自动连接到qdi网站搜索下载此主板的最新bios,下载完毕后会先出现警告对话框,提示用户将bios写保护功能关闭,确定后,点击刷新对话框中的“更新”即可完成更新工作。据其今年中报显示,数据中心业务最早在明年上半年才能完成 70%左右的机柜建设工程并进入销售阶段。
(1)评估申请状况、选择合适的学校、制定申请方案。制定环境应急物资储备计划,建立应急物资储备库,组织应急物资的监管、生产、储存、更新、补充、调拨和紧急配送等工作。第二十条 机械制造企业应当结合本单位危险源状况,建立健全安全生产应急救援体系,制定相应的应急预案,配备必要的应急救援装备与器材,定期开展应急宣传、教育培训和演练,并按照规定对应急预案进行评审和备案。
(3)完成了系统存储资源的扩充。扩大了目前用户的存储资源,并满足了业务应用系统备份的资源需求。
正常情况下,打开开票软件将会完成自动升级,开票软件会先自动升级到v2.1.30.161224版本,再自动升级到v2.1.30.161225版本。原标题:dota2美国时间2017年11月22日更新解析新赛季天梯来临dota2今天有一个151mb左右的更新,主要是新的赛季天梯系统推出hoho新的天梯系统将是赛季奖章系统,赛季周期为6个月,目前一共有7个奖章级别,每个奖章有1星到5星的标准,达到5星以后,系统会根据表现升级到下一个奖章级别。1.将硬盘微码升级到最新版本,下载硬盘微码升级程序,选择对应的文件升级。
第一,分公司客服必须保持自己库存的剩余量,及时申请备件,并确保常用备件充足,以防服务站急需时没有备件可发。(5)紧急响应提供的紧急响应专家服务主要是针对用户网络、主机设备系统遭受入侵等威胁的情况下提供的服务。所谓“全心服务”具体体现在:首先,从技术角度讲,惠普提供的原厂服务有绝对的技术优势、全球的技术响应中心、全天24小时响应,无论客户身在何处,都可以在第一时间帮助他们排查问题,尤其针对企业关键业务支持,使客户的it维护工作多一份安心。
(6)加强维护手段和交流。在日常维护中,代写工作总结 不仅是满足于简单的问题解决,需要深入分析诊断,找到问题的真正原因,避免潜在的隐患故障;同时要多通过学习以及技术交流,加深对全系统的了解,不断提高维护水平,提高自己的故障解决能力。
5 结束语
此次故障虽然没有对我们的业务造成影响,但是通过此次故障情况,我们看到了我们还存在的许多不足,需要我们在以后的工作中加以改进。通过不断地分析和总结,维护好我们的系统,保持系统高效稳定的运行。
参考文献
[1] IBM,Inc.An Introduction to the New IBM F.server pS~#39;ie8 High Performance SWITCH [EB/OL].http://www.redbooks.ibm.com/Redbooks.nsf/RedbookAbstracts/SG246978.htm1.
[2] IBM,Inc.General Parallel File System Administration and Pro.gramming Reference[EB/OL].http://publib.boulder.ibm.comAnfocenter/dresetr/vxrxAndex.jsp?topic=/corn.ibm .clus—ter.gpfs.doc/gpfsbooks.htm1.
本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/jisuanjixue/article-117606-1.html
现在需要探讨的是对美斗争的策略
但就因为他对美国说“关你鸟事”
记得咩咩在有一期综艺节目里曾经说过他最爱吃的是妈妈的红烧肉忘了那个节目了不过大家有兴趣的可以收收看
真够恶心的