

高性能计算(HPC)是计算机集群系统. 它通过各种互连技术将多个计算机系统连接在一起,并使用所有连接系统的综合计算功能来处理计算问题. 高性能计算方法的基本原理是将问题分为几部分,并且每台相连的计算机(称为节点)可以同时参与解决问题,从而大大减少了解决问题所需的计算时间整个问题.
本文的参考地址:
1群集系统的概念群集是通过网络技术连接的工作站或PC的组合. 这些工作站或PC作为单个集成计算资源一起工作. 这些单独的计算机是群集的节点(节点).

1.1.1群集计算机系统是并行处理的主流. 加快群集计算机速度的前提是微处理器和网络技术的进步. 群集计算机是一种使用高速通信网络连接一组高性能工作站或高端PC网络结构的系统. 它支持并行编程和可视化人机交互集成开发环境,从而支持统一编程,协调处理和高效的并行处理. 从节点之间的结构和通信方式的角度来看,它属于分布式存储系统. 它主要使用消息传递来实现节点之间的通信. 已实施并且正在研究中的大多数群集系统都使用现有的第一代商用工作站和通用LAN网络. 这不仅缩短了开发周期,而且还利用了最新的微处理器技术.
1.1.2集群系统的分类根据应用目的,可将其分为高性能计算集群和高可用性集群. 高性能计算(High Perfermance Comput2ing)群集,称为HPC群集,是将多台计算机连接在一起以同时处理复杂计算问题的群集,提供了单台计算机无法提供的强大计算能力. 高可用性集群,称为HA集群,其主要功能是提供不间断的高可靠性服务. 根据节点的所有权,它们可以分为专用群集和非专用群集. 在专用群集中,所有资源都是共享的. 并行应用程序可以在整个群集上运行,而在非专用群集中,全局应用程序可以通过占用CPU时间来运行. 在非专用群集中,由于本地用户和远程用户之间争用处理器,因此带来了诸如进程迁移和负载平衡之类的问题. 根据节点的操作系统,它们可以分为Linux群集,So2 laris群集,NT群集等;根据节点是否相同,可以将它们分为同质簇和异类簇. 同构集群中的每个节点都具有相似的体系结构并使用相同的操作系统,而异类集群中的节点可以具有不同的体系结构,并且它们运行的操作系统也可以不同. 根据节点模型,它可以分为PC集群,工作站集群和SMP集群.
1.1.3集群系统的功能:
高可扩展性以增加CPU频率和总线带宽是最初提供计算机性能的主要手段. 但是这种方法提供了有限的系统性能. 然后人们通过增加CPU数量和内存容量来提高性能,因此出现了矢量机,对称多处理机(SMP)等. 但是,当CPU的数量超过某个阈值时,诸如SMP之类的多处理器系统的可伸缩性变得非常差. 主要瓶颈在于,CPU访问内存的带宽不能随着CPU数量的增加而有效增长. 与SMP相比,群集系统的性能几乎与CPU数量成线性关系. 11312高可用性群集中的节点发生故障,并且其任务可以传递给其他节点. 可以有效地防止单点故障. 11313高性能负载平衡群集使系统可以同时访问更多用户. 11314高性能群集(Cluster)技术使用特定的连接方法来组合价格相对较低并符合行业标准的硬件设备,同时还提供高性能和同等的任务处理能力.

影响集群系统并行计算的两个因素
2.1.1网络性能因素快速消息传递系统的群集计算机是基于高速通信网络互连的系统. 网络性能的好坏对
组计算机并行计算效率的提高,处理问题的范围以及系统的可伸缩性都有很大的影响. 通信延迟时间是衡量网络性能的重要因素,其中包括协议软件处理开销和网络硬件处理时间. 尽管高速网络硬件减少了网络的传输延迟,但是并没有减少通信软件的处理开销. 由于软件处理开销占很大的比例,因此在很大程度上阻碍了高速网络实际性能的提高. 在网络群集系统中,影响通信系统性能的瓶颈不再是网络硬件的性能,而是通信软件的处理开销. 传统的TCP / IP协议是专为广域网设计的互联协议,它提供了复杂而强大的功能. 这些复杂的功能将不可避免地带来大量的软件开销. 因此,此协议不适合用于并行处理的群集计算机. . 此,较高的通信链路可靠性以及相对简单的系统结构. 为了减少通信软件的处理开销高性能计算机系统,有必要通过研究有效的通信协议来设计适用于群集计算机系统的快速消息传递机制,以为用户提供低延迟,高带宽和高度可靠的通信模式. 改善系统性能. 的目标.
2.1.2可视化并行程序开发和调试环境因素影响并行机普及的最重要障碍之一是难以在并行机上编写,编译,链接和调试程序. 尽管有许多强大的并行环境,但是编写高效的并行程序仍然很困难. 主要是因为这些并行环境的重点是运行环境,所以对编程环境的便利性和实用性以及缺乏实用工具的关注不足. 友好,实用,方便的可视化人机交互集成开发环境,该环境应为应用程序程序员和最终用户提供编辑,以多种语言进行编译,链接,组装,配置并行环境,显示每个节点的资源使用并执行并行任务. 加载,运行,状态监视和控制,性能评估和并行调试以及帮助,以便用户可以轻松地在此环境中编写并行程序,进行编译和链接,并通过性能监视分析比较并行算法以发现性能瓶颈,优化并行算法设计,最后编写高效的并行程序. 这对于解决并行处理技术的实用性具有实际意义. 并行程序的可视化是当前并行程序环境中的重要趋势. 通过控制流和数据流模式的图形,程序员可以直观地看到并行程序的运行过程. 用户可以直观地找到并行程序的瓶颈. 并行程序的调试和提高编译效率可提供有效的分段.

2.1.3程序并行化因素自从计算机发展到今天,已经积累了大量的应用程序软件. 手动将这些软件重写为等效的并行软件是一项非常繁琐的任务. 用户渴望在并行系统上运行,而无需对现有应用程序进行任何更改. 因此,有必要设计和实现并行编译系统. 经过近年来的研究,自动并行化系统已经大大提高了并行化能力,但是在并行化一些串行程序之后,生成的并行程序的提速仍然不能令人满意. 这样做的原因是,全自动并行系统中的相关性分析算法,数据分区算法和通信生成算法无法有效地处理这些应用程序的复杂性. 除了算法本身的能力不足之外,它还缺少相关的程序语义信息. 交互式并行系统引起了特别的关注. 除了考虑全自动系统的功能和特性,交互式并行系统还允许用户选择是否在系统中使用交互式行为. 当不使用交互式功能时,系统将成为全自动并行系统. 如果用户认为全自动并行化的效果不好,则可以选择使用交互功能来进一步提高并行代码的质量.
2.1.4容错和高可用性的技术因素越来越多的应用对计算机系统的性能,可靠性和可用性提出了越来越高的要求. 并行处理是提高计算能力和满足不断增长的应用程序需求的有效方法. 容错技术是提高计算可靠性和可用性的重要保证. 随着系统规模的不断扩大,工作站/ PC群集计算机在计算过程中发生故障的可能性呈指数增长. 同时,由于群集计算机系统通常由多个用户使用,因此诸如节点之类的资源具有相对可变的特征. 当系统中发生各种异常或故障事件时,此并行计算将完全失败. 无法再使用以前的大量计算. 为了使群集计算机系统在上述领域得到广泛应用,系统需要具有一定的容错能力,以确保在发生各种异常事件或故障时可以为用户提供连续的服务. 尽管有很多方法可以实现容错功能,但是它们都不能有效地应用于工作站/ PC群集计算机. 检查点设置和回滚恢复技术作为一种向后恢复技术,通过在系统正常运行期间设置检查点,可以保存系统的当前一致性状态,并执行每个过程的关联跟踪和记录. 系统故障后,将相关进程回退到故障之前的系统一致性状态(检查点),并在状态恢复后(而不是从程序开始)从检查点重新执行,以实现从系统故障中恢复,从而节省大量的重复计算时间充分反映了群集计算机系统的并行性能,并提高了群集计算机系统的可用性. 这种后向故障恢复技术不仅可以自动恢复系统中的瞬时故障和间歇性故障,还可以通过检查点文件镜像和进程迁移技术来容忍永久性节点故障. 这也是未知故障的恢复高性能计算机系统,这是在设计应用程序时不会预料到意外故障的唯一时间.
2.1.5智能资源管理和调度因素系统中各处理节点之间的负载分配平衡称为负载平衡度. 负载平衡是影响并行效率的重要因素. 对于集群计算机系统,如何合理地安排和安排任务,充分利用每个节点的处理能力以及缩短程序的响应时间是并行计算必须解决的问题. 由于集群计算机系统具有资源共享动态变化的特点,并且每个节点的负载分布极大地影响了应用程序的执行效率,因此有必要为系统资源提供一种智能的管理机制,以使更多充分合理地使用系统资源,以加快应用程序的执行速度. 具体而言,智能资源管理和调度系统至少应具有监视和收集负载和系统信息,初始负载分配,动态资源调度和任务迁移的功能. 除了上述技术之外,诸如单个系统映像,DSM并行模型支持,并行I / O,并行语言等技术也是集群计算机的主要研究内容.
3集群系统的应用

高性能计算机系统通常用于解决诸如大容量存储和大数据量计算之类的应用,这些应用需要大量减少处理时间以提高生产效率. 对经济,技术和人类社会发展产生广泛影响的许多主要应用问题具有内在的并行性. 然而,近年来,由于价格和效率等因素,传统的超级计算机和MPP的应用受到限制,并且群集计算机系统提供了一种可扩展的方法来构建从小规模到的并行处理系统. 解决与国民经济和民生有关的许多重大计算问题的可行方法之一. 以石油地震数据处理为例. 在石油地震勘探开发工作中,与2D勘探相比,3D地震勘探可提供更准确的地下图像,可以紧密反映地下的实际情况并有效地解决地质问题. 但是,由于数据量大,计算量大和处理周期长,尤其是由于计算量大,许多高级3D地震数据处理方法很难在大型计算机上实现. 并行处理提供了实现这些方法的可能性. 此外,美国空间物理研究所还开展了一项聚类算法活动,以在互联网上寻找外星人. 用射电望远镜预先记录的数据被转换成并放置在互联网上. 然后,用户通过活动的网页下载算法程序并使用备用计算机. 下载数据并执行计算. 该程序将自动下载未计算的数据. 计算完成后,它将自动上传到网站. 大型机的组装只能由喜欢在世界各地进行宇宙探索的PC用户的备用计算机来完成. 随着网络技术的发展和对集群计算机系统研究的不断深入,特别是高效通信机制的发展,系统的通信性能将接近专用互联网,并行编程环境和工具将更加完善. . 具有挑战性的计算问题和国民经济产生积极影响.
参考
[1]郑为民. 集群系统的现状与挑战[J]. 计算机教育,2004,(6): 23
[2]陈国良,吴俊民. 高性能训练与高性能计算机[J]. 2006,(7)
[3]刘忠. [3],张建华,张建华. 基于对象存储的集群存储系统设计[J]计算机工程与科学,2005,27(2): 78-81
[4]杨刚,龙海燕,杨. 计算机总线的新发展趋势[J]. 微型计算机信息,2003,19(1): 1-2
[5]胡玉萍. 集群计算机[J]. 现代计算机. 2001,(12)
本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/jisuanjixue/article-145517-1.html
快要过生日啦
坚持按期收回巴拿马运河