首页 > 操作系统 >

中国科学院计算机网络信息中心.PDF(2)

电脑杂谈　发布时间：2019-09-13 07:05:45　来源：网络整理

这样的弊端在较大3 规模的SMP节点上更为严重。更为60 1 2 4 8 6 2 4 8 6 2 4 8 6 2 41 3 6 2 5 1 2 4 9 9 8 跨交换机同交换机1 2 5 0 0 0 1 31 2 4 8 61 特别的比如，在深腾7000厚节点消息长度(bytes)(b)(a) 中，16路64核的3950共享内存系图2 网络延迟对比检测结果，其中(a) IMB Pingpong测试成绩对比，(b) 4进程NPB IS.C统实际上是由4台4路16核3850服成绩对比务器通过特殊扩展技术互连起来600000 16进程默认11.0 [12]500000 16进程优化后的，而构成16路的4台3850的互32进程默认10.832进程优化后400000 连，其带宽仅有800MB/s，甚至比)) 10.6s64进程默认su(( 300000 64进程优化后间节点间的Infiniband还慢高性能计算机网络，因此迟时 10.4延像这种的机器，本身就对内存带20000010.2 宽敏感的应用是一个挑战，而当10000010.0优化顺序较差进程或线程使用的处理器核心与0映射映射映射内存所在的NUMA节点不一致时，32K 64K 128K 256K 512K 1M 2M 4M消息长度(bytes)(b) 访存性能则会得到严重影响。

计算机性能_高性能手机2016_高性能计算机网络

而(a)图3 通信冲突优化对比检测结果，其中(a) IMB Alltoall测试成绩对比，(b) 16进程NPB 更要切记的，对于OpenMP并行程FT.B成绩对比55 e-Science 技术 TECHNOLOGY年月科研信息化技术与应用第2卷第6期 201111析之前所述的个别运行时环境配试。先分别选择16、32、64个节及OpenMP线程绑定方法对并行程序置优化科技对相关并行程序产生点，使用IMB进行Alltoall集合通性能带来的妨碍，主要有下列两组的性能差异。信测试，对比默认读取模式（按节测试：点字母排序）和文献[8]所述对异1)深腾7000厚节点High-3.1 跨节点相关检测或通信机制改进后的加载方法对通Performance Linpack（HPL）性这里选择Infiniband集群中信的制约，主要关注长消息下通信能测试。Linpack是最通用的高节点网络拓扑和MPI进程映射两冲突导致的性能代价；使用16节点性能计算机实际计算能力检测程个方面来测试他们对MPI并行程对NPB中使用Alltoall通信较多的序，HPL则是Linpack算法用MPI序性能的影响。

使用Intel MPIFT程序来进行检测对比，除对比默实现的版本。深腾7000厚节点Benchmark（IMB）[13]来检测通信认加载方法外，还生成10次随机加即IBM X3950M2服务器节点，由4性能的变化，并使用NAS Parallel 载方案进行检测，取成绩较好的一个4路4核X3850M2服务器通过IBMBenchmarks（NPB）[14]基准程序来组与以往默认读取模式和改进加载ScaleXpander技术连接作为一个测试其对相关应用导致的妨碍。方式进行对比。16路4核节点，处理器为2.93GHz使用的检测系统是中科院超算中两组测试的结果分别如图2和的4核Intel Xeon 7350处理器，心的一个90节点的Infiniband集图3显示。从两张图中可以发现，节点存储共计512GB，操作系统为群，其网络是运用[6]中所述形式在Infiniband集群中，同交换机两RHEL 5.1，测试所用MPI实现版本创建的24-port，2-tree的DDR 4X 个节点的之间短消息通信延迟是为Intel MPI 3.0。测试使用全部Infiniband胖树结构。测试系统超过跨交换机的两个节点的，二64核处理器，分别选择不进行MPI的计算节点采用单路Intel Xeon者最多有约7%的差别，这反应在进程绑定和按充填方法进行进程E5410四核处理器，工作于2.33GHz NPB中对通信延迟敏感的IS程序中绑定来进行，HPL的主要参数为内存；每个节点拥有8GB系统内当中，在四进程时，给C类IS测试N=240000，NB=168，P=Q=8。

存；节点操作系统采用RedHat带来约2%的性能提高。而关注IB集2)Intel Westmere测试服务Enterprise Linux（RHEL）5.3 群网络的节点间通讯冲突情况，可器Stream性能测试。Stream是用版，安装OFED 1.4.2软件包和以发现改进的MPI加载方法，会为OpenMP编写的拿来检测高性能平台MVAPICH2 1.4.1并行编程环境。测 Alltoall这样的集合通信带来最多内存带宽的一项基准检测程序。试时每个节点加载1个MPI进程。13.3%的性能提高；而改进后的加检测使用的Westmere测试服务器两组测试内容如下：载方法给B类FT程序带来约1%的性系统采用4颗2.4GHz Intel Xeon1)网络延迟方面的对比测能提高，而相应的，较差的随机E7-4870 10核处理器及128GB内试。先分别选择同一交换机上和不加载方案则会较默认读取模式带存，操作系统为RHEL 6.0版，编译同交换机上的两个节点，进行IMB来约1%的性能降低。以上两组测器为Intel C/C++编译器12.0.2版进行点到点Pingpong通信检测，试结果证实，节点间基于网络拓本。

高性能计算机网络_高性能手机2016_计算机性能

测试分别采取不绑定线程（随主要对比短消息的推迟情况；再扑改善和通信冲突优化的运行时机）、紧凑式线程分布和散布式线分别选择四个同一交换机上和不环境优化会对具备必定通信特点程分布对1、2、4、8、16、32和40同交换机上的四个节点，用NPB中的应用程序的功耗有小幅改善。线程进行检测。需要提到的是，对对通信延迟敏感的IS程序来进行于不绑定线程的状况，其结果的方检测，对比通信延迟对程序怪性3.2 节点内相关测试差是比较大的，在此取10次测试中能带来的妨碍；这部分检测主要验证在节点的最高成绩成为最后成绩。2)通信冲突方面的对比测内MPI进程与处理器核心的绑定以两组测试的结果分别如56TECHNOLOGYe-Science 技术年月科研信息化技术与应用第2卷第6期 201111 图4和图5所示。图4中红色部分运行时环境各方面综合改进的测Mole-8.5的节点架构图如是实际结果，柱形整体是理论峰试。PEtot_GPU程序是一个基于平图6所示，两个处理器分别通过值。从图中可以看见，对于不绑面波赝势密度泛函理论的第一性QuickPath Interconnect（QPI）定MPI进程的状况，HPL测试成绩原理推导软件，基于MPI和CUDA实连接一个芯片组[19]，每个芯片组仅为214.6Gflops，其效率仅为峰现，是一个典型的采取了加速技通过3个PCI Express（PCIE）通值的28.6%，结果比较不理想。

而术的并行应用，它还能使用上百道与一块GPU相连。很明显如果并改为充填方法进行MPI进程绑定之块GPU并行计算以及维持较高的并行程序在运行时使用了多个GPU，后，HPL性能有了持续提交，实测行效率[17]。那么多块GPU与平台内存之间的通的Linpack峰值为528.6Gflops，测试系统是中科院过程所的信将共享处理器到硬盘的时延和效率升至70.4%，该结果也说明Mole-8.5 GPU集群[18]。Mole-8.5 处理器到芯片组之间的时延；另 X3950M2平台的Linpack实际功耗拥有360个计算节点，每个节点外针对MPI程序，节点间的通信也是可以接受的。也就是说，在高配备2路4核2.26GHz Intel至强将共享Infiniband带宽及芯片组性能集群的节点内，对MPI进程进L5520处理器及6块NVIDIA Tesla与之相通的PCIE通道带宽，同时行处理器核心的绑定，是有助于C2050 GPU加速卡，总计峰值性也会共享芯片组到处理器之间的应用程序性能提高的。能为1138.44Tflops；节点配备带宽。PEtot_GPU在运行时，采用而从图5对Westmere测试服务48GB内存，每块Tesla C2050具了一个进程绑定一块GPU加速卡器的Stream测试成绩来看。

三种不体3GB显存；节点间采取4X QDR的处理方法，那么综合之前的测同的OpenMP线程分布方式在同样线Infiniband连接，操作系统为800 程数下测出的结果也不同。除了使CentOS 5.4版，安装了NVIDIA700 用与核心数量（40）相等的线程数270.41版驱动和3.2版开发软件，) 600sp 500o 量的检测外，其它状况下使用散编译器为GCC 4.1.2，MPI并行环flT 400( 布式线程绑定的结果都经常领先境为OpenMPI 1.4.1。测试中使用能 300性200 于紧凑式线程分布；但当全部处的PEtot_GPU版本是r6开发版本，100 理器核心都被使用时，使用紧凑式计算的问题是一个具有512原子的0 线程绑定则无法获取更高的存储总平台，测试过程中使用16个处理未绑定进程绑定进程带宽，同样的现象也发生在以前的器核心及GPU加速卡来完成计算。图4 深腾7000厚节点HPL测试结果一些测试当中[15, 16]。需要提到的100000 是，从图5来看，不进行线程绑定Copy(随机) Scale(随机) Add( 随机) Triad(随机)Copy(紧凑) Scale(紧凑) Add(紧凑) Triad(紧凑) （随机）的测试结果虽然与散布式Copy(散布) Scale(散布) Add(散布) Triad(散布)80000 绑定的结果接近，但前文已提到该) 结果是从多次测试中获得的最大s 60000/BM 值，实测中各次检测结果误差相对(带宽 40000 较大，这事实上也符合线程在各处理器核心随机分布的特征。

20000 3.3 对实际应用程序运行时环境01248163240 的综合改进线程数这里选择PEtot_GPU来进行图5 Westmere测试系统Stream测试结果57 e-Science 技术 TECHNOLOGY年月科研信息化技术与应用第2卷第6期 201111试结论，对于PEtot_GPU程序的运1 21 2行，还必须对每个进程与一个处理存储QPI内存器核心进行绑定，由于一个处理器3 43 4对应的芯片组连接了三块GPU加速卡，因此进程也根据3x2的方式与处理器核心进行绑定。另外，由于Infiniband PCIE 芯片组QPI 芯片组P P PP P P对QPI带宽的共享和Infiniband通C C CC C CI I II I IE E EE E E信带宽的共用可能带来难题，在资G G GG G G源充足的状况下适度增加每个节点

本文来自电脑杂谈，转载请注明本文网址：
http://www.pc-fly.com/a/jisuanjixue/article-122690-2.html

相关阅读

发表评论　　请自觉遵守互联网相关的政策法规，严禁发布、暴力、反动的言论

牛丛

这人照片拍的不好应该蛆晒干了

2026年06月03日回复顶转发

每日福利

regsvr32 jscript9dll下载_模块jscript.dll已加载_regsvr32 initpki.dll

weblogic权威指南_运算放大器权威指南 pdf_cocos2d-x权威指南

QQ如何修改实名认证信息

像素射击破解版2020

热点图片

热点排行