首页 > 操作系统 >

性能突破200PFLOPS！世界上第一台超级计算机的峰会分析

电脑杂谈　发布时间：2020-05-20 12:08:12　来源：网络整理

第一代计算机逻辑元件采用的是_高性能计算机采用_计算机采用

作为人类顶尖技术的最佳代表，超级计算机在世界各个领域都发挥着举足轻重的作用. 一套出色的超级计算可以极大地提高科研效率，甚至可以促进一个行业的发展和进步. 近年来，中国在超级计算机领域做出了不懈的努力，推出了天河系列，“神威太湖之光”等许多超级计算机，甚至长期处于世界领先地位.

从现实的角度来看，除了我们的国家以外，美国在超级计算领域的实力仍然不可低估. 2018年6月，美国能源部在橡树岭国家实验室正式宣布了新的超级计算机Summit.

2018年6月25日，TOP500组织发布了第51届全球超级计算机排名. 在此列表中，来自美国橡树岭国家实验室的美国能源部赞助的Summit暂时居超级计算机之首.

▲美国能源部橡树岭国家实验室的超级计算机发展史.

新的超级计算机竞赛

首脑会议

根据超级计算机500强排名的数据，Summit超级计算机的峰值浮动性能为187.7PFlops，Linpack的浮动性能为122.3PFlops，功耗为8805.5kW. 相比之下，我国神威太湖灯的峰值浮点性能为125.4PFlops，Linpack浮点性能为93.0PFlops，功耗为15371kW. 第三至第六位是美国的Sierra和中国的天河2A（升级了新的Matrix-2000处理器，删除了以前的至强融核，性能提高到61.4PFLops Linpark），日本的ABCI和Piz在瑞士戴恩.

▲Summit超级计算本体

除TOP500排名外，Summit在HPCG排名中仍然排名第一高性能计算机采用，HPCG性能为2925.75TFlops / s. 第二到第五位是美国的塞拉利昂，日本的K，美国的三位一体和瑞士的皮兹丹特.

▲最新的TOP500排行榜Summit登顶.

高性能计算机采用_第一代计算机逻辑元件采用的是_计算机采用

▲最新的HPCG排名仍是Summit.

根据新的排行榜和性能，Summit将取代TITAN成为世界上功能最强大的超级计算机. 值得注意的是，由于计算机流程和体系结构的进步，与TITAN相比，新的Summit的性能提高了10倍，是上一代的10倍（从9 MW到13 MW）. 应该注意的是，Summit的目标不仅仅是提高性能，而是在实际应用中实现5-10倍的性能提高.

此外，除了Linpark和HPCG的性能外，Summit还使用了深度学习领域中最强大的GV100芯片作为加速芯片，因此它具有强大的深度学习计算功能，并且每秒可执行30亿次混合精度计算. （30 exaops），成为用于深度学习计算的最强大的计算机.

看看峰会

节点，机架和整个

在了解了Summit的基本信息之后，本文将进一步分析构成Summit的硬件组件.

从硬件体系结构的角度来看，Summit仍采用异构方法. 它的主CPU来自IBM Power 9、22个内核，主频率为3.07GHz，总共使用103752个内核，内核数达到2282544. GPU配备了27648个Nvidia Tesla V100计算卡，总共内存为2736TB，操作系统为RHEL 7.4. 从体系结构的角度来看，Summit尚未彻底改变超级计算的基础技术，但通过不断使用先进的流程和扩大计算规模获得了更高的性能.

▲具有SXM2接口的Tesla V100.

尽管扩展规模是提高超级计算效率的有效方法，但也很难有效地组合这么多CPU，GPU和相关存储设备. 在这一点上，Summit使用了多层次的结构. 最基本的结构称为计算节点. 大量的计算节点形成一个计算机机架，而多个计算机机架构成了Summit超级计算机本身.

计算节点

2CPU + 6GPU

第一代计算机逻辑元件采用的是_高性能计算机采用_计算机采用

Summit使用的计算节点模型是Power System AC922，以前的研发代码是Witherspoon，以后我们将其称为AC922，它是19英寸2U机架式外壳. 从内部布局的角度来看高性能计算机采用，每个AC922都有两个CPU插槽，可以满足两个Power 9处理器的需求. 每个处理器配备3个GPU插槽，每个插槽使用GV100核心计算卡. 这样，两个处理器可以匹配6个GPU.

▲Summit的计算节点及其内部设备.

在内存方面，每个处理器都设计有8通道内存，每个内存插槽可以使用32GB DDR4 2666内存，这样总共可以带给256GB和107.7GB / s的内存容量和带宽中央处理器. 在GPU方面，它不使用传统的PCIe插槽，而是使用SXM2形状设计. 每个GPU均配备16GB的HBM2内存. 对于每个CPU-GPU组，总共有48GB的HBM2内存和2.7TBps. 带宽.

风水水NVLink 2.0

如果继续深入研究AC922，则主要的技术问题在于CPU和GPU之间的连接. 在传统的英特尔系统中，CPU和GPU之间的连接使用PCIe总线，带宽略有不足. 但是在Summit上，由于增加了IBM Power 9处理器，可以使用功能更强大的NVLink代替PCIe总线. 在该期刊的上一篇文章中，我还对NVLink的相关技术进行了深入分析，因此在此不再赘述.

▲NVLink 2.0在民用市场上无法发挥其功能，但是在超级计算市场上却可以说是一流的. 图为IBM显示的NVLink 2.0连接解决方案.

单个Power 9处理器具有3组，每组6个NVLink通道，每组2个通道. 由于Power 9处理器的NVLink版本为2.0，因此其单通道速度已提高到25GT / s. 两个通道可以在CPU和GPU之间实现双向100GB / s的带宽. 此外，Power 9还提供了额外的48个PCIe 4.0通道.

▲国外WikiChip组织制作的Summit内部NVLink 2.0连接图.

与CPU一样，GV100 GPU也具有6个NVLink 2.0通道，该通道也分为3组，其中一组连接到CPU，另外2组连接到另外两个GPU. 就像CPU和GPU之间的链接一样，GPU和GPU之间的连接带宽也是100GB / s.

CPU之间的通讯

第一代计算机逻辑元件采用的是_高性能计算机采用_计算机采用

X巴士首次亮相

除了CPU与GPU和GPU之间的通信外，由于每个AC922具有两个CPU插槽，因此CPU之间的通信也非常重要. 在Summit的每个节点上，CPU之间的通信都依赖于IBM自己的X总线. X总线是一条4字节的16GT / s链路，可以提供64GB / s的双向带宽，基本上可以满足两个处理器之间的通信需求.

▲国外WikiChip组织制作的Summit内部CPU通信结构的首脑图.

除了CPU的外部通信外，每个节点还有4组PCIe 4.0通道，包括两组x16（支持CAPI），一组x8（支持CAPI）和一组x4. 其中，两组x16通道来自两个CPU，可以从一个CPU组态x8通道，而另一个CPU可以组态x4通道. 其余的PCIe 4.0通道可用于各种I / O接口，包括PEX，USB，BMC和1Gbps网络.

完整的节点性能状况

Summit的完整节点具有两个22核Power 9处理器，总共有44个物理核. 每个Power 9处理器的物理核心都支持同时执行2个矢量单精度操作. 换句话说，每个内核每个周期可以执行16个单精度浮点运算. 在3.07GHz时，每个CPU内核的峰值性能可以达到49.12GFlops. 节点CPU的峰值双精度性能略低于1.1TFlops，GPU的峰值性能约为47TFlops.

请注意，此处的值与最终发布的数据之间存在一些差异. 主要原因是已发布数据的性能仅包括GPU部分，这也是大多数浮点密集型应用程序可以实现的最高性能. 当然，如果包括CPU，Summit本身的峰值性能将超过220PFlops.

除了CPU和GPU之外，每个节点还配备了1.6TB NVMe SSD和Mellanox Infiniband EDR网络接口.

机架和系统

机架是由计算节点组成的并行计算单元. Summit中的每个机架都配备了18个计算节点和Mellanox IB EDR交换机. 每个节点都配有支持双向100Gbps带宽的双通道Mellanox InfiniBand ConnectX5网卡. 节点的网卡通过插槽直接连接到CPU，带宽为12.5GBx2，实际上，每个节点的网络是通过将PCIe 4.0 x8通道除以2个CPU以及PCI-E 4.0的带宽组合而成的x8为16GB / s，组合的网卡可以为每个CPU提供12.5GB / s的直接网络带宽，从而可以最大程度地减少瓶颈.

高性能计算机采用_计算机采用_第一代计算机逻辑元件采用的是

▲国外WikiChip组织制定的Summit系统结构的布局.

因为一个机架中有18个计算节点，所以总共有9TB DDR4内存和另外1.7TB HBM2内存. 机架的最大功率为59kW. 最高的计算能力包括仅用于CPU的846TFlops和仅用于GPU的775TFlops.

▲一个开放式机架具有18个计算节点，中间和顶部是交换机.

机架之后是整个Summit系统. 完整的Summit系统具有256个机架，18个交换机架，40个存储机架和4个基础架构机架. 完整的Summit系统具有2.53PB的DDR4内存，475TB的HBM2内存和7.37PB的NVMe SSD存储空间.

业界报告的Summit系统的性能仍然很保守. 当然，最佳性能并不是最有意义的，实际负载性能才是最重要的. 在对Summit的基因组数据进行性能的初步测试期间，橡树岭国家实验室的混合精度性能达到1.88 exaops. 该测试主要使用GV100的张量核心矩阵乘法，这也是迄今为止报道的最高性能.

迈向千亿次计算的时代

从上面的介绍中可以看到，Summit通过强大的CPU和GPU，网络，系统以及其他先进的技术集成和结构设计成功实现了世界上第一个超级计算王位，但这可能不是Summit的最终结果. 在此次峰会上，Summit只是美国能源部探索数十亿超级计算的中间站.

最新消息显示，橡树岭国家实验室正在准备数以百亿计的名为Frontier的超级计算，其性能应该能够达到Summit的5至10倍. 尚不清楚新的超级计算是从Summit升级还是全部重建，但无论如何，数百亿个超级计算将在2021年左右逐步走向我们.

▲美国Oak Ridge国家实验室的超级计算发展路线图.

因此，在阅读了美国的超级计算之后，我们自己的超级计算将会发生什么？目前看来，神威太湖之光和天河系列超级计算机似乎都没有短期内进行更新和建设的新计划，包括新的神威系列超级计算机和人们推测的天河3号. 目前，中国也在尽力冲刺数十亿次超级计算，但是在技术和设计上仍然存在许多瓶颈和困难尚未解决. 数百亿的超级计算仍在不断开发和建设中.

在这种情况下，一些业内人士估计，Summit可能会暂时领导接下来的3-5个超级计算排名周期，直到最新的100亿次超级计算正式启动. 毕竟，在超级计算的战场上，没有人是永恒的赢家，只有不断涌现并具有更高性能的超级计算机. 因此，在这个战场上，没有最强大的，只有更强大的.

本文来自电脑杂谈，转载请注明本文网址：
http://www.pc-fly.com/a/jisuanjixue/article-216493-1.html

相关阅读

发表评论　　请自觉遵守互联网相关的政策法规，严禁发布、暴力、反动的言论

闫玉舟

美爆了

2025年11月26日回复顶转发
祖甲

绝不手软

2025年11月26日回复顶转发

每日福利

mfmdaoyou

性能突破200PFLOPS！世界上第一台超级计算机的峰会分析

1t，2t，3t环链葫芦简介

腾达路由器设置步骤

热点图片

热点排行