
超算的核心技术并不只有CPU
CPU是超算的重要组成部分,但不是超算技术的全部。网络上一些人将CPU技术等同于超算技术,进而因天河超算使用美国Intel公司的CPU而声称中国超算不具备核心技术的说法是荒谬而可笑的。
就以天河2号来说,除了计算节点的CPU是美国Intel公司的,体系架构、互联网络、存储、系统软件、应用软件、电源、冷却等系统大部分都是中国人自己做的。
实际上,相对于声名显赫的CPU,默默无闻的体系结构设计才是一直被大众和媒体忽略的关键技术。举例来说,曙光星云采用了自主研发的超并行处理体系结构、神威蓝光超算采用了并行处理体系结构、天河1号采用了多阵列可配置协同并行体系结构、天河二号采用了自主创的新型异构多态体系结构。
(天河1号)
体系结构设计能力有多重要呢?
打个比方,如果说超算是一只军队,那么体系结构设计就是军队的历史传承、光荣传统、组织管理水平、军事训练水平、武器装备、后勤能力、高级将领的战略指挥水平和中下层军官的战术指挥能力,而CPU则是军队的士兵。
也正是因此,某些媒体攻击天河超算采用国外CPU,不具备核心技术的说法是非常不妥当的。

超级计算机不是简单的CPU堆砌
某些人觉得只要有钱买足够多的CPU就能堆出性能超越天河2号的超算,甚至有媒体说,把足够多的手机芯片连起来就能超越天河2号。但实际上,这个说法也是值得商榷的。
因为堆CPU也是一个技术活,体系结构设计的不好,高速互联网络做的不行,系统软件做的不好,储存列阵做的不行,即使堆再多的CPU,超算的性能也上不去。简单粗暴的堆砌CPU根本不可能制造出一台超级计算机,更不要说是能与天河2号相匹敌的超算。
另外,哪怕掌握了正确的堆砌CPU的方法,也不是单凭靠堆CPU数量就能获得一台能与天河2号相匹敌的超算。天河二号原因何在? 因为超算建设不是简单的搭积木式的堆砌CPU——即便堆砌了海量的计算卡,但受制于其他方面,比如高速互联网的技术水平而导致无法到达理论计算性能。
具体来说,高速互联网络的难点在于超算的计算节点之间传输的数据量巨大,延迟要求严格,当互联网络效率不足,就会导致数据拥堵,大幅降低超算整机系统效率。而超算的计算节点越多,对互联网络的要求也就越高。因此,即使想通过堆砌CPU来提升运算能力,也会受限制互联网络的性能,造成这种做法并不能无节制的提升超算的性能——受限于诸如互联网络以及其他方面的瓶颈,整机效率被拉低,导致实际性能并没有因为堆砌了更多的CPU而有所提高。
另外,堆砌过多的CPU还存在功耗过大、机箱体积过大等问题,非常不利于日后的运营维护和使用,在超算市场基本不具备市场竞争力。
正是因为高速互联网络的重要性,相对于在2015年才对中国四家超算中心禁售计算卡,高速互联网络却早就被美国列入技术封锁的名单。
在软件系统方面,控制少量计算节点和控制大量计算节点对软件系统的要求近乎于天差地别。软件系统必须保证每个超算计算节点的性能被发挥到最大才能充分挖掘出硬件上的潜力,否则,就会影响超算的整机效率。
另外,TOP500头几名的计算节点大多在数千近万,甚至一万个以上,某几个计算节点损坏,并需要更新是常有的事。当计算节点损坏时,软件系统必须做到部分节点损坏时不会发生死机、报错等情况,不影响计算任务的持续。

因此,如果没有一个好的体系结构,那么CPU的性能将无法全部发挥出来,而且堆砌的CPU数量越多,整个系统就越复杂,对高速互联网络、存储列阵、监控系统、冷却系统和软件方面的要求也就越高,整机效率的提升也就越难。天河二号而体系结构设计能力水平不够高的情况下,单纯堆砌CPU数量,反而会降低整机效率,无法提升整机性能。
分享
运算速度比“天河二号”快近两倍 中国自主芯片超算荣登全球榜首
“天河二号”能力闲置让人忧心 超算中心市场化刻不容缓
比天河2号跑得还快 IBM与英伟达联合开发10亿亿次超算
除了天河二号 超算TOP500你还得懂这些
浪潮参与研制新超算 性能将是天河2号50倍
本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/jisuanjixue/article-27786-1.html
是世界大格局确定的时间——6月5日以美日为首的10国签订TPP协定
他的钱咋来的呢