首页 > 操作系统 >

面向高性能计算的层次式混合文件系统

电脑杂谈　发布时间：2019-07-12 19:32:09　来源：网络整理

并行计算机 pipeline_高性能计算机并行文件系统_并行计算机架构

Xin Liu, Yu-tong Lu, Jie Yu, et al., 2017. ONFS: a hierarchical hybrid file system based on memory, SSD, and HDD for high performance computers.Frontiers of Information Technology & Electronic Engineering, 18(12):1940-1971.

https://doi.org/10.1631/FITEE.1700626

太湖之光”是世界第一台速度超过每秒10亿亿次的超级计算机，它的峰值运算速度达到了每秒12.54亿亿次，持续计算速度可达每秒9.3亿亿次，功耗比为每瓦60.51亿次。据了解，“神威·太湖之光”由国家并行计算机工程技术研究中心研制，是世界上首台峰值计算速度超过十亿亿次的超级计算机，其峰值计算速度达每秒12.54亿亿次，持续计算速度每秒9.3亿亿次，性能功耗比为每瓦60.51亿次。2000年以来先后研制成功了每秒1000亿次的曙光2000、4000亿次的曙光3000、3万亿次的曙光4000l，2004年又成功研制出峰值浮点运算速度为11.2万亿次、linpack值为8.06万亿次的曙光4000a，已安装在上海超级计算中心，成为国家计算网格主节点之一，在2004年6月世界高性能计算机top500排名中位列第十高性能计算机并行文件系统，是国产计算机首次跻身世界计算机前十名。

超级计算机结构

E级计算机依然由计算、互连通信和存储3大子系统组成。从系统结构、系统设计和实现角度而言，计算子系统的基本单元为计算结点，它依然由多个CPU和组成；互连通信系统是一个独立的互连网络，将计算结点连接为一个整体。由此可知，计算子系统和互连通信子系统是独立子系统，而且具有单一层次。存储系统是为用户程序的文件操作服务的共享系统，它受制于超级计算机的规模和应用环境。太湖之光的CPU核达到1065万个，由于每个CPU核均可执行程序产生I/O请求，所以并行产生的I/O请求数量巨大；超数据密集型应用、大数据处理、新型工作流和checkpoint等对存储系统提出海量存储、高带宽、高并行、低延迟的要求。当前，在超级计算机中广泛使用的存储系统是基于磁盘的并行存储系统，如Lustre，最大聚合带宽约为1.5 TB/s，文件访问延迟约为毫秒量级。研究表明：需要约60 TB/s的聚合带宽才能满足E级计算机checkpoint对存储带宽的要求；超级计算机中的I/O请求具有非常明显的突发特性，一台超级计算机在98%的运行时间中，只使用了不足33%的带宽。如果按照最大带宽要求设计存储系统，存储系统规模巨大，但利用率低；基于磁盘的存储系统已无法满足E级计算机对存储系统的需求。

并行计算机 pipeline_并行计算机架构_高性能计算机并行文件系统

开源的cloudera impala是基于mpp的并行编程模型的，底层是hadoop存储的高性能的实时分析平台，可以大大降低数据分析的延迟。ibm、英特尔、微软、谷歌、facebook或亚马逊等主要的公司将会逐渐寻找存储类内存(scm)来提高大数据处理的内存访问延迟和带宽，由于碳存储技术已经成熟，careramm的技术可以提供一种有吸引力的解决方案来实现高读取和写入速度、位可寻址能力和低能耗的功能。机械硬盘的工作原理是采用高速旋转的磁盘进行数据的存储，并且通过磁头来进行读写，在这个机械运动过程中会存在延迟，并且无法同时进行多向读写数据。

ONFS结构

本文详细说明了如下主要技术内容：ONFS系统构成、分布式元数据存储和管理、计算结点内存的静态和动态借用和归还策略、多存储服务器并行访问控制、文件冷度度量方法、主动向上预迁移控制策略。我们在天河一号超级计算机上实现了ONFS原型系统，通过实验测试分析了性能和可扩展性。用户程序可以在ONFS上直接运行，与Lustre相比，应用程序的文件读写带宽提升约6倍。

由于内存映射文件的物理存储器实际是存储于磁盘上的一个文件，而不是从系统的页文件中分配的内存，所以系统不会主动为其保留地址空间区域，也不会自动将文件的存储空间映射到该区域，为了让系统能够确定对页面采取何种保护属性，需要通过参数flprotect来设定，保护属性page_readonly、page_readwrite和page_writecopy分别表示文件映射对象被映射后，可以读取、读写文件数据。由于b- 树通常存储在磁盘上，则前一查找操作是在磁盘上进行的，而后一查找操作是在内存中进行的，即在磁盘上找到指针p 所指结点后，先将结点中的信息读入内存，然后再利用顺序查找或折半查找查询等于k 的关键字。由此可以看出，使用内存映射文件处理存储于磁盘上的文件时，将不必再对文件执行i/o操作，这意味着在对文件进行处理时将不必再为文件申请并分配缓存，所有的文件缓存操作均由系统直接管理，由于取消了将文件数据加载到内存、数据从内存到文件的回写以及释放内存块等步骤，使得内存映射文件在处理大数据量的文件时能起到相当重要的作用。

构建存储系统的基本部件是存储器件。现在，可用的存储器件有磁盘、DRAM和SSD。磁盘容量大、价格低，但性能偏低；DRAM和SSD速度高、延迟小，但价格偏高。在超级计算机中，没有专门提供DRAM存储服务的服务器，DRAM分布在计算结点中，只能借用。具有高速VME接口的SSD在技术上已经成熟，由于价格居高不下，难以在超级计算机的所有计算结点中配置SSD，但是可以在部分结点或者以计算机柜为单位配置SSD，可以将这些SSD集中起来共享。使用单一类型存储器件不可能同时实现超大容量和高性能存储；为此，在ONFS中使用了超级计算机中可能获得的DRAM、SSD和磁盘，构建具有3个相对独立的存储层次的并行存储系统，充分发挥3类存储器件各自在容量、速度与延迟上的特性，实现高性能存储。

并行计算机 pipeline_高性能计算机并行文件系统_并行计算机架构

随着电脑技术的不断发展，u盘成为了电脑用户们随身携带重要资料的主要存储工具之一，由于u盘的存储容量有限，导致用户们必须经常清理一些无用的垃圾文件，但是不少用户在清理u盘里面的无用文件的时候，会不小心误删重要资料，遇见这样的情况有没有什么好的方法可以恢复u盘里面的重要资料呢。整合到应用的存储虚拟化由于需要主机参与空间管理，对于单一节点来说，性能会比较差，而且对主机的资源占用比较高高性能计算机并行文件系统，尤其是在虚拟化环境中处理跨卷的迁移时这个劣势由显突出，为了解决这个矛盾，各厂商也采取了开放底层接口的方法，通过存储管理模块直接调用底层存储设备的方式提高性能，减少主机资源占用。1.重新设置其"冷启动"程序: windows 8启动如此之快的关键原因是,当计算机进入离线(offline)状态时,其中的一些重要进程是没有被关闭的.因此此种情况下的关机过程可以看成是计算机进入了一种"休眠模式",并且其中的重要文件被存放在辅助设备中.当用户希望启动计算机时,这些文件已经被加载了,因此整个进程耗时更短. 2. 重新标记其启动顺序:系统将自行检查进入"休眠模式"的文件,而不是像windows 7模式一样简单地载入这些文件. 3.使。

为实现ONFS，本文在下述5个方面进行了研究：

1. 提出了具有3个存储层次的混合存储系统结构（ONFS）

我们使用内存、SSD和磁盘共同构建了具有3个存储层次的混合存储系统，每个层次可提供的I/O带宽和存储容量均不相同。ONFS中基于内存的存储层次可提供高带宽和低延迟，同时基于磁盘的存储层次可提供超大存储容量，基于SSD的存储层次缩小了基于内存和基于磁盘存储层次间性能和容量的差异。三个层次的混合存储系统可满足新HPC应用的需求。

2. 分布式元数据存储和管理

并行计算机 pipeline_并行计算机架构_高性能计算机并行文件系统

研究分布式可扩展的数据存储与组织，能效优化的分布存储和处理的系统架构，以及数据副本一致性、数据压缩、数据划分与迁移等问题。这些都是 zookeeper 的基本功能，最重要的是 zoopkeeper 提供了一套很好的分布式集群管理的机制，就是它这种基于层次型的目录树的数据结构，并对树中的节点进行有效管理，从而可以设计出多种多样的分布式的数据管理模型，而不仅仅局限于上面提到的几个常用应用场景。上图只是一个，实际存储时数据的层次关系和目录结构设计会因地而异，不同的研究机构会采用不同的目录结构设计。

3. 内存管理和分组并行访问控制

基于内存的存储层次使用计算结点中的内存资源，这些内存资源和所在的计算结点同属于某个用户。内存是易失性存储介质，且一个DS-m可提供的存储空间仅为十几GB。我们提出内存管理和分组并行访问机制，以解决以下关键问题：（1）内存借用和归还；（2）基于可用存储空间的写操作控制；（3）易失性内存存储的可靠性；（4）多个DS-m分组访问，以提供更大存储容量和更高读/写带宽。

4. 基于文件打开-关闭状态和LRU特征的文件冷度计算

我们实现了文件粒度的数据迁移，并提出使用文件冷度值确定待迁移文件。我们使用在DS-m和DS-s中设置的可用内存容量阀值触发向下迁移。通过文件访问状态等参数计算文件冷度值，并用于指导数据迁移。

并行计算机架构_并行计算机 pipeline_高性能计算机并行文件系统

5. 主动向上预迁移

大多数现有迁移策略使用文件热度值从底层存储层次选择待迁移文件，并将其迁移至上层存储层次，而多数时候该文件已被访问过。对于HPC应用，输入文件通常仅被从头至尾读取一次。这样，现有迁移策略收益就很低。我们提出基于用户程序访问和处理文件特性的主动向上预迁移策略，这可以主动在用户程序开始运行时、甚至运行前，把程序将要访问的文件预迁移至更高存储层次（如DS-m或DS-s），以此提供更高访问速度。

我们测试了在ONFS和Lustre系统上分别运行IOR Benchmark和典型数据密集型应用的性能。实验结果表明，ONFS单线程和多线程读/写性能分别为基于磁盘的Lustre性能的6倍和5倍。在ONFS上运行的数据密集型应用可获得的I/O带宽约为基于磁盘的Lustre的6.35倍。

在ONFS和基于磁盘的Lustre上运行抽道集程序的I/O性能

单程波深度偏移程序在ONFS上运行的I/O性能

单程波深度偏移程序在Lustre系统上运行的I/O性能

本文来自电脑杂谈，转载请注明本文网址：
http://www.pc-fly.com/a/jisuanjixue/article-112469-1.html

相关阅读

发表评论　　请自觉遵守互联网相关的政策法规，严禁发布、暴力、反动的言论