b2科目四模拟试题多少题驾考考爆了怎么补救
b2科目四模拟试题多少题 驾考考爆了怎么补救

大型分布式存储系统-分布式文件系统

电脑杂谈  发布时间:2020-05-13 05:24:47  来源:网络整理

分布式存储软件_分布式存储系统_分布式存储 架构

分布式文件系统分布式存储系统(键值系统,表系统,系统)的基础基本组件. 它具有两个主要功能: 一个是存储文档,图像,视频和其他Blob. 类型数据;另一个是作为分布式表系统的持久层.

让我们看看该行业如何构建基本的分布式文件系统.

Google文件系统(GFS)

GFS系统的节点可以分为三个角色: GFS主服务器(主控制服务器),GFS块服务器(CS,数据块服务器)和GFS客户端. GFS文件分为固定大小的块,并且在创建时由主服务器分配一个64位的全局唯一块句柄. CS以普通Linux文件的形式在磁盘上存储块. 为了确保可靠性,块复制在不同计算机上复制多个副本,默认值为三个副本. 当客户端访问GFS时,它首先访问主控制服务器节点以获得与其交互的CS信息,然后直接访问这些CS以完成数据访问工作. 应该注意的是,GFS中的客户端不缓存文件数据,仅缓存从主控制服务器获得的元数据. 总体架构如图1所示.

1. 租赁机制

GFS系统通过租用机制授权对ChunkServer的块写入操作. 具有租用授权的ChunkServe称为主ChunkServer,其他副本所在的ChunkServer称为备用ChunkServer. 租赁授权是针对单个块的. 在租用有效期内,主ChunkServer负责向块写入操作,从而减轻了主服务器的负担. 通常,租约的有效期相对较长分布式存储系统,例如60秒. 只要没有异常,主ChunkServer便可以连续请求Master延长租约的有效期,直到整个块被填满. GFS为每个块维护一个版本号. 每当块被授予租用授权或主ChunkServer延长租用有效期时,主服务器都会将块版本号增加1.

分布式存储系统_分布式存储软件_分布式存储 架构

主ChunkServer重新向主服务器申请租约,并增加相应副本的版本号. 如果备用副本脱机,则如果重新启动后版本号太低,则主副本将发现它,从而将其标记为可删除的块. 主机的垃圾收集任务将定期检查并通知ChunkServer回收此副本. 从上述机制可以看出,版本号在整个机制中起着至关重要的作用.

2. 一致性模型

GFS主要用于附加而不是覆盖. 一方面是因为不需要重写,或者可以通过附加(加上版本号)来实现,例如,您只能使用GFS附加函数来构建分布式表系统Bigtable;另一方面,因为追加重写的一致性模型应该更简单,更有效. 在这种模式下,记录可能会多次添加到某些副本中,即重复记录. 可能还存在一些可识别的填充记录,应用程序层需要能够处理这些问题(幂等). GFS的这种一致性模型是由对性能的追求所致,这增加了应用程序开发的难度.

3. 附加程序

在图2中,数据流和控制流的分离主要是为了优化数据传输. 每台机器都将数据发送到尚未接收到数据的网络拓扑图上的“最近”节点.

4. 容错机制

操作日志+检查点+实时热备份. GFS主站的修改操作总是先记录操作日志,然后再修改内存. 当主服务器在发生故障后重新启动时,可以通过磁盘中的操作日志来恢复内存数据结构. 此外,为了减少主服务器的停机时间恢复时间,主服务器将以检查点文件的形式定期将内存中的数据转储到磁盘上,从而减少了回放日志的数量. 在确保所有元数据修改操作成功之前,必须确保将它们发送到实时热备用.

分布式存储软件_分布式存储 架构_分布式存储系统

GFS通过复制多个副本来实现ChunkServer的容错功能. 此外,ChunkServer还会对存储的数据进行校验和检查. GFS分割文件大小为64MB的文件,每个块均分为多个块. 块大小为64KB,每个块对应一个32位校验和. 读取块副本时,ChunkServer会将读取的数据与校验和进行比较,如果不匹配,则会返回错误,客户端将在块服务器上选择另一个副本.

5. 总体设计

由于GFS中的文件通常是大文件,因此文件名空间不会占用太多内存. 这意味着,主内存容量不会成为GFS考虑该系统的瓶颈;另外,从负载平衡的角度来看,您可以限制每个Chunk-Server创建“最近”的次数;每个块复制任务都有一个优先级,根据优先级从高到低,将Master排队等待执行;母版将定期扫描当前副本的分发. 如果发现磁盘使用率或计算机负载不平衡,它将执行重新负载平衡操作;重新复制副本时,请注意“限制复制速度”,否则会影响性能.

GFS使用延迟删除机制,Master会定期检查,如果发现文件删除时间超过一定时间(默认为3天分布式存储系统,可配置),则它将从内存元数据中删除文件,为了减少系统的负载,通常在服务高峰期(例如每晚1:00 AM)进行垃圾回收. 系统维护每个块的版本号,并且可以通过版本号检测过期的块. 主机仍通过常规垃圾收集机制删除过期的副本.

快照(Snapshot)操作是对源文件/目录执行“快照”操作,在该时刻生成源文件/目录的瞬时状态,并将其存储在目标文件/目录中o GFS使用标准写入时复制机制Snapshot(即“快照”)仅会增加GFS中该块的引用计数,表明该快照文件已引用了该块. 当客户端修改块时,有必要在ChunkServer中复制块数据以生成新的块. 修改操作落在新生成的块上. (未经修改,请勿复制,仅引用)

6. ChunkServer设计

Linux文件系统花费太多时间来删除64MB的大文件,这是不必要的,因为ChunkServer是磁盘和网络IO密集型应用程序,因此,删除块时,只能将相应的块文件移至每个磁盘上以进行回收. 站,将来在创建新块时可以重用.

自动化对系统的容错性提出了很高的要求,并且Google在软件级别上的努力获得了丰厚的回报. 因为软件级别可以实现自动容错,所以基础硬件可以使用价格便宜且错误率更高的硬件. ,例如便宜的SATA磁盘,可大大减少云服务的人工和硬件成本.

分布式存储 架构_分布式存储软件_分布式存储系统

Google的成功经验也表明了一点: 设计一个单一的Master是可行的. 单个主机的设计不仅简化了系统,而且还实现了更好的一致性. 另外,Master维护大量的元数据. 它需要设计高效的数据结构,占用很少的内存,并能够支持快照操作. 支持写时复制的B树可以满足Master的元数据管理需求,但是其实现非常复杂.

淘宝文件系统

TFS设计中使用的想法是: 多个逻辑图片文件共享一个物理文件. 使用<块ID,文件号>唯一标识文件.

1. 系统架构

NameServer通过心跳监视DataServer的状态;每个DataServer将运行多个dsp进程,一个dsp对应一个安装点,该安装点通常对应一个独立的磁盘,从而管理多个磁盘,TFS该块的实际数据存储在DataServer中,大小通常为64MB,默认为存储三个副本.

TFS是一个写入少而读取多的应用程序. 即使每个写操作都需要通过NameNode,也不会有问题. 这大大简化了系统的设计. 每个块只能同时具有一个写操作和多个客户. 终端上的写操作已序列化. 客户端首先向NameServer发起写入请求. NameServer需要根据可写块,容量和数据服务器上的负载的加权平均值来选择可写块,并选择该块所在的多个DataServer之一作为主副本进行写入. (主),如果所有副本都被成功修改,则主副本将首先通知NameServer更新块版本号,成功后将返回客户端操作结果. 整个过程如图3所示.

2. 讨论

分布式存储 架构_分布式存储系统_分布式存储软件

与GFS相比,TFS的写入过程没有充分优化. ***,每个写请求都需要多次访问NameServer;其次,数据推送不使用管道来减少延迟. 这也取决于特定历史时期的特定业务需求. 淘宝的系统是需求驱动的. 它以最具成本效益的方式解决了用户所面临的问题. TFS NameServer不需要保存文件目录树信息,也不需要维护文件和块之间的映射关系.

由于用户可能会上传大量相同的图片,因此在将图片上传到TFS之前,需要对它们进行重复数据删除. 通常,在外部维护一组文件级重复数据删除系统(Dedup),并使用MD5或SHA1以及其他哈希算法来计算图像文件的指纹(指纹). 在将图片写入TFS之前,首先进入重复数据删除系统以查找是否有指纹. 如果已经存在,则基本上可以视为重复图片;在将图片写入TFS后,还必须将图片的指纹和TFS中的位置信息保存到重复数据删除系统中. 重复数据删除是键值存储系统. 淘宝网使用Tair对图片进行重复数据删除. 图片更新操作是在TFS中写入新图片,并将新图片的位置保存在应用系统的中,图片删除操作仅删除应用系统中的图片.

随着系统越来越大,商业软件通常难以满足需求. 通过使用开源软件和独立开发相结合,可以具有更好的可控性,并且系统具有更高的可伸缩性. . 互联网技术的优势在于规模效应. 随着规模的扩大,单位成本将越来越低.

3. 内容分发网络

淘宝CDN使用分层存储. 由于缓存数据的高度本地性,Squid服务器上使用了SSD + SAS + SATA混合存储. 图片随热点迁移. 最受欢迎的存储是SSD,中热存储是SAS,中度存储是SATA. 这样,可以将SSD的性能与SAS和SATA磁盘的成本优势很好地结合在一起.

【编辑选择】

Docker存储机制SCM: Subversion存储系统软件体系结构IPFS: 基于区块链的分散存储网络分布式日志存储系统LogDevice [超级实用] SQL Server两种常用的系统存储过程>


本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/jisuanjixue/article-208272-1.html

    相关阅读
      发表评论  请自觉遵守互联网相关的政策法规,严禁发布、暴力、反动的言论

      热点图片
      拼命载入中...