首页 > 操作系统 >

谈论分布式文件存储系统

电脑杂谈　发布时间：2020-04-24 01:18:45　来源：网络整理

分布式存储技术_分布式存储软件_分布式文件存储系统的优点

分布式文件存储系统主要分为三种类型: 分布式文件存储，块存储和对象存储. 这三种存储系统都有各自的特点和适用场景.

分布式文件存储和对象存储紧密相连. 大多数对象存储系统都是在分布式文件系统的基础上实现的.

幸运的是，我在过去的工作中对这三个系统有过深浅的接触，因此我必须组织这些分散的知识点. 同学们一起进步.

对于分布式文件存储系统，我们经常根据其特征和功能模块对其进行划分，以便从各个角度学习，理解和实现分布式文件存储系统

系统架构

对于当前接触的主流分布式文件系统，根据系统体系结构的特点，可以将它们分为以下大部分:

是否有中央管理节点

存储节点是否存在主从差异？

分布式文件存储系统的优点_分布式存储技术_分布式存储软件

这两种体系结构各有优缺点，它们在整个分布式文件系统的实现中起着决定性的作用，直接影响采用哪种一致性协议来维护备份之间的一致性以及如何管理群集，以及数据丢失或如何恢复已损坏的数据，清除数据等功能，将在后面分别说明和解释

集群管理

集群管理主要解决以下问题:

存储节点和离线通知，自动删除不可用的节点等

集群中每个节点的运行状况和状态维护，无论其是否健康，可读和可写

维护系统的逻辑模型，例如分区和用户等逻辑概念之间的关系，例如快速系统中提到的区域，区域，节点和模式的逻辑概念和从属关系

数据定位

客户端可以根据文件名快速找到数据位置并获取文件内容. 目前，有两种联系分布式存储系统的方法来解决数据定位问题. 一种可以称为计算方法，即最常见的哈希算法定位，另一种可以称为查询，它存储映射关系并通过查询来定位文件位置.

其中，哈希算法是最常见的数据分发方法. 其方法是根据数据的某种特性计算哈希值，并在机器中建立哈希值与磁盘之间的映射关系，并用swift表示. 哈希算法也属于此类改良品种. 使用哈希方法的优势显而易见. 无需记录任何元信息. 任何节点只需要知道哈希函数的计算方法就可以知道数据存储的位置，而且还存在一些问题，增加或减少节点将不可避免地引起或多或少的数据迁移.

分布式文件存储系统的优点_分布式存储技术_分布式存储软件

提到的另一种查询方法通常不着重于存储文件映射的元数据信息，因为随着群集大小的增长，元数据服务器更有可能成为瓶颈，因此经常使用多个元数据的数据服务机制来解决这个问题.

存储引擎

存储引擎，也就是说，数据最终以什么形式存储在独立系统上. 分布式文件系统的大多数基础存储形式都依赖于本地文件系统接口，例如Swift，Ceph和其他基础文件存储. 毕竟，分布式文件系统本身已经非常复杂，并且很难从上层到底层存储实现它. 本地文件系统非常成熟和完善，因此大多数分布式文件系统都依靠本地文件系统来实现.

在一台机器上不同的分布式文件系统的存储格式是不同的. 以迅捷为例，它以文件形式存储在单机的文件系统中，即一个文件对应一台机. 一个文件（忽略对象存储层中大文件之间的映射关系），还有另一个分布式文件系统. 在单机文件系统中，多个文件被合并并以大文件的形式存储在单机文件系统中. 同时，每个文件的操作日志被同时记录，可以理解为小文件的合并.

这两种存储方法各有优缺点，并有各自适用的场景. 合并文件的日志文件系统，虽然会出现文件的二次定位问题，但是具有明显的优势，即小文件的读写性能将得到显着提高，因此不能快速使用. 对于存储系统，实现起来相对容易，但是用于小文件的磁盘读写将不可避免地成为性能瓶颈.

商店副本

副本（副本/副本）的存在是为了确保分布式系统中的数据冗余. 相同的数据保留在不同的节点上. 当存储在某个节点中的数据丢失时，您可以从副本To data中读取数据，这是分布式系统解决数据丢失异常的唯一方法.

具有高可靠性要求的数据需要三备份存储，甚至副本也可以跨分区存储；对于可靠性要求较低的数据，两个备份可以满足需求. 随着存储数据量的增加，多副本存储将增加存储成本. 因此，通过擦除编码，可以大大节省存储成本，并可以提高数据的可靠性.

多个副本存储引发了一些需要解决的关键问题，例如副本数据的一致性，如何确保副本的正确数量和位置等等.

分布式文件存储系统的优点_分布式存储软件_分布式存储技术

一致性协议

一致性协议是分布式文件系统的核心问题之一，它与如何保持复制内容的一致性有关. 三种常见的一致性模型如下:

高度一致性: 对副本成功执行更新操作后，所有后续读取操作必须能够获取最新数据.

一致性差: 更新某些数据时，用户需要一段时间才能读取最新数据.

最终一致性: 这是弱一致性的一种特殊形式. 它不能保证在更新某个数据X时，对X的所有后续操作都可以看到新数据，但只能在一个时间段之后. 在此时间段内，数据可能不一致.

在多个副本节点不具有主从关系的分布式系统中，通常由客户端保证数据一致性的保证，其中客户端引用分布式文件系统的访问层，例如swift代理节点分布式文件存储系统的优点，swift使用仲裁仲裁协议，即R + W>N. Swift的默认配置为N = 3，W = 2> N / 2，R = 1或2，即会有3个副本每个对象的副本，这些副本将尽可能地存储在不同区域的节点上； W = 2表示至少需要更新两个副本才能被视为成功写入；当R = 1时，表示将立即返回某个读取操作. 在这种情况下，可能会读取旧版本（弱一致性模型）；当R = 2时，您需要在读取操作请求标头中添加x-newest = true参数，以同时读取2个副本的元数据信息，然后比较时间戳以确定哪个是最新版本（强一致性）. 型号）

但是，当多个副本之间有一个主从节点时，数据的一致性主要由主节点保证. 客户端的写请求被发送到主节点，主节点被成功更新，该请求被转发给从节点. 从所有从节点收到成功的响应后，该节点返回成功（强一致性模型）.

稍后将从实现和性能的角度解释这两种方法的优缺点.

数据恢复

分布式文件存储系统的优点_分布式存储软件_分布式存储技术

对于具有中央控制节点和非中央控制节点的分布式文件系统，数据恢复的实现也将大不相同

对于具有中央节点的系统，大多数数据恢复由中央节点控制，因为只有它具有存储节点和存储介质的全局信息，并且每个存储节点可以做的就是等待中央节点节点执行数据恢复. 任务

对于没有中央节点的系统，数据恢复只能由每个存储节点（例如swift）根据环信息获取副本的位置，通过数据恢复的过程来保持. 份数和位置的正确性

数据清理

用户是否通过调用delete接口删除数据，是否直接删除了数据？还是标记为删除？直接删除是最简单，最方便的方法，但是这也意味着如果误删除了数据，则无法检索数据. 删除需要附加模块来扫描标记为删除的数据，然后实施实际删除，这在一定程度上降低了数据丢失的风险.

异常处理

异常处理是分布式系统中要处理的核心问题之一. 只有合理地处理各种可预测和未知的异常，才能保证分布式存储系统的可用性和可靠性. 常见的异常包括节点停机，网络异常，硬件故障等. 对异常的不正确处理导致不可用和系统性能问题. 但是，如何处理分布式文件系统的遗留问题以及如何通过压力异常测试以确保系统可用性等是相对较大的主题，将对此进行跟踪.

通讯协议

通信协议主要是指分布式文件系统中节点之间的通信主要采用哪种协议. 以迅捷为例，节点之间的所有通信均采用HTTP协议，另一种常见的通信协议为“使用RPC协议进行通信”.

从系统使用和可测试性的角度来看，使用HTTP协议是有利的，但是这也意味着到达不同节点的请求将经历连续的解析和封装，这势必会造成损失，尤其是与rpc协议，以前已经进行过性能比较，但是对于存储系统来说，这种延迟没有任何作用.

就代码实现而言，RPC协议既简单又方便，但是与HTTP协议相比，在进行一些分层的功能和性能测试时，可测试性会受到影响，这虽然麻烦一些，但总体上可以接受.

读写过程

分布式文件系统的体系结构确定其读取和写入过程必定是不同的. 如果有中央节点系统，则客户端的写入操作将首先转到中央节点，以获取要写入哪个节点的信息. 对于存储节点，客户端的读取操作通常转到主节点进行读取. 返回搜狐分布式文件存储系统的优点，查看更多

本文来自电脑杂谈，转载请注明本文网址：
http://www.pc-fly.com/a/jisuanjixue/article-186568-1.html

相关阅读

发表评论　　请自觉遵守互联网相关的政策法规，严禁发布、暴力、反动的言论