首页 > 操作系统 >

建筑师必看系列，对分布式文件系统HDFS的解释

电脑杂谈　发布时间：2020-05-21 10:22:36　来源：网络整理

分布式存储系统:原理解析与架构实战 pdf_分布式文件管理系统_分布式文件系统原理

【IT168技术】在Hadoop生态系统中，Hadoop分布式文件系统（HDFS）是非常关键的链接. 它为管理大数据资源池和支持相关的大数据分析应用程序提供了高度可靠的资源. 工具. 在分布式存储领域，HDFS作为系统架构师必须了解的分布式文件系统之一也发挥着重要作用.

HDFS的工作原理

HDFS支持计算节点之间的快速数据传输. 在一开始，它与MapReduce紧密结合-MapReduce是用于数据集并行计算的编程框架.

分布式存储系统:原理解析与架构实战 pdf_分布式文件管理系统_分布式文件系统原理

HDFS接收数据时，会将信息分成单独的块，然后将其分发到群集中的不同节点分布式文件系统原理，从而支持高效的并行处理.

此外，HDFS是专为高容错而设计的. HDFS可以多次复制每个数据，将副本分发到每个节点，并将至少一个副本放置在其他服务器机架上. 因此，也可以在群集中的其他位置找到崩溃节点上的数据. 这样可以确保恢复数据后继续处理.

HDFS使用主/从体系结构. 在其原始版本中，每个Hadoop集群都由一个NameNode（用于管理文件系统操作）和支持DataNode（用于管理单个计算节点上的数据存储）组成. 这些HDFS元素组合在一起，以支持具有大数据集的应用程序.

此主节点“数据分区”体系结构从Google文件系统（GFS）和IBM的通用并行文件系统（GPFS）汲取了一些设计指导元素. GFS是可扩展的分布式文件系统，用于访问大量数据的分布式应用程序. 它在廉价的普通硬件上运行，并提供容错能力，可以为大量用户提供更高的整体性能服务. GPFS是专门为集群环境设计的高性能，可扩展的并行文件系统. 它可以实现对群集中多个节点之间共享文件系统中文件的快速访问，并提供稳定的故障恢复和容错能力. 机制. 此外，尽管HDFS与操作系统接口（POSIX）模型不兼容，但它在某些方面也呼应POSIX设计风格.

分布式存储系统:原理解析与架构实战 pdf_分布式文件系统原理_分布式文件管理系统

HDFS体系应用程序通过客户端与NameNode和DataNode交互

为什么使用HDFS

HDFS最初由Yahoo开发，旨在满足公司的某些广告服务和搜索引擎需求. 与其他面向Web的公司一样，雅虎发现需要处理的应用程序用户具有越来越多的访问权限，并且这些用户正在生成越来越多的数据. 后来，Facebook，eBay和Twitter等公司也开始使用HDFS作为大数据分析的基础，以满足相同的需求.

分布式文件系统原理_分布式文件管理系统_分布式存储系统:原理解析与架构实战 pdf

但是HDFS的目的远不止于此. 上面提到的Web搜索可以分类为数据密集型并行计算. 此外，HDFS还经常用于计算密集型并行计算应用场景中，例如天气计算. 在混合数据密集型和计算密集型场景中也有许多应用程序，例如3D建模和渲染. HDFS还是许多开源数据仓库（有时称为Data Lakes）的核心.

HDFS通常用于部署，因为它具有重要的功能，即可以在普通的廉价计算机上运行. 同样，运行Web搜索和相关应用程序的此类系统通常需要可扩展到数百PB和数千个节点，因此该系统必须具有易于扩展的功能，这就是HDFS的功能. 此外，服务器故障在这种规模上很普遍，HDFS提供的容错能力在这方面也具有实际价值.

不适用于HDFS场景

首先，HDFS不适合具有高延迟要求的方案，例如实时查询. 在延迟方面，HDFS没有足够的优势. 其次，HDFS也难以支持存储大量小文件. 在Hadoop系统中，“小文件”通常定义为比HDFS的块大小（默认为64MB）小得多的文件. 由于每个文件都会生成自己的元数据元数据，因此Hadoop使用Namenode来存储此信息. 许多情况下，很容易导致大量的NameNode内存，并且查找时间将超过读取时间分布式文件系统原理，这将给系统带来性能瓶颈.

分布式存储系统:原理解析与架构实战 pdf_分布式文件系统原理_分布式文件管理系统

此外，HDFS不支持多用户写入，也不能随机修改文件. 它仅支持附加，即附加到文件末尾. HDFS适用于存储半结构化和非结构化数据. 如果数据具有严格的结构化特征，则不宜强制使用HDFS. 最后，HDFS适用于TB和PB级大数据处理. 文件数量通常超过一百万. 如果数据量较小，则不必使用HDFS.

HDFS和Hadoop的历史

这是一些关键的时间节点. 2006年，Apache Hadoop项目正式启动，HDFS和MapReduce开始独立开发. 该软件已广泛用于各个行业的大数据分析项目. 2012年，发布了HDFS和Hadoop 1.0版.

2013年，Hadoop 2.0版本加入了通用YARN资源管理器，并且MapReduce和HDFS被有效地分离. 从那时起，Hadoop支持各种数据处理框架和文件系统. 尽管MapReduce通常被Apache Spark取代，但是HDFS仍然是Hadoop的一种流行文件格式.

在发布四个alpha版本和一个beta版本之后，Apache Hadoop 3.0.0于2017年12月开始普遍提供，并且HDFS增强功能支持其他NameNode，擦除编码工具和更大的数据压缩. 同时，LinkedIn的开源Dr. Elephant和Dynamometer性能测试工具等HDFS工具的进步，也使HDFS支持进一步的开发.

本文来自电脑杂谈，转载请注明本文网址：
http://www.pc-fly.com/a/jisuanjixue/article-217618-1.html

相关阅读

发表评论　　请自觉遵守互联网相关的政策法规，严禁发布、暴力、反动的言论

张素真

2026年06月03日回复顶转发
吴美鹏

我赞成我们不和任何国家搞对抗而广泛合作的外交政策

2026年06月03日回复顶转发

每日福利

Win7建立无线局域网_IT /计算机_数据

Windows软件卸载工具V1.4.3.107中文版

js中数字的常规判断

解决win7系统无法全屏播放游戏的问题_IT /计算机_信息

热点图片

热点排行