首页 > 操作系统 >

Hadoop分布式文件系统的体系结构和设计原理

电脑杂谈　发布时间：2020-05-21 10:22:03　来源：网络整理

分布式文件存储系统_分布式文件存储方案_分布式文件系统原理

简介

分布式文件系统原理_分布式文件存储方案_分布式文件存储系统

Hadoop分布式文件系统（HDFS）设计为适合在常规硬件上运行的分布式文件系统. 它与现有的分布式文件系统有很多共同点. 但是与此同时，它与其他分布式文件系统之间的区别也很明显. HDFS是高度容错的系统，适合在廉价机器上部署. HDFS可以提供高吞吐量的数据访问，非常适合数据集上的应用程序. HDFS放松了一些POSIX约束，以达到流传输文件系统数据的目的. HDFS最初是作为Apache Nutch搜索引擎项目的基础结构开发的. HDFS是Apache Hadoop Core项目的一部分. 这个项目的地址是.

分布式文件存储系统_分布式文件存储方案_分布式文件系统原理

先决条件和设计目标

硬件错误

分布式文件存储系统_分布式文件存储方案_分布式文件系统原理

硬件错误是正常现象，而不是异常现象. HDFS可能包含数百或数千个服务器，每个服务器都存储文件系统数据的一部分. 我们面临的现实是组成系统的组件数量巨大分布式文件系统原理，任何组件都可能发生故障，这意味着总有一些HDFS组件不起作用. 因此，错误检测和快速，自动恢复是HDFS的核心体系结构目标.

流数据访问

分布式文件存储系统_分布式文件系统原理_分布式文件存储方案

HDFS上运行的应用程序与普通应用程序不同，并且需要对其数据集进行流式访问. HDFS设计更多地考虑数据批处理而不是用户交互处理. 与数据访问的低延迟问题相比，关键是数据访问的高吞吐量. 对于HDFS应用系统，不需要POSIX标准设置的许多硬约束. 为了提高数据吞吐量，已在一些关键方面对POSIX语义进行了修改.

数据集

在HDFS上运行的应用程序具有大量数据集. HDFS上的典型文件大小通常为G字节到T字节. 因此，调整了HDFS以支持大文件存储. 它应该能够提供整体较高的数据传输带宽分布式文件系统原理，并且可以扩展到群集中的数百个节点. 一个HDFS实例应该能够支持数千万个文件.

本文来自电脑杂谈，转载请注明本文网址：
http://www.pc-fly.com/a/jisuanjixue/article-217616-1.html

相关阅读

发表评论　　请自觉遵守互联网相关的政策法规，严禁发布、暴力、反动的言论