

简介

Hadoop分布式文件系统(HDFS)设计为适合在常规硬件上运行的分布式文件系统. 它与现有的分布式文件系统有很多共同点. 但是与此同时,它与其他分布式文件系统之间的区别也很明显. HDFS是高度容错的系统,适合在廉价机器上部署. HDFS可以提供高吞吐量的数据访问,非常适合数据集上的应用程序. HDFS放松了一些POSIX约束,以达到流传输文件系统数据的目的. HDFS最初是作为Apache Nutch搜索引擎项目的基础结构开发的. HDFS是Apache Hadoop Core项目的一部分. 这个项目的地址是.


先决条件和设计目标
硬件错误

硬件错误是正常现象,而不是异常现象. HDFS可能包含数百或数千个服务器,每个服务器都存储文件系统数据的一部分. 我们面临的现实是组成系统的组件数量巨大分布式文件系统 原理,任何组件都可能发生故障,这意味着总有一些HDFS组件不起作用. 因此,错误检测和快速,自动恢复是HDFS的核心体系结构目标.
流数据访问

HDFS上运行的应用程序与普通应用程序不同,并且需要对其数据集进行流式访问. HDFS设计更多地考虑数据批处理而不是用户交互处理. 与数据访问的低延迟问题相比,关键是数据访问的高吞吐量. 对于HDFS应用系统,不需要POSIX标准设置的许多硬约束. 为了提高数据吞吐量,已在一些关键方面对POSIX语义进行了修改.
数据集
在HDFS上运行的应用程序具有大量数据集. HDFS上的典型文件大小通常为G字节到T字节. 因此,调整了HDFS以支持大文件存储. 它应该能够提供整体较高的数据传输带宽分布式文件系统 原理,并且可以扩展到群集中的数百个节点. 一个HDFS实例应该能够支持数千万个文件.
本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/jisuanjixue/article-217616-1.html
那么中国呢