TechTarget商务智能 > 百科词汇

Hadoop分布式文件系统:HDFS

Hadoop分布式文件系统(HDFS)是Hadoop应用程序使用的主存储系统。

HDFS是一个分布式文件系统,能够通过Hadoop集群提供高性能数据访问。和其它Hadoop相关的技术一样,HDFS也是管理大数据的关键工具,并能支持大数据分析应用程序。

由于HDFS通常部署在低成本的商业硬件上,所以常出现服务器故障。但是,文件系统是高度容错的,一旦一个节点发生故障,它可以通过加快计算节点间的数据转移来保证Hadoop系统继续运行。这样,即使出现大量节点失效,也可以降低灾难性故障的风险。

当HDFS接收数据后,它会把信息分成独立的块,然后分发给集群中的不同节点,进行并行处理。文件系统会为每个数据块做多次拷贝,然后分发给每个节点,每个服务器机架上都至少有一份数据副本。这样,即使一个节点出现故障,也可以在集群中的其它位置找到该节点的数据副本,以便继续执行应用程序。

HDFS可以支持大数据集应用程序,包括单个文件大小就达到TB级的应用。它采用主/从结构,每个集群都包括一个管理文件系统操作的名字节点(NameNode)和管理每个计算节点上的数据存储的数据节点(DataNodes)。

最近更新时间:2015-02-03 作者:Emma Preslar翻译:刘前程EN

相关推荐