Hadoop分布式文件系统:HDFS
Hadoop分布式文件系统(HDFS)是Hadoop应用程序使用的主存储系统。
HDFS是一个分布式文件系统,能够通过Hadoop集群提供高性能数据访问。和其它Hadoop相关的技术一样,HDFS也是管理大数据的关键工具,并能支持大数据分析应用程序。
由于HDFS通常部署在低成本的商业硬件上,所以常出现服务器故障。但是,文件系统是高度容错的,一旦一个节点发生故障,它可以通过加快计算节点间的数据转移来保证Hadoop系统继续运行。这样,即使出现大量节点失效,也可以降低灾难性故障的风险。
当HDFS接收数据后,它会把信息分成独立的块,然后分发给集群中的不同节点,进行并行处理。文件系统会为每个数据块做多次拷贝,然后分发给每个节点,每个服务器机架上都至少有一份数据副本。这样,即使一个节点出现故障,也可以在集群中的其它位置找到该节点的数据副本,以便继续执行应用程序。
HDFS可以支持大数据集应用程序,包括单个文件大小就达到TB级的应用。它采用主/从结构,每个集群都包括一个管理文件系统操作的名字节点(NameNode)和管理每个计算节点上的数据存储的数据节点(DataNodes)。
最近更新时间:2015-02-03 作者:Emma Preslar翻译:刘前程EN
相关推荐
-
Hadoop考虑新增对象存储,弥补分布式存储HDFS不足
Hadoop社区今日提议为Hadoop增加一个新的对象存储环境,这样Hadoop就能以与亚马逊S3、微软Azure以及OpenStack Swift等云存储服务一样的方式去存储数据。
-
Hadoop 2集中式的缓存管理原理与代码剖析
Hadoop 2.3.0已经发布了,其中最大的亮点就是集中式的缓存管理。这个功能对于提升Hadoop系统和上层应用的执行效率与实时性有很大帮助
-
如何进行MySQL数据库与HDFS的实时数据同步
MySQL Applier for Hadoop的复制是通过连接MySQL主服务,一旦二进制日志被提交,就读取二进制日志事务,并且把它们写到HDFS.
-
分析师给出关于Hadoop的12个事实
分析师Philip Russom发表了“关于Hadoop的12点事实”的主题演讲,TechTarget编辑在本文中将对其精华内容进行总结,希望对您进一步了解Hadoop有所帮助。