过去几年来,开源技术Apache Hadoop在BI和数据仓库专业人士当中已经变得相当流行。在本篇教程中,我们将通过回答一些关于Hadoop的常见问题来解释它的概念。 什么是Apache Hadoop? Apache Hadoop是一款免费的,基于Java的编程框架,专为分布式计算环境下的超大数据量并行处理而设计。Hadoop支持以容错方式扩展,可以从一台计算机扩展到数千台。
这种扩展性意味着处理集群中的个体计算机可以是比较廉价的,而集群本身也很有弹性。有了Hadoop,应用程序可以在成千上万个处理节点上处理PB级的数据量。 谁为Hadoop提供支持和资金呢? Hadoop是Ap……
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
过去几年来,开源技术Apache Hadoop在BI和数据仓库专业人士当中已经变得相当流行。在本篇教程中,我们将通过回答一些关于Hadoop的常见问题来解释它的概念。
什么是Apache Hadoop?
Apache Hadoop是一款免费的,基于Java的编程框架,专为分布式计算环境下的超大数据量并行处理而设计。Hadoop支持以容错方式扩展,可以从一台计算机扩展到数千台。这种扩展性意味着处理集群中的个体计算机可以是比较廉价的,而集群本身也很有弹性。有了Hadoop,应用程序可以在成千上万个处理节点上处理PB级的数据量。
谁为Hadoop提供支持和资金呢?
Hadoop是Apache软件基金会的项目之一。为Hadoop项目提供主要贡献的是来自全球的开发者们。Hadoop子项目由世界上最大的互联网公司支持,包括Facebook和雅虎。
为什么Hadoop会如此流行?
Hadoop之所以流行,部分原因是因为世界上最大的互联网企业都在用它来分析非结构化数据,这是不争的事实。Hadoop支持分布式应用处理数千EB的数据。
Hadoop适用于哪些业务场景?
Hadoop作为一款并行数据处理可扩展系统,对于分析大数据集非常有用。例如:搜索算法,市场风险分析,网上零售数据挖掘,用户行为分析。
Hadoop的扩展性对企业很有吸引力,因为他们处理的数据都有指数级增长的特性。Hadoop的另一个核心竞争力是它可以处理结构化数据和非结构化数据,支持各种数据源。
企业选择Hadoop有何挑战?
- 对许多企业来说,Hadoop框架很有吸引力,因为它给企业提供了分析数据的能力,不管数据量有多大。然而,不是所有企业都拥有专业能力来进行分析并产生商业价值的。
- 扩展和优化的Hadoop计算集群涉及大量编程工作,这对数据分析开发人员来说可能会有一定的障碍。
- Hadoop的设计原本并不具备太多安全功能,而这一点对于敏感企业数据通常也是必须要求的。
- 其它问题还包括与现存数据库和应用的集成,并且缺乏全行业范围内的最佳实践。
Hadoop发展历程是怎样的呢?
Hadoop原本来自于谷歌一款名为MapReduce的编程模型包。谷歌的MapReduce框架可以把一个应用程序分解为许多并行计算指令,跨大量的计算节点运行非常巨大的数据集。使用该框架的一个典型例子就是在网络数据上运行的搜索算法。
Hadoop最初只与网页索引有关,迅速发展成为分析大数据的领先平台。Cloudera是一家企业软件公司,该公司在2008年开始提供基于Hadoop的软件和服务。
GoGrid是一家云计算基础设施公司,在2012年,该公司与Cloudera合作加速了企业采纳基于Hadoop应用的步伐。Dataguise公司是一家数据安全公司,同样在2012年该公司推出了一款针对Hadoop的数据保护和风险评估。
Apache Hadoop配套项目
Apache软件基金会维护着Hadoop的几个配套项目:
- Apache Cassandra是一款为大数据量场景设计的数据库管理系统。它的关键特性是容错、扩容、Hadoop集成性和复制支持。
- Hbase是非关系型的支持容错的分布式数据库,专为存储大量稀疏数据而设计。
- Hive是为Hadoop设计的数据仓库系统,支持简单数据汇总。
- Apache Pig由创建数据分析程序的高级语言组成,还包括评估那些应用程序的基础。
- Apache ZooKeeper是用于分布式应用的一款集中服务。它维护配置信息,并提供命名注册、分布式同步和组服务。
- Chukwa是一个数据收集系统,可以监控大型分布式系统,包括分析结果的一个工具包。
- Apache Mahout项目的目的是生成丰富的实现,在Hadoop平台,可扩展的机器学习算法。
翻译
相关推荐
-
年度数据仓库市场格局新鲜出炉 论技术论实力谁更受青睐?
国际数据管理分析机构The Information Difference在最新年度数据仓库市场格局(Big Data Warehouse Landscape)报告中,对全球前25家数据仓库厂商进行了评估。
-
体育机构合理选择数据仓库 上演“球迷也疯狂”
体育运动机构如何能更准确地熟悉球迷群体呢?NBA的夏洛特黄蜂队提出了这个问题,并在Phizzle FanTracker平台中获得了答案。
-
Cask框架:加速构建Azure HDInsight数据管道
Microsoft Azure之类的云正努力将部署简化,但这和端对端大数据分析应用程序的实现以及将其在云上运行一样困难。
-
Spark架构在大数据环境的核心位置找到用武之地
Spark的最开始的名片是它能比MapReduce更快地运行批处理应用程序,而其编程环境和执行引擎是嵌入在Hadoop原始版本中的。