Apache Hadoop一直以来都是亚马逊和雅虎这种大数据狂热分子的掌上明珠,不过围绕它的炒作泡沫可能很快就要破裂了。
Gartner分析公司的最新报告显示,能够跨多个计算机集群实现大数据集分配处理的开源环境中的投资仍然维持在“试探性”阶段,Gartner将这解读为“对于商业价值和技巧巨大挑战。”
Gartner规模庞大的Research Circle的284位成员参与了一个调查,这些成员中包括IT和商业领袖。调查显示,有26%的受访者正在试验,试用或完全应用Hadoop,除此之外还有18%的受访者计划在接下来的两年内试水Hadoop。
57%的受访者表示,技巧缺失是采用Hadoop的最大障碍,还有49%的人并不清楚如何从这一系统中获取收益。这就意味着,在大多数情况下,企业根本不会优先考虑采用Hadoop,而其他人认为对于他们的企业来说采用Hadoop是大材小用。
所以什么出了问题呢——如果Hadoop近期不具备占领整个世界的能力,那么它是否就注定会由于缺乏理解而淡出人们的视野呢?又或者它在一个被大数据的可能性迷惑得越来越深的世界有没有合适的位置?
Chris Brown是高效OCF计算咨询公司的大数据领军人,他认为问题之一就在于这种技术并不适合数据量过少的企业——他认为数据量要达到至少1TB才适用这种技术。
“举个灯塔式的例子就是亚马逊,雅虎和沃尔玛,这些都是大企业,但是在我们英国只有一些电信公司,零售商或者金融服务机构比较大,其余都是小公司。”他这样表示:“所以,中小型公司才是我们这儿的主体。对于它们来说,这种技术确实是大材小用,对于中小公司很难启动。”
另外一个问题在于投资收益率——在Gartner所列举的技巧缺失的状况下更是雪上加霜,因为这会不可避免的导致专业技术的高昂价格。
Hadoop的挑战
Aquila Insight数据分析咨询公司的首席技术官Euan Robertson认为,自从“数据科学家”的角色变成了包含“工程师和统计学家”两种角色的混合体,并生发了一种“新型混合型人才”之后,这种技巧就更难找了。
能够提升投资收益率的支撑点保证了基于工业和顾客需求的用例使用得当。
“如果活动用户量可能在某一时刻达到1亿,像King开发的糖果粉碎传奇游戏,或者想要分析顾客记录的银行,又或者你想知道‘现在我们在Twitter上是什么形象?’Hadoop都很有用。”Robertson这样说道。
“如果每天的处理量达到160GB以上,你的相关数据库模型就会开始出问题,如果你处理的是类似免费信息,来电记录或者微博推送这种差别较大的无结构数据集,也会出现相同的问题。”
但是还须说明,Hadoop并不是在所有情况下都是最佳解决方案,甚至是在处理大数据时都不一定。在某些情况下,用户已经开始用Apache Spark替代它,因为Spark提供MapReduce的替代品,而早期Hadoop却绑定了MapReduce。
“Hadoop完全足以处理过夜的问题,但是如果需要当天内解决问题就要用Spark,它与Hadoop从属于同一生态系统中,但是可以实现实时分析。”
反过来看Hadoop却更像一个批量处理模型。“或者长期记忆,长时间积累经验,而Spark处理的则是更加短期的记忆。”
OCF的Brown也同意这一观点:“Hadoop具有其历史性意义,因为它开启了新思维线。在它存在之前,虽然人类也涉足了分析和大数据的一部分,但是在大多数人的日程这并不紧急。但是这一技术现在正在慢慢被取代,例如Spark这类技术,这些技术与Hadoop稍有不同,但更为迅捷。”他这样总结道。
案例研究:JustGiving
网上筹资平台JustGiving的首席分析官Mike Bugembe表示:“虽然没有Hadoop我们并非没有可能做到我们想做的事情,那种情况下的成本和资源耗费还我还是不愿想象。”
该公司最早于2013年初采用这一技术,公司引进了测试代码,在微软的Azure云环境上运行,使之能够按照需求启动和关闭Hadoop集群。
该计划的目标在于分析人们做出捐款决定这一决策制定过程,来“找到慷慨解囊的障碍”,减少这一体验中的交易感,“提升意义感和参与感。”Bugembe说道。
为了这一目的,该公司开发了一个特别算法,来确定什么性格的人在关心某项慈善事业时更倾向于表现出来,以及在捐赠过程中与他们进行交互的最好时机。
这一系统用于分析14年间世界上2300万参与过2000万项慈善事业的人的交易数据,以及其中的关系。
“观察其中关系不仅能够提高规模,而且能够让我们脱离结构化数据处理——这是一个拥有超过8000万节点的图表,处理2.85亿对关系。”Bugembe说道,“所以如果你想在短时间内在图表内进行计算,SQL数据库根本就不够用。”
新交互
这一计划引起了JustGiving平台上新社交媒体的产生,鼓励为某项事业筹资的人与捐款者通过一些基本工具(如点“赞”,“分享”和“关心”按钮)进行交互。
Bugembe认为这一服务增加了用户回访量。更重要的是,现在捐款的访问者比例已经达到了16%,而电子商务界平均的比例还只停留在个位数。
但是他也承认,要想从这一系统的投资获得收益还需时间,主要原因在于“寻找具备各种技能的人才非常难。”并且价格不菲。
这种技能包括知道如何操纵数据和统计数据,具备机器学习和应用开发专业知识。但是最重要的因素在于他们需要“在其他领域都有热情”,并且乐于学习,Bugembe说道。
该公司总员工有160名,Hadoop团队现在有14名员工,其中有40%是技术员工。
但是JustGiving目前也在测试Spark,想要实现将这一技术与Hadoop并行。目前,Hadoop负责每夜批量处理,以更新所有图表上的8000万节点,但是在实时分析数据方面,Hadoop只处理一个子集的数据,这样才能够实现管理。
“但是Spark能够实现更加连贯的实时计算——而且对于我们来说,两者的结合能够提升价值,”Bugembe表示,“我们不需要完全实时处理所有信息,但是实时处理能够给予我们使用Python和R语言的灵活性。我不认为一个能代替另一个,因为它们完全可以很好地实现共存。”
案例研究:PostcodeAnywhere
Postcode Anywhere的首席技术官Jamie Rurner介绍到:“Hadoop一定会消亡,尽管这个消亡的过程可能比较缓慢而沉痛。但是它一定会被淘汰,因为虽然它通过大型分配计算机解决了某些问题,但是它的表现并不出色。”
Postcode Anywhere公司成立于2001年,其客户包括特易购、曼城足球俱乐部和菲亚特等公司,为客户提供云端地址管理服务,在一年半之前刚开始评估这一技术。
一开始他们认为Hadoop能够为一项新产品打下基础,为行为和情感建模,而这项新产品原本是打算在内部小规模运行的,但是公司决定通过创业公司Triggar进行纵向扩展,实现商业化。
公司的目标是创造一种能够对网上行为的变化做出反应的技术,来帮助零售商将访客转化为顾客。虽然目前还在内测,但是2015年秋就会开始运行。
“我们的用例是机器学习,这就意味着要处理大量数据和大量运算,”Turner解释道,“但是这是Hadoop不擅长的经典案例。它的处理是基于磁盘的,这是较为简易的方法,但这会使过程十分缓慢,特别是在类似这种的记忆密集型体验中。”
其他的挑战还包括工具操作性差和操作难的问题,在开发领域还存在限制表现力的倾向。
选择Spark,放弃Hadoop
“我们很快就放弃了Hadoop,但是我对Hadoop最早的印象就是它非常复杂,但面具之后却不那么庞杂。”Turner表示。
因此,最终的决策采纳了新秀Spark。Turner解释了其中因由:“Spark擅长微批量工作。它更擅长职业管理,从失败节点中的恢复更佳,而且比Hadoop快一百倍,所以我们自然而然就选了它。”
Spark的其他优点包括设置“更简便一点”,但是也“更加支持”周边的开源社区,因此“贡献更多,更主动积极,背后还有财务上的优点。”他进一步说道。
但是它也不无缺点。要找到拥有合适Spark技能的人跟要找Hadoop人才一样困难。“紧随大数据而来的就是‘大头痛’,因为基础设施里由太多活动的部分,处理事务的技巧领域就是一个长期战场。”Turner说道,“理解并且能够管理这些东西的人非常少,而且他们基本都被大鳄垄断,例如银行什么的,这些大鳄总是走在时代前面,给的工资也很任性。”
但是,他相信随着大数据处理车轮的向前,Spark正在慢慢接管Hadoop的领域。
“你可以说Spark是Hadoop2.0版,因为它解决了Hadoop的很多基本问题。他们功能一致,但是Spark运行更快,占硬盘更少,你知道如果出现问题应该怎么办就有了反击的机会,而且解决问题的几率更大。所以从任何一种角度来说都是Spark占上风。”Turner总结道。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
作者
相关推荐
-
实现Spark部署 依赖供应商还是”自力更生”?
Apache Spark用户经常面临一个困境:继续获取来自供应商的支持还是更新版本,使用具有更新功能的快速移动的开源软件?
-
换个姿势聊聊数据库和大数据工具
随着数据管理和商业智能可选方案的倍增,要为IT团队指定学习课程也是越来越不容易了。用户也逐渐向支持不同平台且能妥善解决数据处理问题的架构转移。
-
MapReduce地位难保?Spark开源上位
开源Apache Spark架构已经提供了快速的内存处理和高性能的机器学习库,还集成了数据流处理能力。它还在继续吸引更多来自Web新贵和传统企业环境的追随者。
-
大数据:预见下一代基因分析工具
Cloudera宣布与隶属于麻省理工大学和哈佛大学的博德研究所合作。今年两个组织一起致力于推进博德研究所下一代基因分析工具GATK4的发展。