MapReduce地位难保?Spark开源上位

日期: 2016-04-26 作者:Jack Vaughan翻译:冯昀晖 来源:TechTarget中国 英文

开源Apache Spark架构已经提供了快速的内存处理和高性能的机器学习库,还集成了数据流处理能力。它还在继续吸引更多来自Web新贵和传统企业环境的追随者。

Databricks公司在纽约组织的2016年度Spark峰会上,用户们分享了他们采用Spark架构的理由,包括把基本的内存分析引擎与一些有用的API融合应用。他们所有人的体验都给Market Research Media最近的评估增加了砝码,该机构评估Spark全球市场在2020年将达到42亿美元。

Spark越来越成为处理动态数据的核心,欺诈检测就是一个典型例子。

Chris D‘Agosting是Capital One公司技术副总裁(该公司总部位于美国弗吉尼亚州)。他在峰会上表示,他的团队在使用Spark做金融欺诈防御,根据银行的数字应用生成越来越多的数字数据。Spark的目标是缩短欺诈开始发生的时间点到欺诈行为被识别并终止的时间点之间的时间差。

从流处理开始

D’Agostino说Capital One公司已经使用Spark Streaming处理了很大的历史数据集,使用了Spark的SQL接口和图形数据格式。

D’Agostino说:“这就是Spark对我们有价值的地方。我们可以用SQL和图形化格式整合信息,创建执行模型并做出评分决定。”数据被送入Spark的机器学习工具,帮助识别可能存在的假身份和虚假注册账号。

他说Capital One公司使用Databricks公司支持的连接器,把Amazon Redshift的数据链接到Spark,允许Amazon Web Service云上的应用更快速地处理更多数据,进而获取到数据更多的特性,这些特性正是发现欺诈情况的关键。

D’Agostino说他的团队使用开源Apache Spark架构组件只是Capital One公司针对敏捷基线建模的一部分工作。团队由来自各领域的专业人士组成,这个工作组一般包括企业架构师、一名数据科学家和若干位分析师,还包括用户界面开发人员和数据工程师。数据工程师处理中间层和数据基础设施。

MapReduce地位难保

长期使用Hadoop的机构还在继续应用Spark,他们大多数会从Hadoop 1.0源MapReduce处理引擎迁移到更新版本格式。

Seshu Adunuthula是eBay公司基础设施分析负责人,他说:“Spark为支持电商的分析数据平台提供了一些有用的组件,取得了很多成熟的进展。”

与其它一些电商网站类似,eBay看到了应用从桌面到移动设备的大转移,每周大约有880万新增移动设备使用。与此同时,eBay看到了网站体验个性化的巨大需求,这就迫使他们必须改善内部分析支持能力。

在Spark大会上,Adunuthula描述了eBay多年的工作,他们实现了开放灵活的分析功能。都是在公司内部开发,以前是基于Hadoop增加使用广度和深度,现在还要加上Spark。

Adunuthula表示,Spark处理一些重要的案例上要超过MapReduce。他说eBay正在转变“传统的MapReduce任务”,从MapReduce转向Spark实现多维度分析数据集。

用于实时竞价

波士顿DataXu公司高级优化总监说,之前使用Hadoop以及其原生MapReduce数据处理引擎主要用于机器学习,他们现在也使用了Spark。DataXu公司是一家Web公司,为市场提供在线广告实时竞价服务。

Logan说:“Spark速度更快”,这对那些喜欢Spark而放弃MapReduce的人们来说是有力的论据。此外,她说Spark的机器学习Pipeline接口服务支持迭代处理,而MapReduce不支持。

这一点很重要,因为DataXu公司的数据流处理需求非常大。Logan说该公司系统处理量每秒钟多达160万次请求,同时要给广告客户在Web上提供适合展现广告的点。Spark的速度是一大优势。

Spark对DataXu公司还有一大吸引力就是机器学习库。DataXu公司原来的MapReduce系统依赖自主开发的代码实现机器学习算法。开发分布式环境的机器学习代码是很难的,调试也有难度,有这么大的一个社区软件可用会给工作带来巨大的帮助。

偏好开源

她说:“因为Spark机器学习库是开源的,所以我们不必自己去找到每个bug。也就意味着增加了可靠性。我们很少有自己的代码需要维护。”

内存处理引擎和高级机器学习库组件都帮助Apache Spark架构在目前大数据领域获得了独特的位置,而其开源特性使它可以从Apache Hadoop生态系统共享其它软件。在许多大数据分析采购决策中,这仍然是一个主要因素。

Thomas Dimsmore是美国马萨诸塞州Newton一位独立咨询顾问,他说:“做这些决策的人们都对开源有一定倾向,通常他们更愿意选择开源产品而不是商业产品。”

Dinsmore表示,这并不意味着这些用户不会考虑购买商业产品,这代表着市场对开源产品的一种显著倾向。这一现象在本次峰会上的许多Spark讨论中都有所体现。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

作者

Jack Vaughan
Jack Vaughan

TechTarget新闻记者和网站编辑,主要关注数据管理领域的技术趋势和动态。

相关推荐