开源引擎Spark是否言过其实？

Apache Spark是一个开源数据处理引擎，2010年产生于加利福尼亚大学伯克利分校的实验室，之后跻身大数据产品之列。去年五月，Apache软件基金会发布了Spark 1.0.0版本。大数据供应商格外看好Spark，认为它更快、更有弹性，可以替代MapReduce处理和分析Hadoop数据。

Spark指出了一些Hadoop最初处理引擎MapReduce的一些缺点，Spark的核心是内存计算，据称运行批处理应用程序可以比MapReduce快100倍。Spark也是更通用的技术，适合加在批处理上的机器学习、流数据、图型处理和SQL查询应用程序。它使用高级API和指令集，和MapReduce相比，Spark让应用程序开发更简单。

不过，目前厂商的炒作仍多于Spark的实际应用，Spark技术还不成熟。比如把它和SQL连接的工具很新。它的内存能力对很多用户来讲价格昂贵。它的API没有MapReduce那么复杂，这往往让企业开发者无所适从。Spark还有很长的路要走。

Spark发展年表：

2009 计算机科学家Matei Zaharia在加利福尼亚大学伯克利分校实验室创建了Spark作为他的博士科研项目

2010 Spark开源，它在代码管理网站GitHub吸引了开发社区

2013 该项目被捐赠给Apache软件基金会，Spark峰会在旧金山举行，有450名参会者

2014 Apache发布了Spark1.0.0，之后又发布了两版。大数据供应商Databricks（Zaharia是联合创始人）使用Spark创建了新的大规模数据处理记录——23分钟处理100TB的数据

2015 Spark东部峰会在纽约举行

我们一直都在努力坚持原创.......请不要一声不吭，就悄悄拿走。

我原创，你原创，我们的内容世界才会更加精彩！

【所有原创内容版权均属TechTarget，欢迎大家转发分享。但未经授权，严禁任何媒体（平面媒体、网络媒体、自媒体等）以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget

官方微博

TechTarget中国

取消回复

要发表评论，您必须先登录。

作者

: Jack Vaughan

TechTarget新闻记者和网站编辑，主要关注数据管理领域的技术趋势和动态。

翻译

: Eunice

开源引擎Spark是否言过其实？

Spark发展年表：

取消回复

作者

Jack Vaughan

翻译

Eunice

相关推荐

Cloudera-Hortonworks合并或将减少Hadoop用户的选择

采矿设备制造商利用BI on Hadoop来挖掘数据

新Qlik Sense功能可用于云计算、AI和大数据

Cambridge Analytica秘密收集Facebook数据表明对道德数据挖掘的需求