Spark框架内存技术获得广泛支持 包括戴尔、Pivotal

日期: 2014-11-06 作者:Jack Vaughan翻译:陈洪钰 来源:TechTarget中国 英文

日前,在美国纽约召开了Strata + Hadoop全球大会,不过,会上Spark无疑出尽了风头,Apache Spark成为此次大会的中心,关于它的分论坛参与度也极高,很多供应商也都表示对Spark给予支持,包括戴尔和主要的Hadoop发行版供应商Cloudera、Hortonworks、MapR和Pivotal。

Spark软件诞生之初,是作为第一代Hadoop中央处理组件MapReduce的替代品出现的,脱胎于美国加州大学伯克利分校的实验室,之后成为Apache项目的重要部分,今年早些时候发布了1.0版本。官方表示,在Spark上运行的Hadoop批处理应用程序能比在MapReduce上快100倍。

除了MapReduce支持的批处理应用程序,Spark还支持很多其他应用程序,比如迭代和机器学习应用程序,尤其是包含不断更新的事件数据流的应用程序。目前,这些应用已经包括音乐推荐引擎和基因研究。Spark包含很多机器学习算法、支持SQL查询的API接口,图处理和通用数据流。

Spark全面的能力吸引了广泛的关注,尤其是希望提升大数据处理能力的供应商。Gartner分析师Merv Adrian认为:“起码现在来看,Spark比Hadoop适用于更多的业务用例。

Spark还适用于内存处理,和与磁盘绑定的MapReduce相比,又是一个飞跃。451调研公司的分析师Matthew Aslett表示:“我们观察Spark很久了,对它的内存能力印象很深,尤其是它可以在单一内存引擎上运行多种分析方式。”

戴尔支持Spark框架

在Strata + Hadoop全球大会上,很多供应商都纷纷加入Spark阵营,表示对Spark进行支持,包括主要的Hadoop发行版供应商Cloudera、Hortonworks、MapR和Pivotal,以及其他硬件和软件厂商。

戴尔在它为Cloudera Enterprise提供的In-Memory Appliance中加入了Spark框架,支持48个计算节点。目前,已经有一家大型零售商在做店内基于RFID的产品追踪时用到了它。同时,Urika-XA分析系统、Nano-scale材料结构分析和Alpine数据实验室也都开始支持Spark。

Guavus是一家为通讯和市场营销公司搭建运营分析平台的软件供应商,公司负责核心系统的副总裁Eric Carr表示:“Spark提供及时的数据流分析,相比于Hadoop,Spark的机器学习更能胜任迭代的内存处理。”

Guavus将Spark和HDFS结合使用,Carr表示:“Hadoop 2 发布的资源管理器Yarn很重要,它让部署Spark成为了可能,通过Yarn,用户可以插入Spark、Storm和其他Hadoop兼容技术组件解决问题,同时仍然使用HDFS作为底层文件系统。

Spark的不足

至于缺陷,Carr认为Spark在使用SQL查询语言探测数据时,效果还不理想。其实,Impala、Storm、Stinger和Tez等Hadoop工具都面临这样的问题。再有一点是,在讨论Hadoop时人们经常提到的,它还处于软件发展的初级阶段。对此,Aslett和Adrian也表示认同。

另外,Aslett也提醒道,如果组织没有充分考虑自己的需求而盲目采用Spark技术,也会导致很多问题。就像Carr说的,“如果你用了内存处理,你就要付出很高的成本,因为内存处理很贵,这时候就要具体考虑自己的业务用例了。”

Adrain认为,虽然在大数据管理和分析领域,Spark发展很快,但它还需要成长,它还处于青少年阶段。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

作者

Jack Vaughan
Jack Vaughan

TechTarget新闻记者和网站编辑,主要关注数据管理领域的技术趋势和动态。

相关推荐