日前,在美国纽约召开了Strata + Hadoop全球大会,不过,会上Spark无疑出尽了风头,Apache Spark成为此次大会的中心,关于它的分论坛参与度也极高,很多供应商也都表示对Spark给予支持,包括戴尔和主要的Hadoop发行版供应商Cloudera、Hortonworks、MapR和Pivotal。
Spark软件诞生之初,是作为第一代Hadoop中央处理组件MapReduce的替代品出现的,脱胎于美国加州大学伯克利分校的实验室,之后成为Apache项目的重要部分,今年早些时候发布了1.0版本。官方表示,在Spark上运行的Hadoop批处理应用程序能比在MapReduce上快100倍。
除了MapReduce支持的批处理应用程序,Spark还支持很多其他应用程序,比如迭代和机器学习应用程序,尤其是包含不断更新的事件数据流的应用程序。目前,这些应用已经包括音乐推荐引擎和基因研究。Spark包含很多机器学习算法、支持SQL查询的API接口,图处理和通用数据流。
Spark全面的能力吸引了广泛的关注,尤其是希望提升大数据处理能力的供应商。Gartner分析师Merv Adrian认为:“起码现在来看,Spark比Hadoop适用于更多的业务用例。
Spark还适用于内存处理,和与磁盘绑定的MapReduce相比,又是一个飞跃。451调研公司的分析师Matthew Aslett表示:“我们观察Spark很久了,对它的内存能力印象很深,尤其是它可以在单一内存引擎上运行多种分析方式。”
戴尔支持Spark框架
在Strata + Hadoop全球大会上,很多供应商都纷纷加入Spark阵营,表示对Spark进行支持,包括主要的Hadoop发行版供应商Cloudera、Hortonworks、MapR和Pivotal,以及其他硬件和软件厂商。
戴尔在它为Cloudera Enterprise提供的In-Memory Appliance中加入了Spark框架,支持48个计算节点。目前,已经有一家大型零售商在做店内基于RFID的产品追踪时用到了它。同时,Urika-XA分析系统、Nano-scale材料结构分析和Alpine数据实验室也都开始支持Spark。
Guavus是一家为通讯和市场营销公司搭建运营分析平台的软件供应商,公司负责核心系统的副总裁Eric Carr表示:“Spark提供及时的数据流分析,相比于Hadoop,Spark的机器学习更能胜任迭代的内存处理。”
Guavus将Spark和HDFS结合使用,Carr表示:“Hadoop 2 发布的资源管理器Yarn很重要,它让部署Spark成为了可能,通过Yarn,用户可以插入Spark、Storm和其他Hadoop兼容技术组件解决问题,同时仍然使用HDFS作为底层文件系统。
Spark的不足
至于缺陷,Carr认为Spark在使用SQL查询语言探测数据时,效果还不理想。其实,Impala、Storm、Stinger和Tez等Hadoop工具都面临这样的问题。再有一点是,在讨论Hadoop时人们经常提到的,它还处于软件发展的初级阶段。对此,Aslett和Adrian也表示认同。
另外,Aslett也提醒道,如果组织没有充分考虑自己的需求而盲目采用Spark技术,也会导致很多问题。就像Carr说的,“如果你用了内存处理,你就要付出很高的成本,因为内存处理很贵,这时候就要具体考虑自己的业务用例了。”
Adrain认为,虽然在大数据管理和分析领域,Spark发展很快,但它还需要成长,它还处于青少年阶段。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
翻译
相关推荐
-
Databricks通过自动配置选项来简化Spark计算
Databricks为其管理的Spark平台带来了新功能,以及开源Spark,希望能够使计算引擎更广泛地使用。
-
Spark在基因组数据分析应用中大有可为
科学研究人员需要强大的大数据架构来应对挖掘和分析基因组数据的挑战,有人说Apache Spark引擎非常适合这项工作。
-
Spark尚未“成熟” 用户仍需“专业”
虽然Spark的应用对企业而言已经并不陌生,但对于一些企业来说,这项技术可能还是比较“前沿”。
-
Dr. Elephant:Hadoop和Spark的优化“神器”
美国加州软件公司Pepperdata的应用程序分析软件建立在Dr. Elephant开源项目上。主要目的是让更多的Hadoop和Spark应用程序投入生产。