Apache Spark用户经常面临一个困境:继续获取来自供应商的支持还是更新版本,使用具有更新功能的快速移动的开源软件? Novantas公司将Spark数据处理引擎作为商业Hadoop发行版的一部分。这样使得分析服务和软件提供商与Spark版本的Hadoop软件包支持的Spark版本捆绑在一起,因此,它不一定能立即访问新的Spark功能 例如,Novantas在今年年初开发的基于Hadoop的应用程序中使用了Spark 1.4,以帮助银行的分析团队在内部系统中找到相关的客户和财务数据。该版本由Apache软件基金会于2015年6月发布,去年9月被Spark 1.5取代,1月被1.6取代。但……
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
Apache Spark用户经常面临一个困境:继续获取来自供应商的支持还是更新版本,使用具有更新功能的快速移动的开源软件?
Novantas公司将Spark数据处理引擎作为商业Hadoop发行版的一部分。这样使得分析服务和软件提供商与Spark版本的Hadoop软件包支持的Spark版本捆绑在一起,因此,它不一定能立即访问新的Spark功能
例如,Novantas在今年年初开发的基于Hadoop的应用程序中使用了Spark 1.4,以帮助银行的分析团队在内部系统中找到相关的客户和财务数据。该版本由Apache软件基金会于2015年6月发布,去年9月被Spark 1.5取代,1月被1.6取代。但是要升级,Novantas将不得不通过Cloudera放弃Spark支持。
“我们不想使用不受支持的版本,”纽约公司Novantas解决方案技术部门CTO和工程总监Kaushik Deka说。这是因为应用程序是该部门第一次真正使用Hadoop和Spark。坚持使用Spark 1.4不太理想。Deka说,他希望当Novantas移动到一个新的技术版本可以解决问题。
这样的考虑在大数据环境中是常见的,其通常涉及以快速的速度更新的开源技术。Spark的情况尤其突出:在2014年7月到2016年7月之间,通过Apache共有18个版本,Spark 2.0版本一般都可以使用。
为了更好地使用新功能,一些组织已经避开了供应商提供的Spark支持,并自行部署了基本的Apache Spark软件。
例如,Synchronoss技术公司在2014年从Hadoop供应商MapR获得Spark。但移动管理公司Bridgewater的大数据分析平台高级主管Suren Nathan表示,公司有时直接升级到Apache Spark的新版本,以获得所需的功能。“现在,我的团队可以非常熟练地使用Spark,”他说。
Webtrends公司也一直使用基本的Spark软件。“我们正试图尽可能保持现有的发布,”来自美国的在线活动跟踪公司首席技术官Peter Crossley说,“市场上没有其他技术像这种技术一样快。”
Crossley表示,他更喜欢通过Hadoop供应商Hortonworks获得支持的Spark版本。为了尽可能做到这一点,他的团队与Hortonworks合作开发了一个“双轨发布计划”,供应商去年3月加快了Sparkand与Hadoop相关的其他大数据技术的交付。
相关推荐
-
Databricks通过自动配置选项来简化Spark计算
Databricks为其管理的Spark平台带来了新功能,以及开源Spark,希望能够使计算引擎更广泛地使用。
-
Spark在基因组数据分析应用中大有可为
科学研究人员需要强大的大数据架构来应对挖掘和分析基因组数据的挑战,有人说Apache Spark引擎非常适合这项工作。
-
Spark尚未“成熟” 用户仍需“专业”
虽然Spark的应用对企业而言已经并不陌生,但对于一些企业来说,这项技术可能还是比较“前沿”。
-
Dr. Elephant:Hadoop和Spark的优化“神器”
美国加州软件公司Pepperdata的应用程序分析软件建立在Dr. Elephant开源项目上。主要目的是让更多的Hadoop和Spark应用程序投入生产。