Microsoft Azure之类的云正努力将部署简化,但这和端对端大数据分析应用程序的实现以及将其在云上运行一样困难,因为它是在数据中心。一个来自Cask Data公司的应用程序数据框架有意对这些实现进行加速,而Azure HDInisight便是其目标之一。
随着大数据分析变成大数据工作流和应用程序,该框架便是试图要解决由此引起的各种问题。
“从大数据管道的角度来看,很多是去做一些诸如点击流分析之类的的事情。客户想要的是能让这些应用程序的构建更快,” Microsoft的首席项目经理Pranav Rastogi解释道。
他说,有了Cask Data Application Platform(Cask数据应用程序平台CDAP),用户就可以创建一个端对端的大数据管道,而且用多种大数据组件创建这些工作流是当今大数据所面临的核心问题。
Cask的CTONitin Motgi表示,该公司的软件有助于将数据流分解为逻辑处理分片在MapReduce或Spark中运行,即便对于最好的Java开发人员来说,这也是一项极为费时的工作。
“人们正面临着技能的挑战,尤其是低级API,”他说。Cask环境试图通过一个面向模型的接口将开发推向一个更高的抽象层级。他说,与此同时,CDAP使用底层容器架构。它将数据,应用程序和程序组织起来在Hadoop上运行。
微软和Cask的技术人员在最近的一个直播节目中对CDAP和其在对像Apache Hadoop和Apache Spark这样的大数据关键平台上部署进行加速所发挥的作用进行了探讨。
最近在纽约的Strata + Hadoop 大会上CDAP已经获得了Azure的认证而且现在可以在Azure HDInsight上运行,它是Microsoft的Hadoop和Spark的支柱。
萃取价值
Forrester Research的分析师Mike Gualtieri说,像CDAP和Azure HDInsight的组合可以解决那些阻止大数据分析更广泛使用的问题。他说数据和分析技术的应用已经变慢,这是因为对于业务来说它很难提取价值。他坚持认为只有当大数据技术变成实际应用程序的一部分时,才能成为业务催化剂。
“人们将Hadoop看做是一个数据湖,而Spark是一个数据分析系统,但工作应用程序则是关键所在,”他说,“Cask的所作所为就是它让你根据应用程序进行工作。”应该将该系统更多地看做是一个应用程序平台,而不是一个分析平台。
他把该影响与诸如WebLogic之类的早期应用程序服务器相比,在1990年代早期WebLogic将不同的中间件集成在一起来创建应用程序。“你现在所拥有的是一个可以作为分析系统的应用程序集群,而不是一个应用程序服务器。”
WebLogic应用程序服务器发展成了著名的开发中心,而且现在归Oracle所有,而CDAP为构建应用程序提供了一个有用的抽象层级。
超越Hadoop
Microsoft一直在稳步努力为在Azrue云上的Hadoop和Spark大数据管道开发和管理创建其自己的工具。但该公司已经表现出获得外部帮助的兴趣,这从与Cask的交易中可见一斑。
实际上,Microsoft的HDInsight工作是与Hortonworks一起完成的,Hortonworks是一个Hadoop的顶级分销商,它是Microsoft常年投资的受益者。同时,今年早些时候,该大数据分析平台制造商发布了一个其Datameer Cloud的版本,而Datameer Cloud是运行在Microsoft的Azure HDInisght上的。
就其本身而言,Microsoft在云上将Azure Data Factory作为一项大数据集成服务加以提供。Microsoft的Rastogi承认“在高层级上,Data Factory和CDAP正在解决同样的问题。”然而在不同的场景下,各自也会比对方拥有更多的资源,他说。
在某些路线图一致性上还有前提工作要做,而通过这些工作就能看到Azure Data Factory作为CDAP管道的一部分来使用,Cask的Motgi说。显然,还有很多构建的事要做。在今年晚些时候将发布一个版本CDAP 4,它将包含诸如针对Azure Storage的Simple Storage Service和针对HDInsight HBase的SQL Server等预制管道,而该版本的目标就是对大数据应用程序部署大力加速。
获得Azure上的更多数据是Microsoft的一个目标,而CDAP认证对此颇有帮助。其希望在于当数据上线后,就可以将熟悉的Microsoft分析工具用于这些数据。
Forrester的Gualtieri将分析标记为这样一个领域,在该领域内Microsoft Azure曾与Amazon Web Services竞争激烈。而他指出Amazon在云方面整体上处于龙头地位,在今年二季度完成的Forrester Wave关于大数据云服务的研究中,他指出和Amazon颇具竞争力的Hadoop服务相比,Azure HDInsight的得分还有所领先。他说Azure HDInsight所具有的优势来源于Microsoft的分析工具。
他说,“你要寻求‘价值的增加。’Amazon的方法就是构建基本功能,而Microsoft则是引入BI工具来解决该问题。这在他们已经进行的投资中就有所反映。”
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
翻译
TechTarget特邀编辑。毕业于北京邮电大学网络技术研究院。熟悉软件开发测试的各个环节和流程,对操作系统,数据库,计算机网络等有较为深入的理解。现就职于中国电子科技集团公司下属研究所,从事软件研发工作。热衷于英文的学习交流,平时喜欢户外运动,音乐,电影。
相关推荐
-
Databricks通过自动配置选项来简化Spark计算
Databricks为其管理的Spark平台带来了新功能,以及开源Spark,希望能够使计算引擎更广泛地使用。
-
Spark在基因组数据分析应用中大有可为
科学研究人员需要强大的大数据架构来应对挖掘和分析基因组数据的挑战,有人说Apache Spark引擎非常适合这项工作。
-
Spark尚未“成熟” 用户仍需“专业”
虽然Spark的应用对企业而言已经并不陌生,但对于一些企业来说,这项技术可能还是比较“前沿”。
-
Dr. Elephant:Hadoop和Spark的优化“神器”
美国加州软件公司Pepperdata的应用程序分析软件建立在Dr. Elephant开源项目上。主要目的是让更多的Hadoop和Spark应用程序投入生产。