目前,SQL-on-Hadoop的采用率仍然偏低,但是其发展似乎是与Hadoop本身的采用有着相似的步调。2015年由IT研究和教育机构TDWI进行的一项对新兴技术的调查证实了这一结论。 在320位受访者中只有16%的人表示他们所在的企业正在使用商业SQL-on-Hadoop引擎作为商业智能或分析应用程序的一部分; 344位受访者中有22%的人说Hadoop SQL技术正用于管理数据。在后一种情况中,部署水平与前一种是接近的,而这也符合调查当时以及计划三年内的情况,这表明大多数Hadoop用户同样实现了SQL-on-Hadoop工具(见下表)。
Progressive Casualty Ins……
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
目前,SQL-on-Hadoop的采用率仍然偏低,但是其发展似乎是与Hadoop本身的采用有着相似的步调。2015年由IT研究和教育机构TDWI进行的一项对新兴技术的调查证实了这一结论。
在320位受访者中只有16%的人表示他们所在的企业正在使用商业SQL-on-Hadoop引擎作为商业智能或分析应用程序的一部分; 344位受访者中有22%的人说Hadoop SQL技术正用于管理数据。在后一种情况中,部署水平与前一种是接近的,而这也符合调查当时以及计划三年内的情况,这表明大多数Hadoop用户同样实现了SQL-on-Hadoop工具(见下表)。
Progressive Casualty Insurance Co是用户之一,在2013年开始运行Hadoop集群来处理和分析从客户的汽车收集的远程信息技术数据,这是基于使用情况的汽车保险项目的一部分,该项目叫做Snapshot(快照);该集群是基于Hortonworks公司的Hadoop分布式环境,它同样支持对用于保险产品定价的数据,以及来自Progressive网站的活动日志进行研究和开发。
大部分分析查询、提取、转换和加载(ETL)集成过程是针对集群中的数据执行的,而这些过程是由一款开源SQL-on-Hadoop工具HIve创建的。“Progressive的业务分析师和数据科学家已经是重度SQL用户,因此我们想要让提供给他们的数据结构保持不变,”该公司数据和分析部门的主管Pawan Divakarla说,“我们拥有的整个业务社群都在使用数据,而让他们去学习别的东西是没有意义的。”
光有Hive是不够的
Chris Barendt是一名IT架构师,他说Progressive在部署Hive的早期遇到了一些问题,但是该技术如今变得更加稳定而且满足用户的大部分需求。但是要帮助提升Hive的性能让它能够支持交互式查询,俄亥俄州的Mayfield Village保险公司用Tez对Hadoop SQL引擎进行了增强,Tez是一款开源应用程序框架,它起源于Hortonworks并且是用来优化Hadoop系统中的数据处理吞吐量的。
同样,大多数Progressive的数据分析师通过Tableau的BI软件或Hue来和Hive协同工作,而Hue最初是由Hadoop供应商Cloudera 公司开发的一款用于web应用程序的用户界面。只有某些有能力的用户直接在Hive中用命令行SQL编码,Barendt说。
在线约会服务商Zoosk公司将Hive的结合体用于ETL,并将Cloudera的Impala SQL查询软件用于分析,同时也在前端使用Hue和Tableau来缓解数据分析师的编码工作。这家位于旧金山的公司在2012年部署了基于Cloudera的Hadoop集群,起初是用于处理大量用户活动和其网站产生系统日志数据,然后将信息的聚合视图传至一个基于Microsoft SQL Server数据库构建的企业级数据仓库。
直到今年早些时候,Martin Lam还是Zoosk分析和数据科学部门的资深主管,他说虽然在公司里其开发人员首先仍然是尝试在Hadoop的原始处理环境——MapReduce上进行编程。但是这要比使用SQL花费更多的时间。使用MapReduce要用几个小时来编写和测试一项任务,而用SQL则只需要几分钟。Zoosk紧接着便实现了Hive来支持在集群中处理ETL。尽管如此,Hadoop SQL工具对于支持数据的随机分析非常缓慢。因此,“我们并不将Hadoop作为分析平台,” Lam说。
Hadoop SQL中的天作之合?
当Cloudera发布了Impala的测试版之后,情况发生了改变。Zoosk签约成为早期用户,而且Lam说查询引擎的性能使得对原始Hadoop数据的分析更为可行。
例如,他说在与Parquet的结合中,Zoosk于2015年中期将一种针对Hadoop的柱状存储格式加入其大数据架构,Impala能够在网站用户交互中在八秒内执行一项典型查询。通过对比,如果单独使用Hive或是将Hive和Parquet结合使用,同样的查询分别会花费八分钟和六分钟。更快的速度同样能够支持额外更先进的应用程序,特别是行为匹配,这旨在根据Zoosk用户对网站的使用情况来预测可能的匹配。
Zoosk坚持在ETL上使用Hive,然而为了处理每天从网站抓取的数百万数据记录,集群中信息的输入量已经达到大约200TB。“Impala可以提供很快的速度,但是如果你不加小心的话,它是不可预测的,”Lam说,而使用Hive则能够保证更容易地完成一项工作。”
Impala仍然缺少某些标准SQL功能,包括支持扩展标记语言和JavaScript Object Notation函数以及类似映射和数组的非数值类型。“但是这一差距正逐渐缩小,”Lam说,他如今在Facebook工作。“对于大部分分析用例,你是能够获得通过的。”
这同样适用于Apache Spark处理引擎的Spark SQL模块,Benny Blum说,他是Sellpoints公司产品和数据部门的副总,这是一家位于加利福尼亚州Emeryville的在线营销和广告公司,其对ETL的处理使用的就是Spark SQL。
Blum说:“如今有些事情我无法用Spark SQL来完成,随着开发工作的进行,你肯定认为你处在一种语言的前沿。”但另一方面,他指出Sellpoints所能看到的用Spark SQL的查询速度远远高于六至八个月之前的水平,”这要得益于对SQL技术的改进以及公司对于Spark整体更为有效的利用。
翻译
TechTarget特邀编辑。毕业于北京邮电大学网络技术研究院。熟悉软件开发测试的各个环节和流程,对操作系统,数据库,计算机网络等有较为深入的理解。现就职于中国电子科技集团公司下属研究所,从事软件研发工作。热衷于英文的学习交流,平时喜欢户外运动,音乐,电影。
相关推荐
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
采矿设备制造商利用BI on Hadoop来挖掘数据
如果大数据要取得巨大成功,则需要提供给更多的最终用户群组。但广泛使用的商业智能工具尚不能轻松分析最大的大数据, […]
-
新Qlik Sense功能可用于云计算、AI和大数据
一年前,Qlik公司公布其长期计划,即将高级云计算、AI和大数据功能添加到其自助式BI和数据可视化软件中。现在 […]
-
Cambridge Analytica秘密收集Facebook数据表明对道德数据挖掘的需求
当有关Cambridge Analytica公司秘密收集Facebook数据的消息传出时,这暴露了一个薄弱环节 […]