三年前,Montreal的Yellow Pages公司开始扩展其对Hadoop的应用范围。这家加拿大的公司除了提供传统电话目录服务外,还提供各式移动应用和数字营销服务。该公司正在致力于将外包的分析应用迁移至企业内部。其中一个应用将Hadoop作为数据转换工具。
但是对于那些使用ROI指标计算并生成报表的应用来说,公司内部应用间重叠的现象未能避免。公司主管大数据和分析的Richard Langlois注意到,Hadoop集群没有得到充分利用,基本上只是用于为ROI应用程序准备数据,每天的使用时间只有三个小时。Langlois想知道,这个基于Cloudera Hadoop的分布式集群,是否能在其他……
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
三年前,Montreal的Yellow Pages公司开始扩展其对Hadoop的应用范围。这家加拿大的公司除了提供传统电话目录服务外,还提供各式移动应用和数字营销服务。该公司正在致力于将外包的分析应用迁移至企业内部。其中一个应用将Hadoop作为数据转换工具。
但是对于那些使用ROI指标计算并生成报表的应用来说,公司内部应用间重叠的现象未能避免。公司主管大数据和分析的Richard Langlois注意到,Hadoop集群没有得到充分利用,基本上只是用于为ROI应用程序准备数据,每天的使用时间只有三个小时。Langlois想知道,这个基于Cloudera Hadoop的分布式集群,是否能在其他时间段作为一个Hadoop BI系统来使用。
“当我们引进这个应用程序的时候,Hadoop这部分只是用来对我们的记录进行排序而已——它被当作ETL机器使用”,Langlois说,ETL指的是提取、转换和加载数据的集成过程。Langlois决定试试集群是否可以被优化,以便在Hadoop应用程序平台运行更多传统的BI应用。
站在用户的角度选择工具
Langlois最终引入了与软件供应商AtScale同名的技术,该技术将Hadoop中被频繁查询的数据整合到服务器内存中,并进行有效的管理。这样与传统Hadoop查询相比,用户可以得到更快的数据访问,这对于大规模操作的优化作用十分明显。
在这次部署AtScale软件并向Hadoop迁移分析应用的过程中,Langlois所做的最大决定是在用户所在的地方进行服务。这意味着要抛弃现有的BI部署场景。在项目的开始阶段,Langlois设想使用Information Builders的WebFOCUS 软件来规范整个公司,该软件作为分析Hadoop数据的前端工具,已经在一些报表需求上得到了实现。但他发现,Yellow Pages的营销部门已经在使用Tableau。
Langlois随后决定允许营销部门继续使用Tableau 作为Hadoop的首选BI工具,而其他部门则使用WebFOCUS,以便于快速适应,并迅速为业务用户提供价值。“我们的战略是让业务用户自主选择他们认为合适的工具”,Langlois说。
除了ROI计算程序,Yellow Pages现在使用Hadoop和BI来处理其他事务,例如向客户提供他们与其竞争对手之间的数字广告排名信息等。
不要忽略Hadoop BI的管理步骤
将Hadoop数据透露给更多的业务用户为Langlois和他的团队带来了一些管理上的问题。企业中越来越多的人有了使用Hadoop作为数据湖泊的想法,越来越多的企业把Hadoop集群作为一个相对便宜的存储选项,以存储新型的非结构化和半结构化数据,这些数据有助于扩展BI和大数据分析计划。但如果不对数据进行适当的访问控制,很容易把潜在的敏感数据存储到Hadoop中。
Langlois说,他不想让Hadoop集群仅仅作为一个简陋的数据存储存在。他们并没有采用从源系统自动传输数据到Hadoop的方式,而是由一个团队成员在数据存入Hadoop前,负责审核所有数据。工程师使用元数据和安全标签进行数据组织,以实现拥有不同角色和权限的BI用户对数据进行安全的访问。
数据被送入Hadoop平台主要是点击流记录和其他网络指标,例如广告信息等。Langlois表示,在集群作为后端BI系统的情况下,保持事物的正常组织性尤为重要。我们的目标是为Yellow Pages的业务用户建立“坚实的分析数据基础” ,Langlois补充道。
Hadoop 数据的应用永无止境
为BI应用程序组织数据也会为其他分析用途带来好处。例如,最近Langlois和团队为一个机器学习应用程序在Hadoop上实现了Spark处理引擎。他说,应用程序可以从以往的Yellow Pages客户营销中学习,了解成功的营销活动该如何组织,然后输入新客户的信息,例如他们的行业和区域位置,以制定具体的营销策略。分析团队也正在考虑使用类似的机器学习技术,以超越以往的广告植入方式,达到更加吸引客户的目的。
这些正在发生的转变,来源于方便产品经理和数据科学家从Hadoop BI查询数据的需求。反过来,Langlois说,分析正在帮助Yellow Pages在21世纪保持业务相关性。事实上,公司2015年第三季度的收入中有61%来自于数字产品。“这与五年前的情况是完全不同的,”他说。“这就是分析为什么如此重要的原因。它改变了我们的产品,改善我们的流程。
翻译
TechTarget特邀编辑。北京邮电大学计算机科学与技术专业硕士。熟悉软件开发流程,对系统管理,网络配置,数据库应用等方面有深入的理解和实践经验。现就职于IBM(中国)投资有限公司,从事IBM服务器相关软件的开发工作。业余时间喜欢游泳登山,爱健身,喜欢结交朋友。
相关推荐
-
详细解读微软HadoopOnAzure的大数据处理功能
微软HadoopOnAzure简化了Hadoop的使用和设置,利用Hive来从Hadoop集群中提取非结构化的数据,并在Excel工具中进行分析,同时增强了Windows Azure的弹性。