Edmunds.com是一家发布在线汽车定价数据,车辆评估以及其他汽车购置信息的公司,它正在大力推动大数据应用领域以增强其数据仓库和商业智能(BI)的掌控。今年二月,公司用一个基于Hadoop的系统取代了其现有的关系型数据仓库来加速数据处理,并使其业务用户能运行那些旧有平台所不支持的更为复杂和包含大量数据的分析应用程序
但Hadoop分布式文件系统(HDFS)并不是新环境引擎盖下面唯一的发动机。在HDFS中进行了初始处理之后,经销商的库存信息,车辆配置数据集和其他形式的结构化数据会传送至HBase。根据Edmunds 的首席信息官Philip Potlof 介绍,在那里,汇聚着与互联网点击流数据相关的信息,它们被传送到IBM Netezza和Amazon Redshift系统以供随机查询之用,或是传送至MicroStrategy和Platfora的BI工具以供报表之用。
要做所需的数据集成工作来把一切都结合起来并非易事。Edmunds必须要用新的人工编码集成程序来替代支持关系型数据仓库的传统ETL流程,并同时使用Java,MapReduce和Hadoop Oozie任务调度器。Paddy Hannon是公司的架构副总裁,他在刚刚结束的Hadoop 2013峰会上表示,这项工作需要耗费4个开发人员大概18个月的时间才能完成。
Hannon的观点是,从HDFS的文件结构拷贝数据集到一个数据表格式,来在HBase中进行存储并不是什么大的挑战。更为重要的部分是拆解公司过去10至15年所做的ETL,以找出哪些是重要的规则而哪些不是。接着,开发人员必须将认为有价值的业务规则吸收保存到新的实现中去。
这样的挑战在大数据项目中是常见的。在很多情况下,要管理全方位的数据仓库和硬性ETL例程,数据整合流程可能会变得更为复杂,这就使得更多涉及各种不同系统以及灵活的,邻近备用设备整合大行其道以支持特定数据分析的需要。这需要在数据管理原则和流程上有一个大的转换,包括数据集成以及相关数据的清洗和治理行动。
大数据应用的“联邦格式”
在过去,ETL形式中的数据集成通常是“一个自包含过程”,它只是简单的专注于将干净、合并的数据从源系统迁移至目标数据仓库。Forrester研究公司分析师Michele Goetz表示:“现在你所获得的这个联邦环境,其数据可以存在于任何地方。并且在很多时候你想要在另一个系统上使用,只要在需要的时候调用它就可以了。”
根据Goetz和其他分析师的观点,至少这就是未来发展的方向。Forrester在其用户中所看到的最为普遍的大数据部署方法是一个Hadoop系统结合一个企业级数据仓库(EDW),而两者是可以彼此增强的。例如,一个Hadoop集群可以作为数据到EDW过程中的暂存区或是成为特定信息类型的主要存储库。
咨询和市场调研公司Enterprise Management Associates Inc.(EMA)已经绘制出所谓的“混合数据生态系统,”这是一个集成了包括EDW,数据集市,Hadoop集群,NoSQL数据存储以及专业分析数据库等八个不同系统类别的大数据应用程序结构框架。在2012年夏季由EMA和9sight咨询公司联合进行的一项关于大数据活动的调查中,255名业务和IT专业人士中的72%回答说他们的企业当时正在使用这八项技术平台中的不止一项。而46%的人说他们拥有其中三项甚至更多。
但是随着企业不再将大数据分析作为一项孤立的应用来看待,并注意使用分析结果来驱动他们的主流业务流程,数据质量和无缝上游整合就变得更为重要。并且大数据架构灵活性的提升也带来了更高级别的发展和管理复杂性,这可能需要新的流程和技巧,甚至是在IT部门中的一场文化变革。
缓慢的开始,快速的结束
Edmunds公司的Potloff介绍,由于开发团队的成员要学习使用Hadoop技术的基本知识,数据仓库替换工作在的最初的几个月会“进展缓慢”。作为公司软件架构的高级主管和Hadoop团队的领导,Greg Rokita在博文的Q&A部分介绍,开发人员对于HDFS,HBase,MapReduce和其他Hadoop工具上没什么既得经验。但是,团队最终找到其立足点并采用诸如抽象化复杂数据集来简化与其他信息的交互,并且“不断重构”的代码以一种可控的方式逐步提高了可伸缩性和可靠性。
根据Potloff,截止今年六月,基于Hadoop环境下新生成的数据集和改善的处理能力,已经让商业分析使用HBase供给的查询和报告系统通过对关键词竞价流程更好的优化,在付费搜索营销费用上节省超过170万美元。
“我们给予了业务前所未有的能力,”Hannon说:“从长远看这是值得的。”
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
翻译
相关推荐
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
数据太多Hold不住?Hadoop数据治理来“救场”
当LinkedIn还是一家规模较小的公司时,它从社交网站上获取的数据是如何被格式化和结构化的,似乎并没有人关注。
-
将数据治理工具渗透到企业中有多难?
对于主流大数据用户来说,数据治理是一个大问题。最近,IT供应商已经宣称使用开源以及商业数据治理工具来管理基于Hadoop的数据湖中的数据。
-
遇到Hadoop性能问题很头疼?监控集群很重要
大数据系统中,数据并非唯一需要管理的内容。数据科学家和其他用户所运行的查询也必须进行监控,以确保他们不会在Hadoop和Spark集群中陷入困境。