说到eBay的拍卖和购物网站你脑海里会想到什么?1亿用户、3亿活跃商品、5万种产品分类、平均每秒2100美元的交易额,那就对了。当然,你也可以把eBay看作是一家数据管理与业务分析企业:每天50TB的数据量、7500用户与分析师的分析团队支持。
数据沙盒(data sandbox)听上去很小,但它却是eBay保证数据分析流程顺利进行的关键组成部分。
在今年四月洛杉矶召开的Gartner商务智能峰会(Gartner Business Intelligence Summit)上,eBay的分析应用技术高级主管Chris Rogaski在演讲中说到:“如果人人都想要不同的数据视图、报表或者仪表盘,我们将无法应付。所以,我们需要提前做好准备,只有这样,我们的业务分析师和产品经理们才能根据数据做出决策。”
eBay采取了很多措施,使用户需求得以及时满足。公司的数据分析平台结合使用了Teradata的企业数据仓库(enterprise data warehouse,简称EDW)、被eBay称为“Singularity”的Teradata独立深层存储数据库以及Hadoop系统。EDW用来存储结构化交易数据;Singularity用来存储半结构化数据(如网站用户行为分析);Hadoop则用来处理非结构化数据,其中包括原始用户行为数据、其他形式的机器生成信息和文本数据等。Rogaski称,三部分合起来大概占据了90PB的存储空间。
另外,eBay将虚拟数据集市在EDW中自由分散,供任何想要开发、操控、添加特定数据集的员工进行使用。数据集市是公司的分析作为服务(Analytics as a Service)中的一部分,或者是A3S及其他用户分析数据程序的一部分。业务用户和数据分析师使用由eBay的IT部门开发的工具,可拥有(通常也会使用)100GB的空间,这就是在商务智能领域所谓的数据沙盒。
数据沙盒也被称为分析沙盒,这些由用户控制的空间被相互隔开,将数据实验和数据仓库的生产数据库环境区别开来。eBay的用户有权限获取EDW中的数据,还可以将所需信息复制到数据集市中进行分析。在eBay开发工具的帮助下,他们可以上载附加数据进行分析。Rogaski说:“如果存在一个我们不知道的新的数据源,我们没办法将其隔开,对它不进行数据分析。”
企业部门之间的对峙阻碍数据分析
企业中IT部门和业务部门的长期对峙屡见不鲜,其中一部分原因可归咎于优先级别不同。当业务用户有业务问题急需解决的时候,IT团队可能正在进行数据治理或是维护数据质量标准。对于想要深度分析现有数据的分析师来说,工作的中断会带来很强的挫败感。
TechTarget的BI咨询师兼研究主管Wayne Eckerson说:“分析师常常需要的是还未放入数据仓库的数据,因为这些数据还未经处理和载入。”
有些时候,数据分析师会认为由自己公司部署的BI和分析工具比Excel更加灵活,能够秘密建立起IT范围之外的Excel工具。然而,将Excel推行到企业上下进行数据分析之用并不是理想的方式。Eckerson补充:“每个人都知道分析师可以得出有价值的信息,但是没有企业是靠电子表格发展壮大起来的。”
Eckerson称,这时候数据沙盒就起作用了。它可以保证分析用户获得所需数据、加强对信息的控制,使企业的数据阴影系统(data shadow systems)逐渐明朗化。
对于BI和IT经理来讲,一个精心管理的数据沙盒为用户提供了一个安全之地,在公司管理架构内对企业数据进行实验。美国Data Miners咨询公司的创始人Gordon Linoff说:“这样一个环境存储的不是数据的复制,而是适合分析形式的信息。”Linoff还是《数据挖掘技术:市场营销、销售与客户关系管理领域应用》一书的作者之一。
数据沙盒可在数据仓库、分析数据库及其外部作为独立的数据集市构建。在eBay的案例中,Rogaski说,在EDW中采用沙盒作为虚拟数据集市降低了数据活动,减少了用户对数据进行复制并存储在其他系统的需求。
期限设定对分析大有帮助
他承认,在用户占据了沙盒,还是会出现少量的数据复制。“但这很正常,算是我们发展业务付出的一点代价吧。”为了减少复制,eBay在数据系统中使用了期限设定的方法,由分析师设定好数据集使用的一个结束日期。截止日期快到的时候,Rogaski的团队会与分析师协商,要不要把数据从系统中删除;这一过程被eBay称为碎片帐集(garbage collection)。
由于沙盒本身的作用就是处理数据,Linoff相信拥有正确的技能对成功部署非常重要。数据科学家和其他用户需要操控数据并分析数据当下的活动。他说:“这等于是在学习全新的事物,所以你需要可进行充分利用的技能组合。”
这条规则对许多企业来讲都十分有用,但并不适用于所用企业。Rogaski说,eBay的目标之一是让很大一群人都能获得它的BI和分析数据。即便是一个毫不了解情况的业务用户也能够使用虚拟数据集市。
对于想要建立数据沙盒的企业,Eckerson认为其中一个很大的挑战是管理。他举例说到,在用户将包含独有数据视图的报表分发出去之前,企业BI团队应该核实一下操控的信息,确保指标都正确无误。
Eckerson说:“你可以让用户获取数据,但你还需要给他们一些指导。没有人喜欢受限,但他们用的是公司资源,就不得不在某些方面遵守规则。”
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
作者
Nicole Laskowski is a senior news writer for SearchCIO.com and SearchCIO-Midmarket.com. She covers CIO strategies for analytics, business intelligence and data management. Prior to joining TechTarget, she worked as the news editor for a community newspaper in Arlington, Mass., overseeing the news content of both the weekly print publication and the newspaper’s website. Nicole also has worked for two other community newspapers in Oregon and Michigan and brings 10 years of writing and editing expe
翻译
相关推荐
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
采矿设备制造商利用BI on Hadoop来挖掘数据
如果大数据要取得巨大成功,则需要提供给更多的最终用户群组。但广泛使用的商业智能工具尚不能轻松分析最大的大数据, […]
-
学习迪士尼的分析之道
华特迪士尼公司正在继续增加对数据分析的投资,以改善其关键业务部门的客户体验。 该公司的业务包括公园和度假村、媒 […]
-
新Qlik Sense功能可用于云计算、AI和大数据
一年前,Qlik公司公布其长期计划,即将高级云计算、AI和大数据功能添加到其自助式BI和数据可视化软件中。现在 […]