大数据和主数据管理之间有什么联系吗?
The Information Difference的CEO Andy Hayler谈到:我曾经有一个同事把软件行业比作时尚圈;如果这么说的话,大数据无疑是当今的时尚红人。每一场与大数据相关的会议都被热炒,每一家厂商都疯狂地往自己的PPT里面填充大数据内容,部分厂商甚至专为大数据重新编写了PPT代码。
在这样的大趋势冲击下,主数据管理(MDM)领域也受到了一定的影响,只不过不太明显而已。如果你以销售数据库为生,会更容易体会到这种联系,但是主数据(即诸如客户、产品、地点这样的分享数据)的容量一般都不太大——几百万的产品数据记录就被视为海量,而且只有B2C公司有可能达到千万级/亿级以上;这些数据使用现有数据库技术足以轻松处理。
然而,大数据的容量要大得多,现有数据库处理起来十分吃力。我们所指的不是会计数据,而是像网络日志或者传感器这样的网络/机器生成数据。一架喷气式班机在一小时内就能生成20TB的诊断数据,这样庞大的数据量致使现有数据库难以应付。到了2013年,全世界最大型的数据仓库也不过30TB而已;不过在2012年底,Teradata针对25位客户推出了PB级别的数据仓库,比十年间其他数据仓库容量高出了30多倍。
话说回来,虽然数据容量在飞速增长,但我们还是看不出和主数据有什么关系。The Information Difference是一家分析公司,我们在今年年末发起了一项调查,希望能够获得一些硬性指标,更好地了解这一现象。
209家企业参与了这次调查并发表了自己的观点,它们主要来自于北美和欧洲,也有亚洲公司,大概占11%。
77%的参与者称大数据对他们很重要;这一结果实属意料之中,毕竟受了媒体炒作的影响。真正令人吃惊的是,不少于19%的企业已经正在使用大数据应用,另有20%以上的企业计划在今年年底进行部署。当然了,由于是大数据话题,调查参与者在一定程度上都进行了自我选择。但是即便如此,这么高的项目实施率还是超乎了我们的预想。
Hadoop被广泛使用
在已经实施了该项目的企业中,80%正在使用被广泛认可为处理大数据的利器Hadoop。我们知道,Hadoop是由开源软件Apache Software Foundation开发的一种分布式文件系统(HDFS)和分布式程序模型(MapReduce)的组合。
接下来,调查探讨了大数据到底有多大这个问题。有意思的是,209名参与者中只有23%选用了超过100TB的大数据应用,其中又只有10%在500TB以上。49%的企业提到,每年的大数据容量增长率为20-50%,1/5的企业超过50%。与Information Difference之前做过的一个调查报告比对,我们发现MDM的实施率在56%,14%为即将实施。由此得出,有不少企业同时部署了MDM和大数据项目。
那么,剩下的问题就是:它们之间有没有联系?59%的企业认为有,7%认为没有。在调查中,我们还进一步问到了两者交互的方式,有人答道:想象一下,现有的MDM Hub能够提供客户数据,帮助企业提升网站流量分析,甚至寻找现有客户的多渠道行为。
同样也可以逆向思维,大数据分析能够产生新的主数据,用于MDM Hub的运作。但我们发现,67%的调查参与者认为是MDM驱使了大数据,而不是大数据驱使了MDM,持有后者观点的比例只有17%。最为普遍的一个看法是,现有MDM数据驱使了大数据搜索。关于未来的关键需求,大部分企业提到了运用大数据集自动识别主数据的能力,比如查找客户账户。只有8%的企业认为MDM技术必须使用大数据技术以加速流程。
如果联系确实存在,那么大数据和现有项目在数据质量和数据治理方面的情况怎么样呢?94%的企业认为,数据治理对大数据必不可少。类似地,80%的企业认为数据质量对大数据项目至关重要。这值得引起我们注意,尽管谈到实践上就显得心有余而力不足——30%的企业完全没有数据质量工具,而看似70%中真正将其在企业上下做到普及的寥寥无几。另外还有一点,目前大多数据质量供应商都不见得有过成功的大数据案例。
这些调查结果意味着什么呢?首先,很明显大数据不只是炒作,有不少公司已经进入实践阶段,而不仅仅是观望。其次,企业将大数据与现有项目(比如数据治理和数据质量)整合的愿望强烈。再者,MDM被视为驱使大数据分析的来源之一,能够为大数据事实提供相应的数据仓库规模,毕竟没有这么多新的技术。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
作者
翻译
相关推荐
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
采矿设备制造商利用BI on Hadoop来挖掘数据
如果大数据要取得巨大成功,则需要提供给更多的最终用户群组。但广泛使用的商业智能工具尚不能轻松分析最大的大数据, […]
-
新Qlik Sense功能可用于云计算、AI和大数据
一年前,Qlik公司公布其长期计划,即将高级云计算、AI和大数据功能添加到其自助式BI和数据可视化软件中。现在 […]
-
Cambridge Analytica秘密收集Facebook数据表明对道德数据挖掘的需求
当有关Cambridge Analytica公司秘密收集Facebook数据的消息传出时,这暴露了一个薄弱环节 […]