大数据技术为数据存储和数据管理打开了一扇新的大门,未来还会和数据仓储系统保持一致。这反过来创造了新的数据集成机会,数据集成则可能需要附加工具来支持大数据架构有效运行。
美国企业管理协会有限公司商务智能和数据仓库研究的负责人Shawn Rogers表示,对特定用户而言,大数据系统能够更加行之有效地存储数据,以及根据需求提取数据。
Rogers继续说,Hadoop系统和NoSQL数据库可以作为一种存储源数据的“码头”使用,并应用数据模型和范式处理数据集。在这种情况下,数据集成就从传统的数据提取、转换和加载过程(ETL)转变成更加灵活的数据提取、加载和转换的方法(ELT)。一旦数据可用于商务智能和分析使用,数据就都可以存储到该系统中,这是最佳的方法,无论它是一个数据仓库、Hadoop集群还是有特殊用途的分析型数据库。“我们的架构不需要那么死板,大可以自由一点。”
就数据科学家所做的高级数据分析而言,渴望使用未过滤的信息是人们在大数据环境下选择数据提取、加载和转换方法(ELT),放弃使用数据提取、转换和加载方法(ETL)的另一个原因。马萨诸塞州Forrester Research公司的分析师Michele Goetz认为,数据科学家已经习惯了和“脏数据”打交道,处理噪点。例如,在剽窃检测应用中,你根本不清洗数据,这样就可以在可疑的交易和行为中找到异常信息。
为了在联邦政府系统环境中实现数据集成,Goetz建议组织创建一个“上下文服务”层,包含诸如元数据库、数据质量和管理政策、主数据管理模型和企业范围业务术语词汇表等内容。她表示:“你还不能把这些东西都合成在一起,除非这些东西现在就在你手上。”
大数据架构的不能承受之重
包括Hadoop集群和其他大数据系统的数据集成应用的发展面临的另一个威胁在于,过度加载太多的数据运动。位于马里兰州的咨询公司Knowledge Integrity公司的总裁David Loshin表示:“写一个MapReduce程序很容易,但也很容易把这个程序写坏。你一定不想让你的网络中充斥着来回晃动的数据。”
当然也有好消息——大数据技术和数据集成工具的供应商正竭力提高自己在大数据环境中自动化的数据集成能力。对一些用户而言,现有工具足以让他们克服基本的集成困难。例如马德里的一家旅行预订系统操作商Amadeus IT Group SA就正在使用Hadoop、MapReduce和NoSQL技术削减成本,为旅行社和系统其他用户支持新的服务。其中包括一个叫做急速搜索(Extreme Search)的应用,它可以根据各种定制参数为顾客推荐旅行行程。
大学教授Thomas Davenport今年六月撰写了2013年关于旅游行业大数据使用问题的报告,他在书中将创建集成数据资源第一次列入需要克服的挑战之中。Amadeus资助了这份独立撰写的报告,报告指出,因为旅行公司在IT架构的核心领域长期使用大型机系统,所以集成会格外棘手。
Amadeus研发部门负责人Hervé Couturier在和Davenport接受联合采访时表示,公司的大型机短时间内不会替换,但集成问题也有解决方案。“挑战在于,如何将三十年前的技术和新技术融合在一起。然而我们可以将其实现。技术就摆在这,很大程度上要看你怎么将技术和业务结合起来。”
大数据集成工具带上的多个插槽
在大数据集成中,我们并不缺工具包,也不必统一使用某一种产品。数据提取、转换和加载技术(ETL)也并未完全过时,它在大数据环境中仍有用武之地。Loshin认为,集成供应商提供的数据虚拟化软件能够把源系统中的信息整合起来,不需要人工移动。这就不失为一种选择。在大数据集成中,数据复制、数据捕捉和压缩技术都大有所为。
提供关系、柱状和应用混合技术的数据库供应商正在集成一线的产品,从而使数据能够自由流动,然而Rogers认为这样做会造成以后某一个供应商的“栈锁定”。另外,各个种类的供应商都引进了能够在Hadoop系统和SQL数据库中传输数据的关联软件。Gartner公司分析师Mery Adrian也指出,Apache软件基金会正在研发桌面和存储管理技术Apache HCatalog,它旨在为免费Hadoop用户提供共享的模式和桌面提取能力,这样用户就不用担心他们的数据该以何种格式存储在哪里了。
但总体来看,现在的集成工具仍有待完善。Rogers认为:“一些简单的工作已经完成了,在接下来的18到24个月里,我们会看到更成熟的工具。”
位于伦敦的Ovum公司的分析师Tony Baer也怀有同样的期待。他认为,现在的大数据工具就像是1996年的商务智能和数据仓库软件。“那时候,大部分企业中,人们还在忙着处理交易数据,所以不得不引进数据清洗之类的工具。我们现在需要功能更强大的工具来将大数据集成平民化,帮助我们管理大数据集成。”
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
翻译
相关推荐
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
采矿设备制造商利用BI on Hadoop来挖掘数据
如果大数据要取得巨大成功,则需要提供给更多的最终用户群组。但广泛使用的商业智能工具尚不能轻松分析最大的大数据, […]
-
新Qlik Sense功能可用于云计算、AI和大数据
一年前,Qlik公司公布其长期计划,即将高级云计算、AI和大数据功能添加到其自助式BI和数据可视化软件中。现在 […]
-
Cambridge Analytica秘密收集Facebook数据表明对道德数据挖掘的需求
当有关Cambridge Analytica公司秘密收集Facebook数据的消息传出时,这暴露了一个薄弱环节 […]