数据准备工作还在亲力亲为?是时候交给大数据团队了

日期: 2017-09-22 作者:Craig Stedman 来源:TechTarget中国 英文

数据科学家和其他用户在使用数据前,无需自己完成数据准备工作,这些数据准备任务应由具备大数据环境的企业来完成。 在大数据时代,为分析阶段准备数据的任务常常落在那些使用数据的科学家身上。如今IT和分析团队正在积极的为数据科学家减轻负担,在数据被输入系统时,IT和分析团队会进行一些相应的数据准备工作。 这通常需要一个混合模型,对于那些不想自己完成数据准备工作的用户,该模型将会在提供给他们的数据集上应用一些既定模式和数据格式,而对于想要自己完成数据准备工作的人,则交给他们的将会是原始数据。

平衡这些不同的需求会使数据管理过程复杂化。但实施了此类策略的IT和分析管理人员的实践表明,灵活的分析数据准备策略可……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

数据科学家和其他用户在使用数据前,无需自己完成数据准备工作,这些数据准备任务应由具备大数据环境的企业来完成。 在大数据时代,为分析阶段准备数据的任务常常落在那些使用数据的科学家身上。如今IT和分析团队正在积极的为数据科学家减轻负担,在数据被输入系统时,IT和分析团队会进行一些相应的数据准备工作。 这通常需要一个混合模型,对于那些不想自己完成数据准备工作的用户,该模型将会在提供给他们的数据集上应用一些既定模式和数据格式,而对于想要自己完成数据准备工作的人,则交给他们的将会是原始数据。平衡这些不同的需求会使数据管理过程复杂化。但实施了此类策略的IT和分析管理人员的实践表明,灵活的分析数据准备策略可以扩大数据的普通受众,使其不再仅限于被顶级数据科学家所使用。 例如,Discover Financial Services的大数据平台团队最初将信用卡交易数据、客户记录和其他类型的信息放在一个基于hortonwork的Hadoop集群中进行分析。伊利诺斯州Riverwoods公司高级分析和决策平台副总裁Santosh Bardwaj表示:“以前这像一盘大杂烩”。但在加州圣何塞举办的DataWorks峰会上,Bardwaj补充说,他发现分析师们很难完全利用所有不同的数据成分。“我们意识到,我们必须采用某种标准的模式,这样人们才能更为正确的使用数据。” 原始数据仍然会以其原始状态存储,但同时还应该提供一组模式和轻数据建模,以便使用者能够更容易地进行数据查询。Bardwaj的团队还提供了一个更丰富的数据版本,其中内置了业务逻辑和元数据,以进一步简化一些用户的数据准备工作。他指出,这些步骤为分析提供了更多的可用数据。

基于数据流的数据准备

此外,Discover正致力于部署基于流的设置,通过Apache Spark processing engine实现提取、转换和加载(ETL)过程的自动化,让分析师能够构建自己的数据管道。Bardwaj说,“目前,这是由一些非常精通Spark的数据工程师完成的,他们可以手工编写代码进行ETL。但我们不认为手工编码是一种衡量数据准备工作的方式。” GoPro公司的大数据架构团队已经成立了一个类似的自动化过程, 使用数据定义语言(DDL)语法在公司的可穿戴的摄像头产生的动态数据流上添加一个表模式,此外其他内部和外部的数据都会被收集在一个基于云的Hadoop并发系统中。位于加州圣马特奥市的软件工程师邹浩说,定制动态DDL的方法可以让GoPro的数据科学家在几分钟内、甚至几秒钟内就能获得所需的分析数据。邹补充说,数据科学家认为数据准备工作十分无趣,他们并不想自己去完成这些乏味的工作。 生物技术公司CSL Behring正在部署一个基于Hadoop的平台,将美国工厂的生产数据澳大利亚、德国和瑞士的数据整合在一起进行分析。负责大数据基础设施的高级业务系统架构师Mark Baker说,他正在做一些前期工作,以协调数据。例如,删除umlauts和其他特定语言的标记和字符,避免数据不一致的问题。 除此之外,数据在摄入过程中处于原始状态。Baker解释说,一些“非常高端”的数据科学家想要处理原始数据。但他同时还需要运行ETL任务,为CSL Behring的其他分析师准备数据集。Baker说,“他们告诉我想要的数据是什么形式的,然后由我来进行数据准备。”他通常使用Spark和其他工具来处理数据,并加载数据到Apache Hive或HBase存储库。

根据你的需求准备数据

Land O' lakes的大数据架构团队也在积极主动地为分析应用程序提供数据准备。一个基于Hadoop的数据湖泊最初被用来为农业合作社营销部门的“数字指挥中心”系统提供网站点击流、互联网搜索和社交媒体数据。但是原始数据被整合在一个通用模式下,以支持市场分析和活动管理。 Land O'Lakes的大数据和高级分析公司的高级经理Chakra Sankaraiah说, Arden Hills公司的营销人员利用众多数据来策划网络营销活动。“你不能总使用原始数据,”他说,“你必须以原始数据为基础进行构建,这样你所需数据就会变得触手可及。” 随着数据湖泊的扩展,数据准备计划需要为其他分析需求量身定制,这个流程应该从发布和传输数据时就应该开始了。目前,“我们重塑数据来解决数字营销分析问题,”公司商业信息总监Dwayne Beberg说,“有了我们对数据的重塑,下面的流程将变得轻松很多。”

相关推荐