数据科学家和其他用户在使用数据前,无需自己完成数据准备工作,这些数据准备任务应由具备大数据环境的企业来完成。 在大数据时代,为分析阶段准备数据的任务常常落在那些使用数据的科学家身上。如今IT和分析团队正在积极的为数据科学家减轻负担,在数据被输入系统时,IT和分析团队会进行一些相应的数据准备工作。 这通常需要一个混合模型,对于那些不想自己完成数据准备工作的用户,该模型将会在提供给他们的数据集上应用一些既定模式和数据格式,而对于想要自己完成数据准备工作的人,则交给他们的将会是原始数据。
平衡这些不同的需求会使数据管理过程复杂化。但实施了此类策略的IT和分析管理人员的实践表明,灵活的分析数据准备策略可……
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
基于数据流的数据准备
此外,Discover正致力于部署基于流的设置,通过Apache Spark processing engine实现提取、转换和加载(ETL)过程的自动化,让分析师能够构建自己的数据管道。Bardwaj说,“目前,这是由一些非常精通Spark的数据工程师完成的,他们可以手工编写代码进行ETL。但我们不认为手工编码是一种衡量数据准备工作的方式。” GoPro公司的大数据架构团队已经成立了一个类似的自动化过程, 使用数据定义语言(DDL)语法在公司的可穿戴的摄像头产生的动态数据流上添加一个表模式,此外其他内部和外部的数据都会被收集在一个基于云的Hadoop并发系统中。位于加州圣马特奥市的软件工程师邹浩说,定制动态DDL的方法可以让GoPro的数据科学家在几分钟内、甚至几秒钟内就能获得所需的分析数据。邹补充说,数据科学家认为数据准备工作十分无趣,他们并不想自己去完成这些乏味的工作。 生物技术公司CSL Behring正在部署一个基于Hadoop的平台,将美国工厂的生产数据澳大利亚、德国和瑞士的数据整合在一起进行分析。负责大数据基础设施的高级业务系统架构师Mark Baker说,他正在做一些前期工作,以协调数据。例如,删除umlauts和其他特定语言的标记和字符,避免数据不一致的问题。 除此之外,数据在摄入过程中处于原始状态。Baker解释说,一些“非常高端”的数据科学家想要处理原始数据。但他同时还需要运行ETL任务,为CSL Behring的其他分析师准备数据集。Baker说,“他们告诉我想要的数据是什么形式的,然后由我来进行数据准备。”他通常使用Spark和其他工具来处理数据,并加载数据到Apache Hive或HBase存储库。根据你的需求准备数据
Land O' lakes的大数据架构团队也在积极主动地为分析应用程序提供数据准备。一个基于Hadoop的数据湖泊最初被用来为农业合作社营销部门的“数字指挥中心”系统提供网站点击流、互联网搜索和社交媒体数据。但是原始数据被整合在一个通用模式下,以支持市场分析和活动管理。 Land O'Lakes的大数据和高级分析公司的高级经理Chakra Sankaraiah说, Arden Hills公司的营销人员利用众多数据来策划网络营销活动。“你不能总使用原始数据,”他说,“你必须以原始数据为基础进行构建,这样你所需数据就会变得触手可及。” 随着数据湖泊的扩展,数据准备计划需要为其他分析需求量身定制,这个流程应该从发布和传输数据时就应该开始了。目前,“我们重塑数据来解决数字营销分析问题,”公司商业信息总监Dwayne Beberg说,“有了我们对数据的重塑,下面的流程将变得轻松很多。”相关推荐
-
数据分析是关于文化,而非技术
在新加坡,Tableau公司新数据准备工具发布会上,发言人表示,数据分析日益盛行的原因在于数据量呈指数级增长以 […]
-
攻关克难:大数据系统中的预测技术
大数据分析近年来逐渐成为预测分析技术的代名词。这使得越来越多的人以为,任何用于预测分析的系统都必定涉及大数据; […]
-
让工业无忧 天泽智云发布工业智能应用孵化器GenPro
工业世界看似离我们遥远,却与我们的福祉紧密相连。数据和智能分析赋予我们更加广阔的视野,能够以预测的方式管理和避免还未发生的问题。
-
CardinalCommerce如何满足用户日益增长的数据分析需求?
通过使用Spark进行大数据分析,Visa全资附属公司CardinalCommerce在整个组织内加大了对数据的需求,并让更多的内部用户参与分析过程。