数据可视化在大数据环境中扮演着重要的角色

日期: 2016-11-20 作者:Ed Burns翻译:乔俊婧 来源:TechTarget中国 英文

企业越来越多地使用数据可视化工具(如Tableau)分析复杂的数据。

Tableau软件通常被认为是一个轻量级的软件,功能简单易用。但是越来越多的用户把它应用到更复杂的大数据环境中,使数据可视化工具的效用达到最大化。

数据科学工程团队产品经理Gaurav Kumar说:“数据本身是很没有意义的,想要挖掘数据中的价值,就需要利用数据可视化工具。

他列举了一些公司面临的大数据挑战,其中包括汇集来自一系列硬件和软件平台的数据。相机公司将日志数据发送回服务器保存,所以公司可以跟踪人们如何使用他们的产品,带有摄像头的视频编辑软件公司也面临着相同的情况。除此之外还有更多的传统的数据源,如CRM系统和其他业务应用程序。

Kumar和他的团队已经把所有的数据到放到一个平台,这些数据可以在指导产品开发和营销计划中扮演重要角色。大数据环境中使用Kafka and Spark Streaming将流数据库日志文件放到HBase数据库。然后把CRM和ERP系统中的数据提取、转换和加载,存入Hive数据存储中。数据经过进一步细化,通过Cloudera Impala传送到数据集市,Cloudera Impala可以通过Tableau使用。

Tableau呈现大数据问题

这样看来,数据进入Tableau可能要经过一个漫长而曲折的过程,这个过程通常用于桌面部署中分析小数据文件或在单服务器中设置。但Kumar说,一旦你“理顺”了后端系统,该软件可以有效地访问和报告数据。

Kumar说,“我们有各种各样的数据,目前的挑战是把来自不同地方的数据进行转换,供分析师使用。”

Tableau用于大数据环境的部分原因基于其底层查询工作结构。它将通过编写SQL查询处理数据。如果数据库中的数据可以用SQL查询,那么它也可以在Tableau中使用。

内容数据的高级分析工程师Jason Flittner表示: “当你在Tableau分析数据时,Tableau会编写SQL语句并将其发送到你的数据库。”

Flittner的团队利用Tableau来分析用户如何使用Netflix上的内容。这有助于决定编程类型,以完成生产或收购。数据主要来自用户会话,包括编程人员观察他们是否完成编程,以及是否存在人们倾向于跳过的编程部分。

拥有约7500万的流媒体客户,这无疑是一个巨大的数据量。所有的数据被加载到Amazon Simple Storage Service服务器。团队使用Hadoop来处理数据,结合Hive, Spark and Presto完成数据接口,这些工具都支持SQL查询。这样数据也可以在Tableau以及其他工具,如MicroStrategy和Python编程语言中使用。

数据可视化带来了大数据

Ebates网站帮助在线购物者找优惠券和折扣,分析团队想要拥有一个快速、灵活、可伸缩的和便宜的平台。他们选择构建基于Hadoop的大数据环境,满足可扩展性和成本问题。但快速访问数据就是另外一回事了。为此,他们从AtScale转向使用软件,这样可以使用SQL查询引擎访问Hadoop数据。

现在,该公司使用Hadoop作为集中式数据中心,并为类似于该平台上的Web流量数据进行分类的事情做BI报告。Ebates的分析主管Mark Stange-Tregear表示,将Hadoop的数据处理能力与Tableau的简单报告相结合,将帮助开放更深层次的数据存储。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

作者

Ed Burns
Ed Burns

TechTarget网站编辑,重点关注商务智能、数据分析和数据可视化技术。

翻译

乔俊婧
乔俊婧

关注商务智能及虚拟化领域技术发展,专注网站内容策划、组稿和编辑, 负责《数据价值》电子杂志的策划和撰稿。喜欢桌游,热爱音乐,吃货一枚。

相关推荐