企业越来越多地使用数据可视化工具(如Tableau)分析复杂的数据。
Tableau软件通常被认为是一个轻量级的软件,功能简单易用。但是越来越多的用户把它应用到更复杂的大数据环境中,使数据可视化工具的效用达到最大化。
数据科学工程团队产品经理Gaurav Kumar说:“数据本身是很没有意义的,想要挖掘数据中的价值,就需要利用数据可视化工具。
他列举了一些公司面临的大数据挑战,其中包括汇集来自一系列硬件和软件平台的数据。相机公司将日志数据发送回服务器保存,所以公司可以跟踪人们如何使用他们的产品,带有摄像头的视频编辑软件公司也面临着相同的情况。除此之外还有更多的传统的数据源,如CRM系统和其他业务应用程序。
Kumar和他的团队已经把所有的数据到放到一个平台,这些数据可以在指导产品开发和营销计划中扮演重要角色。大数据环境中使用Kafka and Spark Streaming将流数据库日志文件放到HBase数据库。然后把CRM和ERP系统中的数据提取、转换和加载,存入Hive数据存储中。数据经过进一步细化,通过Cloudera Impala传送到数据集市,Cloudera Impala可以通过Tableau使用。
Tableau呈现大数据问题
这样看来,数据进入Tableau可能要经过一个漫长而曲折的过程,这个过程通常用于桌面部署中分析小数据文件或在单服务器中设置。但Kumar说,一旦你“理顺”了后端系统,该软件可以有效地访问和报告数据。
Kumar说,“我们有各种各样的数据,目前的挑战是把来自不同地方的数据进行转换,供分析师使用。”
Tableau用于大数据环境的部分原因基于其底层查询工作结构。它将通过编写SQL查询处理数据。如果数据库中的数据可以用SQL查询,那么它也可以在Tableau中使用。
内容数据的高级分析工程师Jason Flittner表示: “当你在Tableau分析数据时,Tableau会编写SQL语句并将其发送到你的数据库。”
Flittner的团队利用Tableau来分析用户如何使用Netflix上的内容。这有助于决定编程类型,以完成生产或收购。数据主要来自用户会话,包括编程人员观察他们是否完成编程,以及是否存在人们倾向于跳过的编程部分。
拥有约7500万的流媒体客户,这无疑是一个巨大的数据量。所有的数据被加载到Amazon Simple Storage Service服务器。团队使用Hadoop来处理数据,结合Hive, Spark and Presto完成数据接口,这些工具都支持SQL查询。这样数据也可以在Tableau以及其他工具,如MicroStrategy和Python编程语言中使用。
数据可视化带来了大数据
Ebates网站帮助在线购物者找优惠券和折扣,分析团队想要拥有一个快速、灵活、可伸缩的和便宜的平台。他们选择构建基于Hadoop的大数据环境,满足可扩展性和成本问题。但快速访问数据就是另外一回事了。为此,他们从AtScale转向使用软件,这样可以使用SQL查询引擎访问Hadoop数据。
现在,该公司使用Hadoop作为集中式数据中心,并为类似于该平台上的Web流量数据进行分类的事情做BI报告。Ebates的分析主管Mark Stange-Tregear表示,将Hadoop的数据处理能力与Tableau的简单报告相结合,将帮助开放更深层次的数据存储。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
相关推荐
-
Tableau Ask Data为BI用户提供简单的NLP数据查询工具
通过Tableau Ask Data软件,Tableau公司为其自助式分析平台引入了自然语言处理(NLP)功能 […]
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
采矿设备制造商利用BI on Hadoop来挖掘数据
如果大数据要取得巨大成功,则需要提供给更多的最终用户群组。但广泛使用的商业智能工具尚不能轻松分析最大的大数据, […]
-
Alteryx 2018.3为用户提供新的数据可视化选项
Alteryx 2018.3正式版现已推出,其中包含更多数据可视化工具,Alteryx公司希望为数据准备和分析 […]