IT 团队如何将大数据分析“化繁为简”?

日期: 2016-12-19 作者:Craig Stedman翻译:杨宏玉 来源:TechTarget中国 英文

Yahoo,Merck,Macy’s和eBay等公司正在努力扫清大数据分析应用在企业中取得成功的障碍。 即使现在有了高级分析工具扩展阵列,但分析团队在开发大数据应用程序,以及从大数据分析应用中获得可用数据方面,仍然面临巨大挑战。 首先,建立预测模型和机器学习应用程序是一个异常困难和耗时的任务,这通常涉及大量的数据变量和算法测试,找到一个数据和算法的最佳组合,产生所需的分析结果。Yahoo负责大数据和机器学习架构的副总裁Andy Feng表示,当大数据分析过程变得更加复杂,如涉及深度学习和人工智能时,其困难程度还会进一步加大。

“创新周期太长了,”Feng说,“你需要尝试很多不同的事……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

Yahoo,Merck,Macy's和eBay等公司正在努力扫清大数据分析应用在企业中取得成功的障碍。

即使现在有了高级分析工具扩展阵列,但分析团队在开发大数据应用程序,以及从大数据分析应用中获得可用数据方面,仍然面临巨大挑战。

首先,建立预测模型和机器学习应用程序是一个异常困难和耗时的任务,这通常涉及大量的数据变量和算法测试,找到一个数据和算法的最佳组合,产生所需的分析结果。Yahoo负责大数据和机器学习架构的副总裁Andy Feng表示,当大数据分析过程变得更加复杂,如涉及深度学习和人工智能时,其困难程度还会进一步加大。

“创新周期太长了,”Feng说,“你需要尝试很多不同的事情,这样的过程将会十分复杂。”Yahoo公司在一个40节点的大数据环境中运行着超过300个应用程序,包括一系列的机器学习程序,这些都建立在Hadoop和其他开源分布式处理框架相关技术的基础上。

制药公司和医疗服务提供商Merck&Co公司是另一个机器学习的大型企业用户。该公司使用应用程序分析大量的血压监测和从其他可穿戴设备收集的不同数据,作为健康管理项目的一部分。“Merck的机器学习平台的确承担了很多繁重的数据分析任务,”N.J.公司负责创新工程的总监Murali Kaundinya说道。

然而,为了降低数据分析师使用平台的难度,工程团队建立了一个抽象层,隐藏了算法开发过程中技术的复杂性。“如果你真的想要设计机器学习库,把它转变成一个平台或服务,可用的选项会很多,”Kaundinya在2016年Hadoop 峰会上说道,“如果想让分析师更快地完成工作,那上面这个方法也许并不是最好的选择。”

使用共享语义简化分析工作

Macy's公司已经采取了类似的方法,在Hadoop数据存储创建一个虚拟语义数据层。这家零售商的商业智能和分析团队目前有一个通用框架,用于开发查询、报告和预测模型,这个框架可以在后端完成数据质量,数据一致性和数据治理工作,Macy's负责市场分析和客户关系管理(CRM)的主任Seetha Chakrapany表示。

Chakrapany说,在语义层被采用之前,大数据分析过程往往会耗费大量时间来进行数据工程和数据准备工作,特别是在分析师运行复杂的查询之前。此外,分析师很难在项目中与其他人进行合作。

Hadoop峰会上,Chakrapany 指出Hadoop和众多开源数据管理和分析技术的不成熟,可能会妨碍大数据分析应用的发展。

他警告说:“许多工具还没有完全成熟。你需要接受这个事实,在有些情况下,事情进展可能并不顺利。”Chakrapany补充说,虽然技术不稳定,Macy's所遇到的问题并不会影响整体的效果。如果你持有一个开放的心态,就能获得更大的利益。

提升数据可访问性

在eBay公司,人们已经花费了6年时间来提升分析结果对企业高管和其他用户的可访问性。

这家在线拍卖和购物公司每天产生50 TB的分析新数据,这些数据在三个后端系统中整合处理,这三个后端系统包括:Hadoop集群,Teradata数据仓库和一个在Teradata基础上开发的通用数据仓库。eBay负责数据计划,产品,架构和战略的主管Alex Liang介绍说,在分析方面,eBay使用了SAS,R,MicroStrategy,Tableau和其他工具。超过300名数据分析师和5000业务用户可以访问这个环境。

Liang表示,多年以来,人们创造了许多分析信息,包括MicroStrategy产生的5000份报告以及Tableau 产生的10000份报告。包含用户数据集的数据库表的数目也已超过10000个。由于用户在各个地方产生了如此多的数据,几乎不可能在一份报告中找到恰当的指标来回答一个具体的业务问题。

为了补救这一点,eBay首先在2009年建立一个维基,类似于Pinterest和Facebook的展现形式,旨在增进分析领域的内部协作。除此之外,eBay还尝试主持分析论坛,但分析平台对于用户的易用性依然不够理想。

2014年,eBay部署了一种由Alation公司开发的,基于自助数据发现,搜索,合作的软件,该软件还具备数据治理能力,能够进一步帮助用户寻找信息,确保数据值得信赖。Liang表示,eBay以前采用的模式和IKEA的模式类似,数据治理由自己负责。而现在这种新的自助服务方式,更人性化而且更加有效。现在,可以放心地让用户使用分析技术了。

Macy's通过投资大数据管理和分析技术,也在试图达成类似的目的。通过使用正确的Hadoop工具和数据处理平台、大数据分析过程可以更好地帮助企业进行商业决策。Chakrapany说,“你肯定不想看到Hadoop作为一种廉价的存储解决方案使用,它有更大的价值。”

翻译

杨宏玉
杨宏玉

TechTarget特邀编辑。北京邮电大学计算机科学与技术专业硕士。熟悉软件开发流程,对系统管理,网络配置,数据库应用等方面有深入的理解和实践经验。现就职于IBM(中国)投资有限公司,从事IBM服务器相关软件的开发工作。业余时间喜欢游泳登山,爱健身,喜欢结交朋友。

相关推荐