详解Hadoop应用案例 洞察大数据发展变局

日期: 2014-07-10 作者:MARK BRUNELLI翻译:Ranma 来源:TechTarget中国 英文

Zions Bancorporation每天都在收集大量的数据 – 例如,有关在线存取款的客户资料和信息 – 然后将其全部放入一个1.2PB(还在增长中)的Hadoop资源池中。接着对记录进行分析以发现可能表明欺诈,盗窃或是其他犯罪活动的异常行为。 但是它要做的比Hadoop技术的标题抓取要复杂的多,Hadoop是Apache软件基金会开发的分布式处理框架,擅长处理大数据,能够分析大量的结构化和非结构化数据,用以支持业务洞察和行动。 问题在于大数据本身。

在很多情况下,大数据意味着海量的数据规模,而且它经常会包含非传统事务数据,包括系统和网络日志,工业设备的传感器数据,社交网络文章以及其他文本数……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

Zions Bancorporation每天都在收集大量的数据 – 例如,有关在线存取款的客户资料和信息 – 然后将其全部放入一个1.2PB(还在增长中)的Hadoop资源池中。接着对记录进行分析以发现可能表明欺诈,盗窃或是其他犯罪活动的异常行为。

但是它要做的比Hadoop技术的标题抓取要复杂的多,Hadoop是Apache软件基金会开发的分布式处理框架,擅长处理大数据,能够分析大量的结构化和非结构化数据,用以支持业务洞察和行动。

问题在于大数据本身。在很多情况下,大数据意味着海量的数据规模,而且它经常会包含非传统事务数据,包括系统和网络日志,工业设备的传感器数据,社交网络文章以及其他文本数据。接下来所要面临的挑战就是要在巨大的空间中定位出有用信息。在其中寻找商业价值是一个更大的任务,它意味着巨大的成本支出。

Zions和其他使用Hadoop,NoSQL数据库和类似工具的企业都认为,在这个大数据技术蓬勃发展的时代,对企业而言,与很多技术广告只需要购买者相信它的产品不同,高的投资回报还意味着创建正确的团队,构建坚实的业务战略,实现敏捷化,做好测试,而且是很多很多测试。

Zions在九年前首先推出了它的欺诈分析项目,征服大数据是一个需要先进技术和敏锐洞察力的目标。在过去十几年随着数据容量的爆炸式增长,在大海般的数据中寻找如针般有用信息变得更加艰难。但Zions的银行欺诈和安全分析团队一直不断建立和完善统计模型,并已多次帮助银行高管预测,识别,评估以及在必要时应对可疑活动。

Zions负责欺诈防护和安全分析的高级副总裁Michael Fowkes表示:“大数据技术的广告五花八门,恨不得让你相信大数据可以帮你做家务。不过,我作为我们团队的代表,认为我们已经成功了,因为我们找到了解决问题的方法。”

打造团队

美国Zions公司提供银行和金融服务,使用由MapR Technologies提供的开源Hadoop包。Fowkes表示,公司在更早以前,就已经在使用数据仓库设备和其他用于处理大型复杂数据集的工具了。Zions使用Hadoop主要是为服务器,数据库,杀毒软件和防火墙日志以及与在线银行系统,无线系统和客户数据库相关的事务数据存储数据。

Fowkes相信建立正确的团队是将大量信息转化为洞察力并付诸行动的关键。在Zions,集聚了一小撮数据研究人员,他们致力于构建算法和统计分析方法,以帮助Fowkes的安全人员发现异常趋势或数据中指向犯罪的离群值。

这些数据研究人员还要努力去除噪声,或者说是无用数据 ,它们通常是不同类型的数据,“狡猾”地藏身于大型复杂数据集中。Fowkes 认为:“大数据等同于大噪声。数据科学人员需要过滤掉所有无用内容来提取出真正有价值的东西。”

然而,组建一个数据科学团队并非易事。企业需要从小处做起,然后随着时间的推移在成功的基础上逐渐壮大。这个过程中,资源必须得到明智的分配。因此,很多位置上填满了来自Zions安全部门的人员。银行也进行了额外投资以增加其数据分析能力。然后Zions招募了拥有统计和高级数学建模背景的数据研究人员。

大数据,大市场

随着传感器,社交媒体和其他页面数据量的膨胀,大数据产品市场同样也在扩张,因此企业需要对新的可能性敞开怀抱。Zions短时间内并没有计划抛弃MapR提供的Hadoop技术,但同时也在时刻关注着新的技术发展。

“具体来说下Hadoop,我们会持续专注有什么和什么是可用的,”Fowkes如是说。“如果有令人信服的理由,我们不会反对替换掉正在使用的技术堆栈。”

MapR在大数据技术市场中的主要竞争对手是Cloudera和Hortonworks,他们同样也提供开源Hadoop文件系统的商业版本。但随着市场的发展,客户可以期待Hadoop市场出现更多的供应商。存储供应商EMC也发布了一个商用Hadoop;而IBM和Microsoft也提供各自的Hadoop。

IT行业分析师和Hadoop用户说,他们希望这项技术越来越流行,因为相关的软件工具如Hive(它是用于查询Hadoop数据存储的Apache数据仓库应用)已经开始越来越像是基于SQL的传统数据管理工具。 在Zions,Hive的出现对安全团队的操作产生了重大影响。

Fowkes 谈到:“Hadoop技术的部署和使用需要大量的培训,不过Hive工具可以部分缓解技术人员的学习压力。我们之前的系统使用的是一个类似SQL的前端,这就是Hive带来的好处,你可以像访问关系型数据库一样访问Hadoop和大数据。”

Hadoop集群带来新机会

WikibonIT研究和顾问组的分析师Jeffrey Kelly认为,有了正确的团队和策略,诸如Hadoop,Hive,Pig,Cassandra,Mahout以及其他的大数据技术便可以为企业开启预测的大门。人们之所以选择Hadoop,往往与廉价的数据存储和改善的分析功能相关。

IT专业人员正在为Hadoop寻找一个典型业务案例,比如可以对公司业务决策者说,使用Hadoop开源大数据系统,可以在数据存储和数据分析上为企业节省大笔费用。

Hadoop和其他开源大数据技术,为那些由Oracle和IBM等大型软件公司供应的传统专有数据仓库提供了一个非常廉价的替代品。因此,越来越的企业在去除昂贵的配置,只在数据仓库中保留最近的交易数据,其他的都移到Hadoop集群上了。

Kelly致力于对大数据和商业分析市场的研究,他认为去除昂贵的配置对很多企业来说是不错的选择。对于中小企业,它可以帮助企业节省每年花在数据仓库容量,获得许可和支持上的钱。

Kelly表示:“随着大数据量的增长,你将不得不在Oracle数据仓库或是Teradata数据仓库上投入更多成本,这是很大的一笔支出。因此,一些早期的采用者正在做的事情是将最近六个月的数据保持在Teradata或是Oracle数据仓库中,而所有老数据则全部卸迁移到Hadoop。”

在Zions,使用Hadoop的决定不仅仅让公司有了中央资源池可以进行数据取证,预测和风险管理活动,它还显著降低了存储成本和容量计划成本。

Fowkes 表示:“Hadoop给了一个可以让我们以合理成本存储数据的地方,而且是存储大数据。还有很多技术可以进行报表,但往往要花费几小时甚至一天的时间。但应用Hadoop集群,你可以在20分钟之内获得结果。”

翻译

Ranma
Ranma

相关推荐