上周五CNN Money的一则新闻可以说是引爆金融界:美国富国银行(Wells Fargo)被美国消费者金融保护局(CFPB)罚款1.85亿美元,这是该局自2011年成立以来开出的最大一笔罚单。罚款金额并非大家愕然之源,令人震惊的是罚款之因:经查证,富国银行的员工未经客户允许,秘密开设150万个银行账号和56万多张信用卡!通过这些”幽灵账号”,员工可以完成业务配额,提升销售业绩。
本周在美国亚特兰大举办、为期5天的2016 Teradata全球用户大会,富国银行副总裁的刘维政(Richard Liu)出席论坛演讲。TechTarget记者亦得以机会,针对此次事件进行专访。
不要让大数据在数据库中迷失!
刘先生目前是负责富国银行的公司风险管理。他说,从数据的角度来审视,这次事件的发生给银行业的数据控管发出一个很好的警示:不要仅仅局限在对结构化数据的收集和分析中,虽然这是银行业的传统数据应用方式。随着新科技的日益更新进化,大量非结构化数据的出现给银行业带来挑战。例如,客户的开户文件、通过手机所进行的支票存款就是非结构化数据。
刘先生进一步说明,纵观全美银行业,其实富国银行在数据分析等大数据应用方面已经先行其列。然而,任何企业随着规模的不断扩展,所面临的挑战是不断在复杂化。例如,富国银行在2014年客户就高达7千万,在36个国家和地区分布8700多个营业网点。此次事件带给富国银行的深思是:如何更好地把结构化和非结构化数据相结合?例如,结构化的数据通过分析最后以视觉化方式得以呈现,如果发现不合理之处,传统的数据分析方式会再重新审核结构化数据是否完整、是否整理有误?富国银行目前已经不再停留在这样的传统数据分析方法,而是会从非结构化数据之中,去查看结构化数据是否合理。
针对国内很多银行投入很多精力利用结构化数据追求人工智能、追求精准预的现象,刘先生认为,大数据分析必须回到最基本的出发点:如何对知识(knowledge)进行整理?我们是否很充分地运用了大数据?很多人还在专注数据库就是大数据工作重中之重的误区中行走,刘先生强烈呼吁:大数据不要迷失在数据库中!结构化数据和非结构化数据如何相辅相成,彼此相融,才是正道。
不要错误清洗数据!
如何对知识进行整理?刘先生认为,错误清洗数据是目前非常普遍存在的现象,而且是一个很严重的问题。很多人对数据进行分析时,更注重如何去运用统计模型。因此在数据清洗步骤中,只是为了让统计模型有更好的表现,去寻找配合的数据。但是,数据在连接的过程中可能产生错误,数据可能会出现异常值。很多人不会去深究为什么会有异常值,而是直接把这些异常值删除,因为异常值的出现会将统计模型与预设方向产生很大的偏差。这样为分析而分析的方式,是不可取的。否则,好的数据也可能会随之一起被删除。
如何正确地进行数据清洗?刘先生说,现在的数据量实在太大。对非结构化数据的分析可以分三步走:区格(Segment)、议题(Topic)和校对(Alignment)。其中,区格是指首先把知识进行整理,进行归类。议题是指根据区格所产生的归类,结构化数据,进行验证和分析。
刘先生还介绍,现在银行风险的控管一定会从客户视角(Customer View)进行数据的收集和分析。然而,目前富国银行不仅仅关注从客户视角进行数据分析,而且还会关注员工视角等多渠道的数据分析,例如对员工的行为进行分析,加强内部风险的控管。大数据分析必须从多视角进行分析,才可能更加全面地从数据分析中评估风险、管理风险。
富国银行的大数据应用
刘先生认为,富国银行在大数据技术方面起步早,IT投入多,大数据应用比同行更深入。例如,富国银行使用Teradata的产品已有二十多年历史,目前在美国有五个数据中心。
在开源方面,富国银行也在积极推进对开源技术的应用,与既有架构相兼容。例如,数据库方面已经采用Hadoop和Spark。在数据分析方面,Teradata的Aster平台已在银行各个部门广泛采用。Aster很重要的一个特点是,它不要求使用者是很资深的编程人员,因为语法比较简单,所以一般策略分析人员可以用很简单的语句(如SQL)去进行高深的查询。Teradata在本次大会宣布将于2016年第四季度推出QueryGrid新版本,刘先生对此很期待。他认为,这的确有利于企业更加轻松管理多系统分析环境,带来更加透明的业务用户体验。
采访后感
初闻富国银行幽灵帐号事件之时,的确感到震惊。现在仔细回想,再听刘先生的层层剖析,不由深思:作为积极拥抱新科技,并且在大数据应用方面走在前沿的富国银行都难免出现这样的惨痛教训,那么,相对而言,国内银行业是否更加应该以此为戒,积极内省?例如,是否大数据的关注点仍集中在数据库?是否仅仅因为免费而盲目采用开源,自我研发?是否为追求业绩,找亲朋好友开设各种帐号或信用卡?是否各种财富管理背后,提供给了用户足够的透明度?……
关于富国银行
富国银行集团(Wells Fargo & Co.)于1852年成立于美国纽约,美国第五大银行,是全球市值最大的银行。一向重视新科技的应用,1967年与三家本地银行推出万事达卡,1955年是世界上第一家可以在网上查看帐户结余的银行。
关于刘维政(Richard Liu)
美国富国银行副总裁,负责管理银行模型验证的架构,监管一系列的量化分析。他利用大数据技术为不同业务部门带来了统一的视图。目前,刘先生正将高性能计算平台Spark与Aster结合利用,监管每一账户和每一个投资组合中的变化。在加入富国银行以前,刘先生曾在美国银行担任信用卡市场开拓、企业风险管理等多个不同职位。二十年来,他在银行业进行数据分析、业务开发、组合管理和战略制定等方面积累了丰富的经验。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
相关推荐
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
采矿设备制造商利用BI on Hadoop来挖掘数据
如果大数据要取得巨大成功,则需要提供给更多的最终用户群组。但广泛使用的商业智能工具尚不能轻松分析最大的大数据, […]
-
新Qlik Sense功能可用于云计算、AI和大数据
一年前,Qlik公司公布其长期计划,即将高级云计算、AI和大数据功能添加到其自助式BI和数据可视化软件中。现在 […]
-
数据分析是关于文化,而非技术
在新加坡,Tableau公司新数据准备工具发布会上,发言人表示,数据分析日益盛行的原因在于数据量呈指数级增长以 […]