PayPal作为一个成功的第三方支付平台,掌握了大量的用户数据,其便捷的支付方式也为PayPal赢得了大量电商的支持,尤其是对于资源有限的小商户。几年前,PayPal发起了一个基于Hadoop的数据挖掘项目,运用多种数据分析手段将自身打造成一个更加可靠的服务性支付平台,帮助商户变得更加精明,此项目取得了巨大的成功。
PayPal成功的背后
PayPal已发展成为一个价值60亿美元的电子商务交易界巨头。2013年,该公司帮助买家和卖家完成的交易额达1800亿美元,涉及商品和服务等各种交易达30亿次,拥有1.43亿个活跃用户,而实际上,这些成就背后的数据才是真正价值源泉。
该公司处于电子商务的十字路口,这给了它独特视角去研究人们在线购买的习惯。PayPal可以了解到人们买了什么、从哪买、具体的交易方式、用的是什么设备,这些信息形成了一个数据宝库。PayPal数据技术团队中的一个数据科学家Vamshi Ambati告诉我们PayPal正在尝试利用这些庞大数据为用户和商家创造更多价值。
最近,Ambati在Hadoop创新峰会上向我们介绍了他的团队关注的三个主要领域——图挖掘、文本分析和机器学习,并分享了一些经验和见解。
图挖掘
PayPal通过图挖掘帮助数据科学家和营销人员直观地标识数据中出现的一切明显趋势,分析出其中有价值的信息。Ambati说:“我们尝试从图中提取变量,或者发现某种模式,并利用这些变量和模式建立预测模型和分析模型。”
图挖掘中的图指的是描述某种关系的图形,类似于图论中的图,图在对复杂结构的建模过程中变得越来越要,这些复杂结构包括电路、图像、生物网络还有Web等等。从大量的数据中提取信息,建立图表或者其它的图形结构,便于直观的分析,以挖掘有价值的信息。多用于社会网络分析和关系型数据分析。
随着大量非结构化数据分析需求的增加,图挖掘在数据挖掘中的地位越来越重要。
PayPal使用英特尔的图建模器并基于Hadoop、Apache Giraph和GraphLab算法构建图,出于不同的目的会构建不同的图。例如,一个融合了社交媒体信息与交易数据的图有助于将社会媒体活动与交易活动联系起来,而分析交易数据中的用户点击流将有助于了解用户的购买倾向。
PayPal还利用图分析为商户提供排名和推荐服务,该公司为其商户提供潜在消费者图,使商户了解有多少消费者在两个节点之间存在共同点,“还可以帮助商户了解与竞争对手之间的差别,了解与同行相比自身具有哪些竞争优势。”
检测欺诈是图处理的最大用例。公司配置图中节点,对消费者登录商家帐户的设备作出响应。如果一个消费者使用了不同的IP地址或手机帐户登录,PayPal就需要提高警惕,防止用户账户中的钱被盗走。“我们也要了解是否存在诈骗团体的存在,往往图中的一个节点存在欺诈行为,同时还会伴随着3到4个节点的交易或者现金存取行为,这种情况很有可能是团体诈骗,通过图分析,我们可以将他们一网打尽。”
NLP文本挖掘
PayPal基于Hadoop的文本挖掘系统是公司内各种数据科学活动的关键组成部分,这些数据科学活动包括预测建模、情绪分析、影响力评级、简历排名还有主题建模和聚类分析。Ambati说:“如果没有仪表盘程序,这些文本本身不存在任何额外的价值,不过这些文本可以与我们的其他数据结合起来使用,而且有一些公司或许会需要这些数据进行更多的预测建模。”
该公司使用NLP(自然语言处理)算法从交易过程的谈话数据中提取有价值的信息,提高商户交易的成功率。
然而PayPal没有采用Netflix那种直接的推荐方式。Netflix通过四或五星级评级标识用户的偏好,然后采用商品推荐系统向用户推荐商品。但Ambati指出,事实上,用户购买某种商品并不能说明用户喜欢这个商品,Netflix的方式存在问题。
“当消费者浏览商户的商品时,我们事实上并不知道消费者是否对商户有好感,因为有可能消费者只是对品牌或者商品感兴趣,所以我们进行文本挖掘,分析产品信息以了解消费者是否对某种品牌感兴趣,然后再进行商品推荐。”
机器学习
很多的数据PayPal采用图处理和NLP挖掘,这两种常用的方式也将成为公司第三个核心数据分析的基础,所谓的第三个核心指的是数据挖掘与机器学习算法。PayPal的数据挖掘系统很大程度上建立在用Python和Java编写的机器学习算法上,它们都运行于Hadoop平台上,用于挖掘复杂的数据模型并得到有用的信息。
为商户构建预测模型是一个常见的用例,PayPal利用大量数据研究消费者的购买习惯——这些数据远比eBay的小商户积累得多。得益于PayPal的数据科学团队,商户可以利用PayPal大量数据存储库和专门知识获得竞争优势。
PayPal还将构建一个商户预测模型来帮助他们确定哪些客户有可能会流失、哪些客户会拖欠、哪些客户会再次购买。“作为商户,你可能对你的客户不是特别了解,但PayPal掌握了大量有关消费者的信息。仔细想想,其实PayPal并没有消费者,它的顾客是商户,商户的顾客是消费者,因此PayPal间接的拥有消费者。我们通过商户跟消费者打交道,所以我们希望能够为商户提供这些功能,以帮助改善消费者的用户体验。”
PayPal正在研究YARN,而且试图利用Spark和Storm,它还和明尼苏达大学一起研究“深度学习”。该公司花了相当多的时间为eBay建立推荐引擎,Ambari说:“如果你看到了邀请你去eBay购物的广告,这很有可能就是我们做的。”
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
作者
相关推荐
-
数据丰富的企业将重点转向道德数据挖掘
随着数据泄露事件席卷Facebook、Equifax等公司,越来越多的公司开始谈论道德数据挖掘。虽然大部分讨论 […]
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
数据太多Hold不住?Hadoop数据治理来“救场”
当LinkedIn还是一家规模较小的公司时,它从社交网站上获取的数据是如何被格式化和结构化的,似乎并没有人关注。
-
将数据治理工具渗透到企业中有多难?
对于主流大数据用户来说,数据治理是一个大问题。最近,IT供应商已经宣称使用开源以及商业数据治理工具来管理基于Hadoop的数据湖中的数据。