美国电商网站eBay每天要处理100PB的数据,其中包括50TB的机器数据,这对于eBay来说是个不小的挑战。
在日前在伦敦举行的Gartner CRM高峰论坛上,eBay全球业务分析负责人David Stephenson做了演讲,他表示,我们做网站的目的很简单,就是要让交易成功。
作为交易市场,eBay的首要任务就是让销售者和消费者都能获得满意的体验。
应对大数据,从提出正确的问题开始
eBay借助分析软件更好地理解客户。Stephenson希望能够将小商铺的个性化推荐成功运用到面向全球的eBay网站上。他表示:“在小商店,理解客户很重要。店主需要提供个性化的推荐、了解客户偏好、从客户身上不断学习。”
网络测量数据对Stephenson来说还是陌生的新数据类型。eBay会生成大量的网站分析数据,Stephenson称之为“客户的足迹”。它可以鲜明地告诉工作人员谁来过他们的网站,都做了些什么。
Stephenson表示:“网站上能够提供和实体店购物同样的体验,客户可以比较不同的商品。我们也能够了解到客户的意图。”这些都在慢慢改变着eBay。
eBay的网站分析无所不至,就像是在每个顾客前面安装了摄像头一般。细致的网站分析也给数据管理带来困难。整个网站平均每月产生1亿小时的录像,客户数据多的难以想象。Stephenson坦言:“谁也没有办法每月处理1亿小时的数据。”
“我们只能尽量理解客户,应用数据科学技术利用更多的数据和更新类型的数据。”
eBay面临的是1亿的用户,3万多种商品,每秒钟几千美元的交易。Stephenson表示,交易数据还只是所有数据的“冰山一角”。
eBay开始处理所有的客户行为数据。
大数据给eBay带来的挑战首先是,要提出正确的问题。Stephenson表示,要回答一个简单的问题,比如“昨天搜索某一关键字时,置顶显示的商品是什么?”,系统要处理50亿的浏览页面。因此,最重要的问题是要问关键的业务问题。
三个平台实现全面的用户行为分析
除了提出问题,Stephenson还希望网站能够运行情感分析、网络分析和图片分析,这些都难以在传统交易性数据库中实现。
eBay把它的数据分析业务分发到三个平台,第一个是Teradata提供的传统企业数据仓库(EDW)。Stephenson表示:“核心交易系统必须具有极高的稳定性。我们每天要处理50TB的数据,系统绝对不能停机。”
2002年,eBay搭建了13TB的Teradata企业数据仓库,提供高效的大规模并行关系型数据库。截止到目前,系统构建在上千个节点上,数据量已经增长到14PB。
说到用户行为数据,过去,eBay只能保留1%的样本,其他全部扔掉。
Stephenson介绍到:“对于提出的很多问题,我们事先并不知道,我们是根据客户的行为数据决定问什么问题的。大概有85%的问题是新问题。如果你只关注结构不关心数据,你就无法问出新问题,但如果你要存储所有的数据,数据量会大的根本无法分析。”
这其实是企业面临的一个困境,究竟应该扔掉一部分数据,还是把所有数据都保存。
为了解决这个问题,eBay开始搭建它的第二个平台。七年前,公司开始搭建能够存储所有客户数据的平台。Stephenson表示:”对于客户行为数据,我们希望能够通过大数据方法将其保留。“
eBay需要一个能够管理几百PB各种类型数据、只需要5个人就能维护、并且分析师可以轻松访问的产品。
公司和Teradata合作,开发出一款有几百个用户定义功能的客户应用。该系统运行在商业硬件上,应用自有软件,能够处理所有客户数据,廉价存储数据。
这就是著名的eBay开发的客户数据仓库Singularity。
该系统可以在32秒内运行临时查询。Stephenson表示,那是Hadoop处理类似的查询要30秒。
Stephenson表示Singularity在网站的“A/B测试”中发挥了重要作用,这可以比较出不同的产品组合中,哪种组合最受欢迎。eBay用它测试了很多东西,比如测试网站消费者是否喜欢网站显示商品大图。
这项技术还可以用于搜索提示,Stephenson称之为“搜索栏里的经济学家”。eBay可以根据用户已选择的话题或者已提出的问题,提供搜索查询建议。因为整个系统中,基本每一个问题都被问过了。
通过这样的查询,eBay销售者就可以了解到是否需要降价、包邮或提供其他优惠。
除了企业数据仓库和Singularity,eBay还使用了Hadoop,这就是它的第三个平台。eBay部署了两个2万节点的Hadoop集群,能处理80PB的数据。
有了这三个平台,eBay终于可以实现对所有用户行为数据的存储与分析。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
翻译
相关推荐
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
采矿设备制造商利用BI on Hadoop来挖掘数据
如果大数据要取得巨大成功,则需要提供给更多的最终用户群组。但广泛使用的商业智能工具尚不能轻松分析最大的大数据, […]
-
新Qlik Sense功能可用于云计算、AI和大数据
一年前,Qlik公司公布其长期计划,即将高级云计算、AI和大数据功能添加到其自助式BI和数据可视化软件中。现在 […]
-
Cambridge Analytica秘密收集Facebook数据表明对道德数据挖掘的需求
当有关Cambridge Analytica公司秘密收集Facebook数据的消息传出时,这暴露了一个薄弱环节 […]