大数据分析:自动化还是人为?

日期: 2013-10-29 作者:刘姗云 来源:TechTarget中国 英文

大数据让我们无时无刻不在感受到它带来的某些便利:比如一周前你在某个社交网站上做面试测试题,当你面试完时才知道,那份测试题真正的意图是检测你与团队性格的契合度有多高。又如,在十一黄金周前你接到某个购票应用推送的信息,上面提示你提前16天通过电话订火车票,要比同日在网上购票成功机率高。当你真的打过去时,发现电话预订系统正处于繁忙状态,不得不等了2小时后再打才订票成功。但好过同一时刻被卡在12306网站上付不了款。

 

大数据正在渗透各行各业,甚至能跟你考试能力测试、患上某种疾病的机率等非常生活化的场景应用都发生紧密的联系。今后大数据在我们的生活中就像是水和电一样,让社会整个信息质量更好、让信息利用更高效。

但是,在这个系统中,数据的采样与后期分析仍需要靠人为力量去完成。

数据采样更自动化

产品经理James谈到:“今后人工干预会越来越不必要,至少在前端采集数据是这样。”现在很多数据的采集都来自与用户的交互行为,比如搜索、微博互动,又比如“喜欢”、“赞”、“丢掉废纸篓”这类在应用中小的设计,只要用户主动完成,在后台便可推算出数据质量。

在印度,有700多个安装了Premise应用的用户,他们每天实时上传各地区不同的洋葱零售价格。而洋葱价格的起落则能反映印度通货膨胀率的趋势。

Premise的联合创始人David Soloff认为,这是一种能够实时感知全球金融动态的有效渠道,因为当地商店一般都会根据经济环境的变化(其中包括批发价格和消费者信心等因素)及时调整商品售价。

Soloff 表示:“Premise所提出的分析方法已经证明,根据自己所收集的数据在部分经济环境中提前4-6周给出通胀指标预测是完全可能的。大家不必再等待此前那种每月一次的‘经济天气预报’了。”

而对零售门店来说,货架上品牌的陈列直接决定着销量,如何让品牌在流动的顾客中一直占据较好的陈列位置,既耗时耗力,又非常琐碎。

为此一家名为Quri的公司,通过开发EasyShift应用,让用户有偿贡献时间和精力去收集这项数据。用户只要领取应用下达的任务,在指定的地点拍指定场所的照片,上传到Quri的服务器上,便可领取相应的报酬。

EasyShift的理念不难理解:现在大多数用户都随身携带智能手机。品牌商都想要了解自己的商品在大型零售店的展示情况、评估竞争对手的动态、报告断货的产品和定价信息、监测促销和产品发布情况。EasyShift向消费者付费,让他们在购物时顺手收集这些信息。

在日本大地震中,EasyShift意外地运用了车载导航实时提供的可视化数据,帮助完成了“绿色生命通道“项目。

该项目负责人菅野熏是日本电通创意设计中心高级总监,在日本大地震前他接受了某汽车品牌的合作项目。该项目监测在某路段行驶了哪一辆车、什么时间行驶、位于哪个经纬度、以多快的速度朝哪个方向行驶等信息,每分钟大约有十万条的动态数据都会记录在一个车载导航数据库中,菅野熏将这些数据集成到一个程序内,并以日本地图的形式展现出来。

在日本发生地震时,这些导航数据都能临时派上用场。

菅野熏说道:“地震时,通讯信号都不太畅通,人们只能够通过网络确认亲人朋友是否平安,我们所面临的挑战就是如何将救援队送往灾区。”

导航数据搜集的车辆行驶数据本来是用于交通拥堵情况的。“但从另一个角度来说,有车辆行驶的数据说明,道路是可用的。”菅野熏谈到,地震后一旦有车辆行驶,就用绿色进行标注,形成一条通行轨迹。

与此同时,团队还在Twitter上实时组织用户去发布目前全日本各地路况与路标信息,综合两类信息后,将绿色生命通道数据于地震发生20个小时后发布在网上公开下载。除了网页端外,编程人员也快速开发了移动端。当时在危机之下,信息扩散的速度是极快的,很快在网站和手机应用中,多条绿色的线路都逐一呈现,为救援队快速到达提供了参考。

大数据时代人工干预仍有必要

机器学习在大数据中确实占据主导作用,但真的不需要人为干预吗?例如,你或许已经习惯了泛滥在身边的网络营销,但你真的认可靠单纯的数学模型与规模数据分析的营销推荐吗?

ZestFinance是一个利用机器加大数据分析为payday loan行业(发薪日贷款,类似高利贷的短期高利息借款)提供客户品质分析的平台。

与传统的分析方式不同,ZestFinance可同时运营多个模型对海量数据(包括越来越多的数据来源和种类)进行分析来判断各种可能性,然后将这些信息转化为几万个可对借贷者行为做出测量的指标,如诈骗几率、长期和短期内的信用风险和他的偿还能力。最后各模型的结果被整合成最终结果。这个平台可在几秒内为用户提供可靠的结果。创始人Merrill 说:“我们更倾向于把机器学习机制和人工干预结合到一起。”

春雨掌上医生CTO曾柏毅认为,在医疗领域,机器学习基础上的数据分析就远远不够。“因为机器学习能推算出一定比例的概率,但无法达到精确、精准。”如对于某种疾病模型的设计,通过调取现有数据库中所有相似度90%以上提问,将问题结果分析汇总,制作疾病发生概率模型,并结合每个问题医生的建议,总结出“无大碍”和“去医院“比例,为患者提供直观的数据参考。

“但这也是取一定比例的概率,是用于用户自查。可是否能精确到病人真的符合这种病症,还需要人为分析(医生诊断),在后台的数据分析员也要去再排查、甄别数据的准确度。”

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

相关推荐