大数据分析：自动化还是人为？

大数据让我们无时无刻不在感受到它带来的某些便利：比如一周前你在某个社交网站上做面试测试题，当你面试完时才知道，那份测试题真正的意图是检测你与团队性格的契合度有多高。又如，在十一黄金周前你接到某个购票应用推送的信息，上面提示你提前16天通过电话订火车票，要比同日在网上购票成功机率高。当你真的打过去时，发现电话预订系统正处于繁忙状态，不得不等了2小时后再打才订票成功。但好过同一时刻被卡在12306网站上付不了款。

大数据正在渗透各行各业，甚至能跟你考试能力测试、患上某种疾病的机率等非常生活化的场景应用都发生紧密的联系。今后大数据在我们的生活中就像是水和电一样，让社会整个信息质量更好、让信息利用更高效。

但是，在这个系统中，数据的采样与后期分析仍需要靠人为力量去完成。

数据采样更自动化

产品经理James谈到：“今后人工干预会越来越不必要，至少在前端采集数据是这样。”现在很多数据的采集都来自与用户的交互行为，比如搜索、微博互动，又比如“喜欢”、“赞”、“丢掉废纸篓”这类在应用中小的设计，只要用户主动完成，在后台便可推算出数据质量。

在印度，有700多个安装了Premise应用的用户，他们每天实时上传各地区不同的洋葱零售价格。而洋葱价格的起落则能反映印度通货膨胀率的趋势。

Premise的联合创始人David Soloff认为，这是一种能够实时感知全球金融动态的有效渠道，因为当地商店一般都会根据经济环境的变化（其中包括批发价格和消费者信心等因素）及时调整商品售价。

Soloff 表示：“Premise所提出的分析方法已经证明，根据自己所收集的数据在部分经济环境中提前4-6周给出通胀指标预测是完全可能的。大家不必再等待此前那种每月一次的‘经济天气预报’了。”

而对零售门店来说，货架上品牌的陈列直接决定着销量，如何让品牌在流动的顾客中一直占据较好的陈列位置，既耗时耗力，又非常琐碎。

为此一家名为Quri的公司，通过开发EasyShift应用，让用户有偿贡献时间和精力去收集这项数据。用户只要领取应用下达的任务，在指定的地点拍指定场所的照片，上传到Quri的服务器上，便可领取相应的报酬。

EasyShift的理念不难理解：现在大多数用户都随身携带智能手机。品牌商都想要了解自己的商品在大型零售店的展示情况、评估竞争对手的动态、报告断货的产品和定价信息、监测促销和产品发布情况。EasyShift向消费者付费，让他们在购物时顺手收集这些信息。

在日本大地震中，EasyShift意外地运用了车载导航实时提供的可视化数据，帮助完成了“绿色生命通道“项目。

该项目负责人菅野熏是日本电通创意设计中心高级总监，在日本大地震前他接受了某汽车品牌的合作项目。该项目监测在某路段行驶了哪一辆车、什么时间行驶、位于哪个经纬度、以多快的速度朝哪个方向行驶等信息，每分钟大约有十万条的动态数据都会记录在一个车载导航数据库中，菅野熏将这些数据集成到一个程序内，并以日本地图的形式展现出来。

在日本发生地震时，这些导航数据都能临时派上用场。

菅野熏说道：“地震时，通讯信号都不太畅通，人们只能够通过网络确认亲人朋友是否平安，我们所面临的挑战就是如何将救援队送往灾区。”

导航数据搜集的车辆行驶数据本来是用于交通拥堵情况的。“但从另一个角度来说，有车辆行驶的数据说明，道路是可用的。”菅野熏谈到，地震后一旦有车辆行驶，就用绿色进行标注，形成一条通行轨迹。

与此同时，团队还在Twitter上实时组织用户去发布目前全日本各地路况与路标信息，综合两类信息后，将绿色生命通道数据于地震发生20个小时后发布在网上公开下载。除了网页端外，编程人员也快速开发了移动端。当时在危机之下，信息扩散的速度是极快的，很快在网站和手机应用中，多条绿色的线路都逐一呈现，为救援队快速到达提供了参考。

大数据时代人工干预仍有必要

机器学习在大数据中确实占据主导作用，但真的不需要人为干预吗？例如，你或许已经习惯了泛滥在身边的网络营销，但你真的认可靠单纯的数学模型与规模数据分析的营销推荐吗？

ZestFinance是一个利用机器加大数据分析为payday loan行业（发薪日贷款，类似高利贷的短期高利息借款）提供客户品质分析的平台。

与传统的分析方式不同，ZestFinance可同时运营多个模型对海量数据（包括越来越多的数据来源和种类）进行分析来判断各种可能性，然后将这些信息转化为几万个可对借贷者行为做出测量的指标，如诈骗几率、长期和短期内的信用风险和他的偿还能力。最后各模型的结果被整合成最终结果。这个平台可在几秒内为用户提供可靠的结果。创始人Merrill 说：“我们更倾向于把机器学习机制和人工干预结合到一起。”

春雨掌上医生CTO曾柏毅认为，在医疗领域，机器学习基础上的数据分析就远远不够。“因为机器学习能推算出一定比例的概率，但无法达到精确、精准。”如对于某种疾病模型的设计，通过调取现有数据库中所有相似度90%以上提问，将问题结果分析汇总，制作疾病发生概率模型，并结合每个问题医生的建议，总结出“无大碍”和“去医院“比例，为患者提供直观的数据参考。

“但这也是取一定比例的概率，是用于用户自查。可是否能精确到病人真的符合这种病症，还需要人为分析（医生诊断），在后台的数据分析员也要去再排查、甄别数据的准确度。”

我们一直都在努力坚持原创.......请不要一声不吭，就悄悄拿走。

我原创，你原创，我们的内容世界才会更加精彩！

【所有原创内容版权均属TechTarget，欢迎大家转发分享。但未经授权，严禁任何媒体（平面媒体、网络媒体、自媒体等）以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget

官方微博

TechTarget中国

取消回复

要发表评论，您必须先登录。

作者

: 刘姗云

大数据分析：自动化还是人为？

取消回复

作者

刘姗云

相关推荐

Cloudera-Hortonworks合并或将减少Hadoop用户的选择

采矿设备制造商利用BI on Hadoop来挖掘数据

新Qlik Sense功能可用于云计算、AI和大数据

Cambridge Analytica秘密收集Facebook数据表明对道德数据挖掘的需求