几乎所有的预测建模算法都在预测总统选举获胜者上“马失前蹄”。到底出现了什么问题,是数据科学家和其他分析师忽略了什么关键因素么?
对于2016年的美国总统大选,从美国专业数据分析人士Nate Silver到《纽约时报》,都预测希拉里将以大概率赢得大选,但最后他们却预测错了。
预测失败的原因是多方面的,如果分析团队选择了错误的路线,那这些原因就可以影响到任何预测建模和预测项目。这些原因包括:过度自信,数据质量不佳,将可能性误解为确定性等。
“令人遗憾的是,预测者们把预测结果精确到了小数点后一位,看似是来自于公式的精确输出,但事实并不是这样,”耶鲁大学医学信息中心的助理研究员Pradeep Mutalik在Quanta杂志上刊文表示,这是对确定性的过份吹嘘,大选结束了,他们都被打脸了。
预测不可预测的事
选举前一天,《纽约时报》预测,希拉里的获胜几率是85%。美国新闻网站《赫芬顿邮报》的预测模型则预测希拉里的获胜可能性为98%。Nate Silver的预测相对来说比较“温和”,认为希拉里的获胜概率是71.4%。
这些预测本身并没有错。Nate Silver的模型预测显示,川普在模拟选举中,每十次中有三次获胜。即使是《赫芬顿邮报》的预测模型对希拉里的胜选保持非常乐观的态度,也没有完全否定川普获胜的可能性。
Nate Silver在美国东部时间11月8日下午6点发推文说道,“这似乎不是一个候选人有99%的机会获胜的选举”,它还讨论了民意调查以及选举前几周预测的不确定性。
但是预测者流露的意思以及民众自己的解读中,都忽略了这一部分,让公众误解为预测模型的结果是确定的。
人们并不完全理解“可能性”的意思
“问题在于,预测模型给出的是‘可能性’,而民众却并不完全理解‘可能性’的含义,”Mutalik说道,“我认为这是数据展示的问题,向公众如此展示数据是十分不负责任的。我认为可能性的展示不能用数字来衡量。”
Mutalik 举了美国《库克政治报告》预测的例子,它对每个州的倾向性给出规模预测,而不是直接去预测投票结果,这是对于不确定性展示的一个很好的例子。
预测失败的原因之一是过份依赖调查数据。预测分析师在预测模型中输入了尽可能多的民意调查数据,每一个调查数据都会有误差,但预测分析师则假设,汇集来自不同来源的调查数据能够抵消这些误差。他们认为,每个民意调查的误差会由不同的原因导致,只要每个调查误差的原因各不相同,将这些调查数据聚合起来,就可以弥补单独调查的误差。
但是在选举中,民意调查的误差原因并不会像人们想的那么简单,很多民意调查中都有共有的造成误差的原因,而当将这些结果聚合在一起时,误差变得更为显著。
预测分析师忽略了一些重要的因素
还有就是热情的问题。乔治华盛顿大学的副教授Michael Cohen曾表示,预测人员忽视了川普演讲集会上狂热的支持者以及川普在推特上的支持者。
相对于民意测试来说,这些因素更难被预测建模和分析,但最终这些人在选举中都支持了川普。
“当你试图了解这个国家亦或是你的公司内部发生了什么事情时,你不会只看数据的一部分,”Cohen说道,“我坚持认为,民调不能是你所关注的唯一数据。”
最终,为选举构建的预测建模和分析将失去作用。James Taylor咨询公司决策管理解决方案首席执行官认为,只有两个特定候选人的选举,是一个一次性事件,它有着自己独特的环境因素,通常一次性事件不能使用历史数据来预测。“只使用基本统计信息是不能准确分析一次性事件的,”他说。
用一个数字概率来代表一个特定结果的可能性,这非常具有挑战性。Mutalik说道,“即使民调显示有误差,但人们依然会倾向于大多数人所期望的结果。”
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国