做好预测分析将数据在模型上运行就万事大吉了？

2016年美国总统大选以令世人大跌眼镜的结局结束了，令人惊讶的不只是最后的胜利者，特朗普击败希拉里也引发了政治地震。另一方面令人惊讶的是，我们在这样一场更多靠情感和直觉驱动的总统竞选活动中如此重视和应用了大数据和预测分析技术。并不只是希拉里竞选阵营对于投票没按既定预测模型路径发展而措手不及。几乎所有分析驱动的选举预测者们都认为希拉里将会胜出，其预估概率甚至高达99%。

即使是特朗普自己的数据分析团队，在11月大选的前一天也认为只有30%的成功希望。我们常常认为组织应该由数据驱动决策。支持者认为，基于数据分析做决策的企业要比其它企业做的更好。毫无疑问，谷歌、亚马逊、Facebook到Uber和……

查看全文

我们一直都在努力坚持原创.......请不要一声不吭，就悄悄拿走。

我原创，你原创，我们的内容世界才会更加精彩！

【所有原创内容版权均属TechTarget，欢迎大家转发分享。但未经授权，严禁任何媒体（平面媒体、网络媒体、自媒体等）以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget

官方微博

TechTarget中国

取消回复

要发表评论，您必须先登录。

2016年美国总统大选以令世人大跌眼镜的结局结束了，令人惊讶的不只是最后的胜利者，特朗普击败希拉里也引发了政治地震。另一方面令人惊讶的是，我们在这样一场更多靠情感和直觉驱动的总统竞选活动中如此重视和应用了大数据和预测分析技术。

并不只是希拉里竞选阵营对于投票没按既定预测模型路径发展而措手不及。几乎所有分析驱动的选举预测者们都认为希拉里将会胜出，其预估概率甚至高达99%。即使是特朗普自己的数据分析团队，在11月大选的前一天也认为只有30%的成功希望。

我们常常认为组织应该由数据驱动决策。支持者认为，基于数据分析做决策的企业要比其它企业做的更好。毫无疑问，谷歌、亚马逊、Facebook到Uber和Airbnb等，都在利用数据挖掘、机器学习和预测模型技术，这些公司在一定程度上改变了他们所在的行业。

但是这并不意味着数据驱动分析项目就不会有错误和问题，本届美国总统竞选中大数据预测出现问题就是一个例子。任何预测分析策略都会有偏差点，都可能因为测试和模拟数据的偏差而使结论南辕北辙。例如，使用低质量的数据会产生错误的观点，或者未能给预测模型真实结论反馈导致模型不准确。这些情况都应该让数据科学家和其它分析师们警觉，分析流程并不是简单的收集一些数据，然后研究一个模型在数据上运行就万事大吉了。

预测正确的事情

在企业应用中，构建并应用预测模型并不一定会提供更好的预测分析。

位于新西兰和澳大利亚的Meridian能源有限公司最近就吸取到了类似教训。Neil Gregory是该公司可靠性工程经理，他在2016年10月份的IBM Watson 2016大会上表示，他的团队从使用8年之久的预测维护系统上迁移出来了，因为该系统使用的预测方法有缺陷，最终Meridian公司决定不再使用了。

Gregory拒绝透露软件的供应商名称，该软件定位是要预测需要维护的资产，包括发电机、锋利发电机、变压器、断路器和工业电池，基本上公司拥有或使用的所有大型设备都包括了。他说：“如果你不了解工厂设备的情况就会出问题。为了避免设备出问题就是我们真正想使用预测资产管理的驱动力。”

不过，该系统提供的预测模型技术已经过时了，继续使用不能准确预测设备故障。实际上它是对不同的场景运行模拟，预测什么时间设备会出问题。听起来只是有点小区别，但是故障测试并不是意味着现实世界中的设备一定会有问题。这种矛盾限制了工厂维护团队只能对软件给出的预测推荐保持有限度的信任。

为了替换旧系统，Gregory的团队部署了IBM的预测维护质量管理软件。他说，新的应用系统可以从设备获取到更加实时的数据提供给预测模型。这就可以帮助公司在设备故障发生之前进行维护，避免对Meridian公司造成严重影响。

说到未来发展方向，Gregory表示他的团队将会继续利用机器学习帮助提供预测功能，不断优化模型。Meridian公司使用IBM的SPSS预测分析平台来增加机器学习的应用效果。作为项目的一部分，数据分析师也会在SPSS中构建预测模型，在预测维护应用中通过“拖拽”的方式来完成。Gregory说：“模型的学习能力是我们非常看重的。有了学习能力就会有巨大的潜力，因为我们的数据非常丰富。”

预测模型需要经过验证

无论是哪个行业，采用数据驱动策略的主要原因都是利用预测模型技术可以使决策更明智和客观。不过，这并不意味着组织应该完全消除对整个分析过程的人工判断和干预。

Dennis Climer是美国一家地毯和地板制造商Shaw的商务部定价总监，他表示：“随着时间推移，人工判断一定需要参与进来，判断预测结论是否靠谱。”该公司使用预测分析来决定商品的合适定价，在获得最大利润率的同时不会令客户难以接受。在定价方面的优化是针对每个销售定制的，考虑因素包括客户的规模和以前的订单历史，还包括相关产品的项目类型和明细信息。相关数据会从公司的客户Salesforce关系管理系统中推送到Zilliant公司的软件，该软件会运行预测模型得到预测的优化价格范围。推荐的价格值会反馈到Salesforce，然后推给销售团队使用。

Climer表示，这个过程使报价更优化和可靠，最终合同利润也可预测。但是，它并不是完全无人干预的。他的团队一直在对分析模型做监测，确保模型推荐合理有效，如果给出的建议价格超过了基于经验判断的合理价格范围，他就会修正调整。

监视预测模型的输出很重要，因为他们的表现容易随着时间的推移而发生变化，因为客户的行为和更广泛的数据趋势变化会影响模型（例如：市场上整体经济形势）。对于Shaw公司来说，也因为有时候公司可能没有足够的数据，无法完全相信模型预测的价格是有效的。例如，如果公司推出了新产品或者扩展了新业务领域时就会有这种情况。Climer说，数据分析师需要接入并确保模型给出的答案可以用于设定价格。

他说：“只要有人参与，我们就永远不可能只靠数学模型。单纯模型提供的一些信息有可能没有综合商业考虑因素。”

为分析团队明确角色

分析经理们也需要提高警惕，确保一起工作的数据科学家们在持续关注研究预测模型输出的信息，不要被其它各种琐事纠缠（例如处理商业智能报表或者数据管理任务）。

伦敦的Aviva PLC保险公司正好有这方面的案例。Aviva公司分析负责人Rod Moyse表示，刚开始规划项目是为了提升欺诈预测和在内部预测合适的身体伤害理赔诉求金额。那个时候，公司大多数人把Moyse和他40人的团队看作是报表专家，而不是专门构建和运行复杂模型做预测模型技术的数据科学家。

但他表示：“我们已经开始思考如何做一点不一样的事情了。我们需要快速改变公司内部的看法。”

在软件供应商SAS研究公司2016年度分析会议上，Moyse发言表示，客服认知的关键是关注预测分析项目，并且应有相应的高级管理层支持以确保项目在Aviva公司内部获得认可和接受。该项目可以帮助预测团队在图上创建基于SAS的工具，评估事故中的汽车应该维修还是申报总损失。这项过程以前是申报代理来做的，过程会很漫长；而现在这个决策过程可能最多需要与客户之间打几个电话就搞定了。现在，该工具可以在发生事故之前评估车辆价值，与对车辆进行维修的代价相比较。

Moyse在Aviva公司还明确了预测分析团队的角色定位，这样更方便参与工作，避免后续混淆。他说，预测模型给出的建议不是告诉业务运营发生了什么，而是分析未来可能发生什么。

必须有高质量的数据

当然，要想做好分析，最重要的事情是要有好数据。否则，即使是规划最好的预测分析工作也可能出错，本届美国总统大选事件预测不准确就是很好的例证。希拉里竞选预测事件中，主要问题是因为基础数据（民意调查结果）最终被认定是不可靠的。

Cohen研究集团公司的CEO Michael Cohen说：“如果你在大选期间基于某个时间点的数据进行分析，那就大错特错了。民意调查数据是有一定的价值，但是它不是唯一依据。要想通过预测模型研究人们的意愿，你必须考虑其它度量指标。”

Cohen认为选举前民意调查全面倾向于希拉里是因为社交媒体的点赞偏见，预测建模者要想预测总统大选需要把相关影响因素都纳入到模型中。人们告诉民意调查机构他们支持希拉里，是因为他们认为这样更容易被社会接受，但是他们在匿名投票时却投给了特朗普。另外，民意调查并没有做任何有效的工作来调动选民热情。特朗普把更多的精力分配给支持者，最终导致选举日得到的票数大大超过了分析模型的预测值。

对于企业来说，他们的分析团队通常比总统大选这种活动更容易做预测。企业有很多客户行为数据，或者运营的相关数据，这些数据远远超过了大选的选民数据。此外，每次选举都是独立的实时行为，没有相关的历史数据可以用来对投票建模。

即便如此，由于缺乏足够的数据来训练预测模型，没法保证模型输出准确的结果，因此在企业应用中会出现问题。对于数据科学家运行机器学习应用程序的情况来说，这一点尤为突出。Forrester研究公司分析师Gualtieri说：“机器学习对于有许多历史案例的情况来说效果更好，只要经过足够的训练事件就可以从历史数据中学习到很多。”

要避免失误，分析团队需要知道什么时间应该暂缓推行不可靠的预测模型输出，毕竟总有一些事情是我们不能预测的。

作者

: Ed Burns

TechTarget网站编辑，重点关注商务智能、数据分析和数据可视化技术。

翻译

: 冯昀晖

做好预测分析将数据在模型上运行就万事大吉了？

取消回复

预测正确的事情

预测模型需要经过验证

为分析团队明确角色

必须有高质量的数据

作者

Ed Burns

翻译

冯昀晖

相关推荐

Cloudera-Hortonworks合并或将减少Hadoop用户的选择

采矿设备制造商利用BI on Hadoop来挖掘数据

新Qlik Sense功能可用于云计算、AI和大数据

Cambridge Analytica秘密收集Facebook数据表明对道德数据挖掘的需求

做好预测分析 将数据在模型上运行就万事大吉了？

取消回复

预测正确的事情

预测模型需要经过验证

为分析团队明确角色

必须有高质量的数据

作者

Ed Burns

翻译

冯昀晖

相关推荐

Cloudera-Hortonworks合并或将减少Hadoop用户的选择

采矿设备制造商利用BI on Hadoop来挖掘数据

新Qlik Sense功能可用于云计算、AI和大数据

Cambridge Analytica秘密收集Facebook数据表明对道德数据挖掘的需求

做好预测分析将数据在模型上运行就万事大吉了？