惊险的游戏——如果大数据已经有了答案,你会问些什么问题?

日期: 2017-09-15 来源:TechTarget中国 英文

在外行看来,假设是一个尚未被证明的但已经为人所熟知的想法。那么多种假设就意味着很多尚未被证明和测试的想法。 多种假设实际上就是关于一些事情为什么会发生的“被人所熟知的一些猜测”。 假设是任何科学方法的基础,不是针对分析/数据科学一个新发明。

你从一个最初的想法开始,然后证明或反驳它。一旦确定,下一步就是发现的过程,然后就是再测试另一个想法。通常,假设可能会失败,这也没关系——至少你知道一种想法或另一种方法是否有价值。 在分析/数据科学中,假设是对可能通过统计方法测试的理论进行的有根据的猜测。

如果你有十个不同的假设,你会检查所有十个,然后系统地验证或否定它来得到答案。 分析师如何产生能检测的假设?……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

在外行看来,假设是一个尚未被证明的但已经为人所熟知的想法。那么多种假设就意味着很多尚未被证明和测试的想法。 多种假设实际上就是关于一些事情为什么会发生的“被人所熟知的一些猜测”。 假设是任何科学方法的基础,不是针对分析/数据科学一个新发明。你从一个最初的想法开始,然后证明或反驳它。一旦确定,下一步就是发现的过程,然后就是再测试另一个想法。通常,假设可能会失败,这也没关系——至少你知道一种想法或另一种方法是否有价值。 在分析/数据科学中,假设是对可能通过统计方法测试的理论进行的有根据的猜测。如果你有十个不同的假设,你会检查所有十个,然后系统地验证或否定它来得到答案。

分析师如何产生能检测的假设?

假设是知情的猜测,因此关于先验数据或情况的知识有助于通过用白皮书或学术资料来定义它。例如,如果你有一些数据,并且认为这是一个正态分布(具有平均值、标准偏差等),你可以使用P值或者诸如此类的指标在数据上做一个快速的统计测试数据来证明或反驳它。你也可以做相关性检验来看两组数据是否相关。当您继续使用不同的测试对数据进行“规模化”时,目标是将数据与已建立和理解的模型(主要是参数)、离群值等相适应,这样分析才可能发生。

前设洞察是什么?找出你所知道的

往往在会议中,当须使用不完整的数据去做决定时,你听到老板、经理、项目负责人或首席执行官会问:“我们正在问正确的问题吗?”这就是前设的状态。知道对于数据的要求,尤其是“大数据”,往往是最难的问题。这是大多数企业陷入困境的原因,因为没有负责人愿意承担错误问题的负担并且投入资源——因为担心浪费时间和金钱而没有投资回报。 让我们重新来看看前设的定义。这就像是说我们要找100个或1000个理论中的十种不同的理论。决定哪些十项是预先设定的结果。有时甚至形成假设可以被看作是一种预先设定步骤。一旦选择了十个,我们应该能够用统计和机器学习以及数据分析工具对其进行系统性的验证。 一些前设洞察的例子——在搞清楚方法之前,先锁定地点 下面的例子不涉及真正的业务问题,但这些例子证明了一个论点。
  • 有1000个星系每个上面有十亿颗行星。我们想找到100 个以上有水行星。哪十个星系值得探索?我们应该研究哪一个星系?基于太阳系我们有一些先验信息的。我们不可能去研究每个星系和每个星球。
  • 许多人跟踪几年前悲惨的马来西亚航空公司飞机坠入太平洋的消息。调查人员花费时间确定在海洋的哪个方位进行搜索。他们做了很多推测,也分配资源去找寻航班或者幸存者。但是由于资源和气象的限制,人们不可能去探测每一寸浩瀚的海洋。
下面是业务问题的例子,需要获得洞察力(挑战绝对低于上面的例子)和假设检验:
  • 现在有100 TB的呼叫中心数据和1 TB的客户交易数据。我们想要在引入机器学习等定量技术之前找出客户流失的一些主要原因
  • 我们从iPhone和Android应用程序中可以获得50 TB的移动日志。我们要在客户流失前找到其主要原因。我们知道iPhone用户比Android用户流失的更多。这是因为有更多的iPhone注册用户?还是因为一个应用程序的问题?或者是其他的什么原因?
  • 你有若干TB的某种格式的数据。在你去测试每一个数据之前,你想知道至少5到10个获得洞察的出发点。
在测试中,业务科学家需要正确的工具来揭示各种可能的假设中的洞察力。这些工具最终也有助于检验这些假设,并快速试错以得到最佳模型。

关于BI报表工具呢?

报表工具对于发现时间序列下的聚合模式是非常有用的,但对于解释可能最终导致利益事件的因果关系缺乏清晰性。但它确实可以用来获得基本的见解,这些见解可以淘汰很多理论。

贝叶斯分析、路径分析和关联探索的可视化

这些优秀的方法可以减少“假设空间”来得到根本原因,或快速发现一些无法解释的现象。 贝叶斯方法可以基于可能性使用事件的先验概率估计可能性。他们还可以更新模型作为新的证据来更新未来的计划。 对于时间序列和事件序列数据来说,路径分析方法探究事件在不同时间的“序列”,并发现主导路径,并且将成为更进一步探索的方法。这里的例子就是关于导致进入登出页面和之后的事情,一个可以用这个预设来推翻理论的一半。可视化并没有展示出原因,但肯定有助于确定下一个要去探究的问题。 对于购物篮类型的数据,我们可以使用关联探索的方法,如支持、提升、信心和信心等,开始执行因果关系的分析。下面的例子是探索路透社的农业话题的新数据时前设洞察的可视化图形。可视化显示了文档中关键分词的关系。 这些小簇就是我们要关注,并且钻研其中原因的区域。相比手动阅读一个10K的新闻文章转储中的每个文件,我们可以得出关于文档所谈论的有趣的理论,并且我们也更容易验证它们,因为我们已经解决了这个问题。

结论

传统上,我们总是从我们关心的问题开始,然后收集数据。然而,在一个大数据世界中,可能性是无穷无尽的。你不能只证明或反驳现有的想法或假设,还要产生有趣的问题,这些问题可以为探索创造更多的机会。所以把你最喜欢的前设探索工具指向数据湖,并揭示出更多的问题!

相关推荐