大数据算法是最近一些技术的核心。数据分析团队越来越需要深入研究算法的工作原理以及它们所需要的数据。 正如摇滚纪录片《Spinal Tap》中总结的那样:“聪明和愚蠢往往只在一线之间。”这句名言在数据分析领域也同样适用。
” 的确,一个“聪明”的算法和一个“愚蠢”的算法之间的区别是非常细微的。随着数据分析逐渐向大数据分析靠拢,批量分析向实时分析靠拢,算法也逐渐成为大数据算法,这条分界线也越来越细。 在这个夏天,充斥着航空旅客滞留的消息。我们公司的同事Don Fluckinger亲身经历过糟糕的座位分配和随后航班取消后,在最近的一篇文章中详细讨论了这个问题。
航空公司将其归咎于算法。这样的借口是难以让……
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
吃一堑,长一智
现在,座位分配已经成为一种科学,各个航空公司都已经开始使用分配算法来增加收益。 当这个算法变得像例行公事的时候,就会产生潜在的麻烦,特别是在人类的话语权逐渐被机器取代的情况下。 具有丰富分析经验的Sid Dalal介绍了大数据、实时计算和机器学习模型的使用,以及这些功能对保险——一个关注风险分析的传统行业所带来的影响。 自2013年以来,Dalal一直是纽约AIG的首席数据科学家和高级副总裁。当他讨论大数据分析算法的变革时,他的关注点在于技术化和人性化平衡。Dalal指出,机器学习需要人类的决策和洞察力结合使用。人们如何呈现分析数据以及如何针对分析结果来采取相应行动,这些才是至关重要的。 上世纪80年代,Dalal曾在Bell Labs与一个团队合作,他回顾了1986年挑战者号航天飞机的灾难,并讨论了该事件是能否被预测的问题。众所周知,工程团队在发射前一晚举行了一场紧张的电话会议,以评估风险测量数据。最终,尽管Cape Canaveral的气温比以往任何一次发射时还要低,挑战者号还是升空了,最后悲剧不可避免地发生了。查看完整的数据集
Dalal对MIT研讨会的与会者说,在挑战者号发射前夕进行的原始分析是有偏差的,因为数据丢失了。但更为严重的问题在于,分析团队收集到了一些数据,这些数据表明发射应该被取消,但最终这些数据并没有输入到飞行分析系统中。 这些数据与O形环有关,它用来密封航天飞机固体燃料助推火箭的各级。这些O形环存在可靠性问题。而O形环问题与低温之间的相关性并不为人所知。用Dalal的话说,“他们看问题还是过于肤浅了”。 从更完整的数据集来看,大部分人都能看出O形环的受损与温度之间的关系。然而,决策者们得到的只是完整的数据的一部分——一个有缺陷的数据快照而已。 但有关挑战者号发射的决策,还存在一个更大的问题。这是航天飞机项目的一个普遍问题,从项目名称就能看出蛛丝马迹,就像Dalal所指出的那样,把航空飞行器叫做“航天飞机”,由此推断,其发射前检查可能就像民用航空那样是例行公事。后来又发生了哥伦比亚号航天飞机的灾难,最终使人们才意识到这一点的严重性。 Dalal提起挑战者号的悲剧只是想告诉大家。人们需要了解他们所处理的数据,对于他们的分析和机器学习模型,要具备良好的判断能力。 “人类对于数据分析结果的判断,是非常重要的,” Dalal说,“人类和机器之间的共生关系实际上是至关重要的。并不透明的大数据算法
今天,关于算法的讨论经常集中在黑盒的算法上,即机器或深度学习。这是一个直接给出结论的算法,但并没有给出其选择的基本原理。 例如金融业,对黑盒算法并不感冒,他们对不了解内部机制的算法表现的极为不信任。Andrew Burt曾和我讨论过这个问题。 Immuta公司的首席隐私官和法律工程师Burt说,理解机器学习模式的结论的路径始于对数据本身的更深层次的理解。Immuta是一家致力于为高级分析工作提供良好数据治理的公司。 他表示,企业需要通过仔细观察美联储的数据、模型本身性质以及模型所做的决定来实现对机器学习的管理。在大数据分析领域,企业需要谨慎前行。翻译
TechTarget特邀编辑。北京邮电大学计算机科学与技术专业硕士。熟悉软件开发流程,对系统管理,网络配置,数据库应用等方面有深入的理解和实践经验。现就职于IBM(中国)投资有限公司,从事IBM服务器相关软件的开发工作。业余时间喜欢游泳登山,爱健身,喜欢结交朋友。
相关推荐
-
学习迪士尼的分析之道
华特迪士尼公司正在继续增加对数据分析的投资,以改善其关键业务部门的客户体验。 该公司的业务包括公园和度假村、媒 […]
-
数据分析是关于文化,而非技术
在新加坡,Tableau公司新数据准备工具发布会上,发言人表示,数据分析日益盛行的原因在于数据量呈指数级增长以 […]
-
多样化数据集分析可提供最高价值
在2011年11月丰田公司推出普锐斯V后,驾驶员很快就注意到刹车时奇怪的声音。普锐斯车主在2012年4月开始致 […]
-
攻关克难:大数据系统中的预测技术
大数据分析近年来逐渐成为预测分析技术的代名词。这使得越来越多的人以为,任何用于预测分析的系统都必定涉及大数据; […]