美国国家橄榄球联盟(NFL)本周举行锦标赛大会,Scott M. Sawyer谈到大量难懂的数据,对获胜球队进行预测。
Sawyer的计算机分析团队来自麻省理工学院,他的研究领域包括大数据和并行算法。最近,他正在开发一项网络应用,解析自2002年至今的NFL赛况数据。那么,他发现了什么呢?
- 2002年以来,4号和1号位冲阵的成功几率为71%,如果把传球也算上的话就是66%。也就是说,球队应该让4号和1号冲阵。
- 2002年以来,新英格兰爱国者队得分率为40%,都在比赛最后5分钟之内攻下了一分。联赛平均得分率为34%。
- 巴尔的摩乌鸦队在第一次与丹佛野马队的配对防守中,传球成功率大大超过冲阵。这个结论很有意思,因为野马队的四分卫是大名鼎鼎的Peyton Manning。
Sawyer的研究方法在概念上相当简单。他提取出从2002年到2012年十年间NFL的赛况数据,这些数据已经由高级NFL统计部门的Brian Burke归档为逗号分隔值(CSV)。在海量的Excel表格文档中,每一行代表着NFL在某一季的一次比赛,信息十分详尽,包括攻守组、每一节的时间记录以及场地位置等。另外,还有关于每一次比赛的描述,如“(13:13) (枪响开始),12号T. Brady把球左传给了34号S. Vereen,推进33码线,达阵。”
接下来,Sawyer会处理这些CSV文档,用数小时来编写Python编码,然后针对每一行进行分析。他会过滤掉那些非进攻型的打法,比如踢球和点球,判断它们是传球还是冲阵,得出攻占与失守的码线,再对每一次打法成功与否进行标注。如果该打法引发了第一档进攻并达阵,或者在第一档或第二档进攻中至少推进4码线,就算成功。
下一步,Sawyer把所有数据传输到MySQL数据库中。
他表示:“我不指望能在这个项目上赚到钱,但也不希望赔损太多。我使用的是便宜的共享主机,MySQL在以最低限度的CPU周期将信息传送给访客方面最为合适。”
Sawyer还提到,MySQL已经安装配置到他的虚拟主机,而且他正在使用广泛索引和查询缓存以降低网络服务器的工作负荷。
虽然数据都是CSV文档,但由于每一次比赛都存在非结构化文本描述,还是会有人把它们归到大数据的范畴中去。Sawyer却认为这有点言过其实。关于比赛的文本语料库总共有64MB,并不大。他经过解析描述以后,把它们降到了30MB,但在导入MySQL并使用索引之后又上升到了100MB。
即便如此,Sawyer也不担心。他预测数据还会变得更大,因为还要不断引入更多的资源,比如比赛时的天气因素或者分析结果。
他指出:“如果你真的想要预测冠军,就需要大量的信息,但短期内还不至于达到TB或PB的级别。”
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
翻译
相关推荐
-
学习迪士尼的分析之道
华特迪士尼公司正在继续增加对数据分析的投资,以改善其关键业务部门的客户体验。 该公司的业务包括公园和度假村、媒 […]
-
多样化数据集分析可提供最高价值
在2011年11月丰田公司推出普锐斯V后,驾驶员很快就注意到刹车时奇怪的声音。普锐斯车主在2012年4月开始致 […]
-
看烧烤店如何使用Alexa强化后厨BI指示器
Dickey连锁烧烤餐厅计划使用亚马逊的Alexa,这样加盟商就可以在烹饪时获得操作数据,在烤架外查看指示器内容。
-
用数据讲故事的黄金时代 数据人才不可或缺
我们正处在讲述数据故事的黄金时代,在您的组织中的某处,可能就有数据故事讲述者正等待着为您揭开下一次重大发现。