统计学:数据并不是越大越好

日期: 2015-04-01 作者:John Cook翻译:杨宏玉 来源:TechTarget中国

统计方法应该在数据量增加时做的更好。这就是专业术语“一致性”的意思所在。但如果采用了不适当的数值方法,数值误差将伴随着数据增长而增长,统计误差的降低也将毫无意义。

在数据量增加时,贝叶斯后验概率减少的原因有以下三种可能:

1 多项式逼近

2错过集中部分

3下溢

基本的数值积分算法,例如高斯求积,是基于多项式逼近的。该方法的目的是对一个近似积的多项式进行积分。但似然函数不近似为多项式,当含有更多的数据时,他们变得更加不像多项式。他们变得更接近正常的密度,在最后渐进平坦,没有多项式会有这样的特征。使用更好的积分技术,在面对更多的数据时,积分准确性应该提高而不是降低。

随着数据量的增加,后验分布变得更加集中。这意味着一个单纯的积分方法可能完全错过了被积函数中大量数据集中的那部分。你需要确保你的积分方法用对了地方。幸运的是,在什么地方使用是比较容易判断的。

第三个问题是,软件计算的似然函数在数据量适中时亦可以产生下溢。通常的解决方法是使用似然函数的对数,但对于数值积分来说,解决方法就不是那么简单了。你需要对似然函数本身做积分运算,而不是它的对数。我描述了如何处理这种情况,避免在贝叶斯计算产生下溢。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

翻译

杨宏玉
杨宏玉

TechTarget特邀编辑。北京邮电大学计算机科学与技术专业硕士。熟悉软件开发流程,对系统管理,网络配置,数据库应用等方面有深入的理解和实践经验。现就职于IBM(中国)投资有限公司,从事IBM服务器相关软件的开发工作。业余时间喜欢游泳登山,爱健身,喜欢结交朋友。

相关推荐