统计方法应该在数据量增加时做的更好。这就是专业术语“一致性”的意思所在。但如果采用了不适当的数值方法,数值误差将伴随着数据增长而增长,统计误差的降低也将毫无意义。
在数据量增加时,贝叶斯后验概率减少的原因有以下三种可能:
1 多项式逼近
2错过集中部分
3下溢
基本的数值积分算法,例如高斯求积,是基于多项式逼近的。该方法的目的是对一个近似积的多项式进行积分。但似然函数不近似为多项式,当含有更多的数据时,他们变得更加不像多项式。他们变得更接近正常的密度,在最后渐进平坦,没有多项式会有这样的特征。使用更好的积分技术,在面对更多的数据时,积分准确性应该提高而不是降低。
随着数据量的增加,后验分布变得更加集中。这意味着一个单纯的积分方法可能完全错过了被积函数中大量数据集中的那部分。你需要确保你的积分方法用对了地方。幸运的是,在什么地方使用是比较容易判断的。
第三个问题是,软件计算的似然函数在数据量适中时亦可以产生下溢。通常的解决方法是使用似然函数的对数,但对于数值积分来说,解决方法就不是那么简单了。你需要对似然函数本身做积分运算,而不是它的对数。我描述了如何处理这种情况,避免在贝叶斯计算产生下溢。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
作者
翻译
TechTarget特邀编辑。北京邮电大学计算机科学与技术专业硕士。熟悉软件开发流程,对系统管理,网络配置,数据库应用等方面有深入的理解和实践经验。现就职于IBM(中国)投资有限公司,从事IBM服务器相关软件的开发工作。业余时间喜欢游泳登山,爱健身,喜欢结交朋友。
相关推荐
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
采矿设备制造商利用BI on Hadoop来挖掘数据
如果大数据要取得巨大成功,则需要提供给更多的最终用户群组。但广泛使用的商业智能工具尚不能轻松分析最大的大数据, […]
-
新Qlik Sense功能可用于云计算、AI和大数据
一年前,Qlik公司公布其长期计划,即将高级云计算、AI和大数据功能添加到其自助式BI和数据可视化软件中。现在 […]
-
Cambridge Analytica秘密收集Facebook数据表明对道德数据挖掘的需求
当有关Cambridge Analytica公司秘密收集Facebook数据的消息传出时,这暴露了一个薄弱环节 […]