专家:R语言处理大数据分析具有天然优势

日期: 2014-06-26 作者:Mark Whitehorn翻译:陈洪钰 来源:TechTarget中国 英文

Mark Whitehorn是邓迪大学分析学客座教授,分析、商务智能和数据科学的专家。与微软、Teradata和TIBCO公司都有过合作。今天,他做客TechTarget,介绍了开源R语言的应用。

R语言是一种专门化的语言,我个人非常喜欢。如果它的功能和你的需求恰好吻合,那R语言会发挥出很大的价值。接下来我将着重谈一谈R语言的优势和特征。

R语言最强大的功能在于数据采样和数据管控。假设你需要从一组数据中随机抽取100个值的样本,这些数据都是正态分布,平均值为65.342,有2.1的标准偏差。这时你需要做的只是输入这样一行命令:

rnorm(100,65.342,2.1)

之后,R就会生成你需要的数据(如下图)。

接下来说的可能有点偏技术了。但说到R语言不能不说它的数值模拟能力。R分析也得益于数值模拟功能的运用。举个例子来说,我最近要做一个计分系统的Monte Carlo模拟,叫做净推荐值(Net Promoter Score,NPS)。Monte Carlo模拟是分析的重要组成部分,你可以给纷繁复杂的系统建模,更好地了解它们。因为被分析专家应用了很多年,Monte Carlo模拟包含了成千上万次的数值随机采样。

R语言在创建和运行Monte Carlo模拟方面有着卓越的表现,上面提到的NPS模拟,只需要9行代码就可以完成。我本可以“吹嘘”说我只用9行代码就搞定了,但这真心与个人水平无关,是因为R语言本身就善于生成和管控海量数据,也善长大数据处理。

那么,R语言为什么能胜任这样的工作呢?简言之,因为它有一整套专门为这类工作设计的功能。那么它为什么会有这些功能呢?因为R语言是免费、开源的。如果人们需要什么功能,但R语言不具备这种功能,人们就可以贡献代码,完善R语言。R语言已经应用了15年了,这意味着你需要的大部分功能,它都已经具备了。

最后,R语言很好上手,你只需要下载R语言和一个前端环境(比如RStudio,我过去用它创建图像),然后就可以敲代码了。

因此,如果你要处理的是数值操作,尤其是Monte Carlos模拟,我推荐你考虑一下R语言。但如果是其他工作的话,R语言恐怕并不适合。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

相关推荐