大数据与小数据之争 谁更有价值

日期: 2014-07-01 作者:Nicole Laskowski翻译:Ranma 来源:TechTarget中国 英文

如今CIO们已经开始接受大数据这个词,而另一个词是:小数据。这两个词似乎是占据着相同频谱的两端,但是这并不完全准确。小数据往往指的是数据容量;大数据包括容量(volume),当然也可以指数据类型(variety),数据速度(velocity),特定技术或用例。

Kirk Borne是美国乔治梅森大学天体物理学和计算科学的教授,曾就职于NASA(美国航空航天局),在哈勃太空望远镜团队工作了十年之久。他指出,大数据和小数据的区别是很重要的。Borne教授的大数据课程关注的是大数据的属性和高级分析技术,这些通常也适用于小数据集。学生可以通过实验的方式锻炼自己的数据分析能力。大数据的发展变化是很快的。

不过,也有CIO不买大数据的账,他们总爱说“到底多大才叫大数据?因此,也就出现了小数据的概念。

TechTarget记者采访了Kirk Borne,一起讨论了小数据是什么以及它是如何适应大数据环境的问题。

即将在波士顿举行的Useful Business Analytics Summit(有用业务分析峰会),你将会参加一些会议。我从你的议程上注意到你所参加的其中一个会议会涉及到小数据和大数据。让我们先从定义开始:大数据和小数据分别是什么?

Borne:定义小数据更简单一些,因为它基本上是你在笔记本电脑上就可以做的事情。而大数据就要复杂的多。我现在提出我的定义:大数据就是可量化和可追踪的一切。我的意思是说我们现在测量和量化的一切有社交媒体,智能高速路,智慧城市,移动健康,电子健康档案,无处不在的监控摄像头,他们都爆出大数据隐私的问题。一切可以测量的,我们都在测量。而且我们不仅仅只是对其测量一次,我们还追踪它是如何随时间变化的。

大数据为何如此难以定义?

Borne:你肯定知道盲人摸象的故事。每个人对大象都有各自不同的描述,因为一个人摸到的是腿,一个摸到的是身体,一个摸到的是尾巴。有个叫大象的东西,但是每个人从不同的角度对其得出一个不同的定义。这就是我们正在努力对抗的。有人说大数据只是一个概念,但这不足以缓解本质问题,因为这种说法无法应用到实践中。

Allen Bonde之前是一名顾问,而现在则在Actuate工作。他因为宣称小数据和大数据分别对应的是人和机器这样的言论而为人所知。这是一个正确的定义么?

Borne:是的。此言论言简意赅。小数据是在你正在学习的时候所使用的。这里说的学习,我有两层意思:第一,教育意义中的学习。因此,当我教授课程的时候,我总是使用小数据而且我绝不使用大容量意义上的大数据,因为学生会花费整个学期的时间仅仅只是学习如何迁移数据而绝不会学习任何算法和任何的科学。第二,当你身处业务之中,你会试图学习什么才是正确的功能来追踪客户,或是为客户提出建议,或是找出客户的偏好是什么。亦或是,在一个网络安全分析问题中,要检测一个侵入或是黑客攻击,你需要测量些什么。因此你需要做一些实验以找出需要测量的内容 – 这就是小数据。

在你学会了此模型后…接着你对它进行部署,并且用机器操作大量的数据。此机器从本质上来说就是工作在大数据洪流之上的,它所使用的模型和技术就是你用小数据进行训练时所用的。因此,小数据是对应人的,而大数据对应的是机器。

可视化是如何融入这场大小数据讨论的?

Borne:让我来举个例子吧。当你第一次使用Google Maps或是任何其他地图服务的时候,你首先看到的是一张世界地图。实际上你并没有获得任何数据;你看到的是一张全世界的图片。而当你深入到一个特定地点的时候,它就会只给出你所指定地点的信息。因此随着你的深入挖掘,你会获得更高分辨率的数据。当你挖掘到可能的最高分辨率时,你所能看到的就是自家后院。这只是大数据的一个子集。是的,它是小数据,但是你真正做的是你已经构建了一个层次数据结构,它可以让你一次一步一层层的进行挖掘和缩放。你可以左转或是右转,此时相同分辨率的其他房屋或相邻社区就会进入视野。这就是可视化真正强大的所在。当你关注于此层次数据结构的时候,可以说,你只是看到了冰山一角。但是如果你想要移动到另一边,你可以在相同分辨率下观看数据集中的其他功能。你仍然可以访问整个完整的数据集。

有了小数据,你只需要下载一小片地图(表示我所在城市的高分辨率地图)并据此做数据分析。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

作者

Nicole Laskowski
Nicole Laskowski

Nicole Laskowski is a senior news writer for SearchCIO.com and SearchCIO-Midmarket.com. She covers CIO strategies for analytics, business intelligence and data management. Prior to joining TechTarget, she worked as the news editor for a community newspaper in Arlington, Mass., overseeing the news content of both the weekly print publication and the newspaper’s website. Nicole also has worked for two other community newspapers in Oregon and Michigan and brings 10 years of writing and editing expe

翻译

Ranma
Ranma

相关推荐