游走在地图上的大数据

日期: 2016-04-04 作者:Jack Vaughan翻译:杨宏玉 来源:TechTarget中国 英文

人们试图利用大数据做一些有用的事情,其中第一件事就是把大数据应用在地图上。第一步也许很简单,但接下来的每一步却颇具挑战性。我们向ESRI的高级软件架构师Mansour Raad 询问了一些关于地理数据在目前大数据环境下的应用问题。他阐释了Hadoop的相关细节,并向Hadoop用户解释了地理数据的来龙去脉。

曾经有一段时间,地理数据用于寻找石油或水资源研究。现在,地理位置系统已无处不在。这其中发生了哪些变化呢?

Mansour Raad表示,题目中的“On the map” 并不是故意的双关,但地理相关数据确实十分重要。

位置是非常重要的,如今到处都是人们的位置数据。如果你是一个零售商,人们点击了你的网站,通过隐式或显式的方式,你能够知道他们在哪个位置,你可以找到与特定的产品相关的特定市场来满足他们的需要。产品和位置之间的关系开始变得非常重要。

像Hadoop和NoSQL这类新技术在地理领域是如何应用的?

Raad:首先,因为Spark以及其他数据排序方式的产生,我看到了Hadoop的逐渐没落。但Hadoop目前还在发挥作用,只是其中一些组件已经被淘汰了。在地理数据方面,目前有其他的方法来存储这些数据。

我们发现的最大问题是,传统的Hadoop和键值存储,如HBase,Cassandra ,Accumulo,以及所有同类产品都是建立在排序的基础上的,而且这只是一维排序。这使得他们的速度非常快,但这将搜索限制在了一维搜索方式上。地理空间数据的问题是,它并不是一个单一维度。它是多维的。时空中的东西并没有顺序可言。为了解决这个问题,人们引入一个抽象层。他们把多维的东西转变成一个单一的维度。人们很久之前就已经具备相关的数学基础了,现在只是新瓶装旧酒而已。

也许更重要的是人们所研究的地理空间处理算法,人们需要将其由串行方式转变为分布式运行,并实现并行计算,非共享的架构。坦率地说,这是非常困难的。这是因为我们一直以来的固有思维方式在作怪。将现有的算法改变为分布式算法需要大量的工作。

我们可以期望大数据和地理空间数据技术在未来几年实现融合么?数据科学家对于地理数据在大数据领域的“3V”特性(体积、速度和种类)上有什么样的看法?

Raad:在我看来,与其用体积、速度和多样性等特性来概括大数据,不如用实际需求来概括大数据。你采用新技术的原因往往是传统方法无法满足你的需求,甚至它导致了你的失败。

但事实是,地图上的点能够向你反映相关性。我们人类是视觉动物。有了地图,你可以可视化那些在以前十分模糊的东西。而真正至关重要的是地质统计学的使用。它以实际的效果给予了你信心,让你变的更加自信,通过对比位置信息,你可以根据趋势做出果断的决定。

通信领域正在发生类似的转变,例如,当你调查网络上的“通话掉线”问题时,你可以根据在地图上的所见来决定如何分配人员去更新网络设备。

就像几年前的Tohoku 地震,我们都知道地震过后,海啸和核辐射随之而来。如果你不得不撤离村庄,你有多大的信心来说服人们疏散呢?通常人们面对的挑战是:对于某个场景而言,你能够做出回应的机会非常珍贵,机不可失,失不再来。地质统计学将数学应用到趋势预测、数字集群当中,它能给予你充分的信心来对实际的趋势进行正确的判断。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

作者

Jack Vaughan
Jack Vaughan

TechTarget新闻记者和网站编辑,主要关注数据管理领域的技术趋势和动态。

翻译

杨宏玉
杨宏玉

TechTarget特邀编辑。北京邮电大学计算机科学与技术专业硕士。熟悉软件开发流程,对系统管理,网络配置,数据库应用等方面有深入的理解和实践经验。现就职于IBM(中国)投资有限公司,从事IBM服务器相关软件的开发工作。业余时间喜欢游泳登山,爱健身,喜欢结交朋友。

相关推荐