中国北京,2012年6月25日——技术计算领域值得信赖的领导厂商SGI(NASDAQ:SGI)与伊利诺伊大学的Kalev H. Leetaru(卡莱弗·H·李塔鲁)合作,有史以来第一次实现了从时空上对英文版维基百科的全部文本进行映射和探索。其成果包括:利用内存数据挖掘技术,看到一天之内捕捉到的现代历史。只要将整个英文版维基百科加载到SGI UV 2000中,Leetaru(李塔鲁)先生就能展示维基百科中过去两个世纪的世界,以及与这些参考资料相关的位置、年份和正面或负面观点。
尽管之前的几个项目通过编辑手动分配的位置元数据来映射维基百科条目,这些尝试只占维基百科位置单元信息很小的一部分。该项目解锁了文章本身的内容,确定了所有四百万页面中的每个位置和日期,以及它们之间的联系,以此创建出了一个庞大的网络。
以全新的方式“看”维基百科
SGI首席营销官兼战略负责人Franz Aman(弗朗茨?阿曼)表示:“该分析让世界能够从繁杂的单个文章文本中退出来,从而看到维基百科中海量知识的全景,而不仅仅是每一页的树形视图。我们可以看到这个人类最大的知识宝库是如何演进的,并看到我们之前所不能看到的东西,如一定时空内的全球情绪,或者知识覆盖不到的盲区。我们之所以喜欢使用谷歌地图是因为我们能够缩放视图,并得到大图片视图。凭借SGI UV 2,我们能够将同样的概念运用到大数据中,从整体上了解我们的大数据。”
从这项分析中我们可以看出,维基百科将其历史覆盖分为四个发展阶段:1001-1500(中世纪),1501-1729(近现代时期),1730-2003(启蒙时代),2004-2011(维基时代),其不断发展似乎把更多地焦点放在了历史事件的介绍上,而非增加当代记录的文件。维基百科里关于每个年代的论调与当时的全球重大事件相吻合,比如过去1000年中,最具负面色彩的时期就是美国内战,紧随其后的是第二次世界大战。分析还显示,数字印刷收藏中20世纪的内容出现很大空白的“版权差距”,可对于维基百科这不是问题,因为维基百科上从1924年到现在的内容一直都在稳定地以指数方式增长。
让研究人员能够以大数据的速度挖掘大数据
Leetaru(李塔鲁)先生表示:“维基百科中的单向连接、连接缺乏,以及分布不均的信息框——所有这些因素都导致基于元数据的数据挖掘在维基百科这样的馆藏中有着极大的局限性。凭借SGI UV 2,可用的大型共享内存让我能够接近实时地提出整个数据集的问题。轻轻点击便可调出大量缓存相关的共享内存,我只需简单地写下几行代码,并在整个数据集上运行,提出任何想到的问题。而这通过向外扩展计算方式是无法实现的。它非常类似于使用文字处理器而不是打字机——我能够以完全不同的方式来进行研究,专注于成果而不是算法。”
分析方式
加载到SGI UV 2000超级大脑 计算机中,这个庞大的数据集利用可识别维基百科上每个词条中的每个位置和日期的算法,从而进行全文的地理编码和完整的日期编码。公元1000年到2012年间超过8000万个位置和4200万个日期都被提取出来,每篇文章平均有19个位置和11个日期(分别为每44个单词出现一次位置,每75个单词出现一次日期)。每个日期与每个位置间的连接被捕捉到一个代表维基历史观的庞大网络中。通过这个设备,Leetaru(李塔鲁)先生能够对SGI UV 2上的整个数据集进行接近实时的分析,以便在整个时空创建视觉地图,不仅看到历史如何展现,也看到过去一千年世界的整体景象,并交互测试各种理论和研究问题,所有这一切都能在一天之内完成。
新的SGI UV:超级大脑计算机
SGI UV 2产品系列让用户能够在一个系统上找到世界上最难解问题的答案,对于管理员来说,这个系统就像工作站一样简单。通过英特尔至强处理器E5系列而开发、运行标准Linux,并支持各种存储选项,SGI UV 2为无限制计算提供完整、行业标准的解决方案。
SGI UV 2 能够从仅配备 16 个内核和 32 GB 内存的最小配置起步,无缝进行扩展。相比前代产品,这一全新平台的内核数量增加了一倍(多达 4,096 个内核),连贯主内存容量翻了两番(高达 64 TB),且能够在单一映像系统中为内存计算提供更有力的支持。SGI UV 2 可扩展至 8 PB 共享内存,最高 I/O 速率可达 4 TB/秒(14 PB/小时),能够在不到 3 秒的时间内导入美国国会图书馆纸质藏书的全部内容。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号

TechTarget
官方微博

TechTarget中国
作者
相关推荐
-
数据丰富的企业将重点转向道德数据挖掘
随着数据泄露事件席卷Facebook、Equifax等公司,越来越多的公司开始谈论道德数据挖掘。虽然大部分讨论 […]
-
数据分析是关于文化,而非技术
在新加坡,Tableau公司新数据准备工具发布会上,发言人表示,数据分析日益盛行的原因在于数据量呈指数级增长以 […]
-
攻关克难:大数据系统中的预测技术
大数据分析近年来逐渐成为预测分析技术的代名词。这使得越来越多的人以为,任何用于预测分析的系统都必定涉及大数据; […]
-
让工业无忧 天泽智云发布工业智能应用孵化器GenPro
工业世界看似离我们遥远,却与我们的福祉紧密相连。数据和智能分析赋予我们更加广阔的视野,能够以预测的方式管理和避免还未发生的问题。