美国康奈尔大学Cern项目的NoSQL实践

日期: 2012-10-17 作者:Brian McKenna翻译:茶一峰 来源:TechTarget中国 英文

在瑞士的欧洲核子研究委员会(Cern),一套NoSQL数据库管理系统为科学家提供了从大量数据源中获取数据的统一途径;而在大型强子对撞机(LHC)领域,从事紧凑型μ介子螺线管(CMS)探测器研究的高能量物理学家就是其获益群体之一。

  Valentin Kuznetsov是美国康奈尔大学(Cornell University)的助理研究员和计算机专家,也是为CMS Cern项目提供数据管理的团队中的一员。该项目优先于关系数据库和其他非关系型技术,运用MongoDB创建系统。

  他说:“我们考虑过好几种不同的技术,包括基于文档和内存中的高速缓存,还有key-value数据库,但是最后决定文档型数据库最符合我们的需求。在对几种应用进行评估以后,我们选择了MongoDB,主要看中了它对动态查询和完整索引的支持性能,包括内部对象、嵌入式数组和自动分片。”

  Cern有两台粒子物理探测器,CMS(如图所示)为其中之一。LHC实验模拟开创宇宙的大爆炸过程,用以理解物质和力量颗粒如何获取质量,而CMS则从中收集数据。来自38个国家183个机构的3000多位物理学家共同参与了该实验的设计、构建和维护。

美国康奈尔大学Cern项目的NoSQL实践

  大规模的数据管理

  康奈尔大学也参与了Cern的LHC实验。Kuznetsov曾经作为物理学家和软件工程师在Cern任职,加入了项目的数据管理团队。

  他提到,在五年前,CMS数据管理团队遇到了一个数据发现问题——很多不同的数据库都需要可以为物理学家隐藏架构复杂性的用户界面。这样的用户界面有点像Google,但却需要对那些无法预先确定形式的查询回应精确的答案。

  “我们有好几个分布式数据库和一些不同的格式,比如HTML、XML、JSON文件等等;接下来就是维保问题。这个复杂度无论过去还是现在都十分庞大。”

  Kuznetsov的团队开始探索NoSQL数据库世界,与其最为匹配的应该是文档型技术;而他们之所以会选择MongoDB,是因为它为终端产品很好地提供了一个能够以自由文本形式进行查询的界面。

  MongoDB是文档型NoSQL数据库的一种,就像CouchDB

  TechTarget的数据仓库专家Barry Devlin解释道:“什么是文档?如果你不理解,没关系,因为很多人都不理解。我们这里所指的文档,不是人为操作的文本文件,而是从编程的层面上看,为了流程处理的便捷而存储到一起的一个数据项集合,通常情况下没有预先定义的架构。”

  每年10PB的数据量

  CMS在一个三层模型中拥有100多个数据中心,每年生成约10PB的实时数据、模拟数据和元数据。这些信息在关系型和非关系型数据源(如关系数据库、文档型数据库、博客、wikis、文档系统和定制应用)中存储并取回。

  为了在复杂架构中提供搜索和汇总信息的能力,CMS的数据管理和工作流管理(DMWM)项目以MongoDB为平台创建了一个数据汇总系统(DAS)。

  DAS在现有数据源上提供了一个层,研究人员和其他人员可基于自由文本形式查询数据,然后从分布式供应商中汇总结果,不会破坏他们的信誉、安全政策和数据格式。接着,DAS会在定义格式中呈现出数据。

  所有的DAS查询都能够以基于自由文本的形式表现出来,关键词集和key-value对(一对代表一个条件)都可以。用户能够通过使用一条简单的SQL式语句对系统进行查询,然后再转换成MongoDB的查询语言(本身就是一条JSON记录)。

  Kuznetsov说:“根据相关MongoDB后端的架构性质,我们能够在词典、列表、key-value对等各种形式中存储任意结构的DAS记录。因此,每一个DAS键都具有描述JSON结构的一组属性。目前还没有任何与我们的实验相关的具体信息,这证明了这一方法是有可延续性的。”

  在康奈尔大学,其他一些像研究鸟类学这样的团队都面临类似的问题,并对该技术表示出了兴趣。对此,他强调了分析技术作为主旋律的重要性。系统应当分析问题,然后以自由的形式作出更多的应答。

  MongoDB的优势在于能够将查询语言植入系统中;不像Cern也在使用的其他系统(如Couch),需要为每一条查询编码。

  Kuznetsov总结道:“来自全球研究机构的CMS物理学家、数据运营员和数据管理员一周七天、每天二十四小时不停地在使用DAS。平均查询量可被分解为上千份文档,每一份都有几KB大;每秒钟的原始缓存吞吐量在6000份文档左右。”

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

相关推荐