科学研究人员需要强大的大数据架构来应对挖掘和分析基因组数据的挑战,有人说Apache Spark引擎非常适合这项工作。 当提及面临大数据分析挑战的组织时,我们通常会想到 Facebook,Netflix和Google等网络公司。当然很多在线零售商也可以访问巨大的点击流和客户数据。 进行基因组数据分析的科学研究实验室可能并非被人熟知,但它在大数据中发挥着越来越重要的作用。
基因组数据包含关于人或动物基因组及其含有的DNA的信息,这促使研究人员挖掘并分析所有的数据,以思考新的数据架构。有些人发现Apache Spark处理引擎和其他大型数据技术非常适合他们的工作。 第一个人类基因组大约花了10年时……
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
对数据分析速度的明确需求
“如此之多的数据涌入,需要创新计算才能保持目前生物医药研究的步伐”,麻省理工学院和哈佛大学在2004年成立的Broad Institute的一名高级软件工程师Cotton Seed说道。 对于Seed来说,Spark已经有很多创新。 他曾在波士顿的2017Spark峰会上谈及他和他的团队在Spark上建立了一个基因组研究平台,利用该技术的SQL查询功能和机器学习算法库,可以加快数据挖掘和分析过程。 广泛研究目前正在开展项目,以绘制与某些类型的癌症相关的遗传特征和生活在人体内的微生物的遗传构成等。Seed表示,Spark在这些努力中可以发挥一定的作用,因为它可以连接到不同的数据存储,并让研究人员用不同的查询语言(SQL,Python或Scala)进行交互。“当他们撰写研究文章时,研究人员能够尽可能接近生物学语言,如何表达很重要,”他说。 位于加州伯克利的劳伦斯伯克利国家实验室的计算生物学家和基因组学研究员王先生表示,Spark处理大数据量的速度及其可扩展性也使得该平台对基因组数据分析和数据挖掘使用具有吸引力。 王先生所在的研究小组负责研究动物肠内微生物之间的遗传水平相互作用。这些研究产生了太多的数据,所以团队使用Spark和机器学习算法来解析数据并识别有意义的相关性。Spark增加了更多的处理能力
在采用Spark之前,王先生和他的同事在2009年部署了一个六台服务器的Hadoop集群,使用Apache Pig脚本和分析平台进行分析。但是处理时间很慢。此外,研究人员正在尝试构建基于图的算法,这与基于MapReduce的编程环境(如Pig)并不十分兼容。 几年之后,该团队针对存储在亚马逊EMR中的数据进行了转换,该数据库是Amazon Web Services中以前称为Elastic MapReduce的基于云的Hadoop发行版。王先生表示,即使通过平台移动的数据量不断增加,Spark系统的处理时间有所改善。 像Seed一样,王先生表示,在各种容易学习的语言中为Spark编写应用程序的能力是一个加分项。这意味着像他这样的研究人员可以做基因组数据分析项目所需的大部分开发工作,而不必依靠数据工程师或数据科学家。“我没有接受过计算机科学家的培训,但是我可以编写Scala和Python Spark应用程序,”王先生说,“这样可以避免再聘请一位昂贵的工程师。”相关推荐
-
数据分析是关于文化,而非技术
在新加坡,Tableau公司新数据准备工具发布会上,发言人表示,数据分析日益盛行的原因在于数据量呈指数级增长以 […]
-
攻关克难:大数据系统中的预测技术
大数据分析近年来逐渐成为预测分析技术的代名词。这使得越来越多的人以为,任何用于预测分析的系统都必定涉及大数据; […]
-
让工业无忧 天泽智云发布工业智能应用孵化器GenPro
工业世界看似离我们遥远,却与我们的福祉紧密相连。数据和智能分析赋予我们更加广阔的视野,能够以预测的方式管理和避免还未发生的问题。
-
CardinalCommerce如何满足用户日益增长的数据分析需求?
通过使用Spark进行大数据分析,Visa全资附属公司CardinalCommerce在整个组织内加大了对数据的需求,并让更多的内部用户参与分析过程。