自从人类基因组计划在2000年获得了人类基因的第一组工作草图,基因排序的成本大幅下降,从每基因1亿美元降到今天的1000美元。同一时期内,我们看到像Hadoop一样的大数据技术,在存储和处理能力上取得了巨大的提升。
“基因排序成本的降低和大数据技术的提升,意味着我们现在有能力对病人基因进行广泛排序并产生之前无法得到的数据集。” Cloudera的生命科学部门负责人Shawn Dolley说。
Cloudera在全球范围内提供基于Apache Hadoop和最新开源科技的快速、便捷以及安全的数据管理及分析平台。近日,Cloudera宣布与隶属于麻省理工大学和哈佛大学的博德研究所合作。该研究所是世界领先的生物医学和基因研究中心。今年两个组织一起致力于推进博德研究所下一代基因分析工具GATK4的发展。
通过向专注于个性化病人体验的临床医生、研究人员和供应商提供实时数据,Cloudera企业版加速生命科学研究和药品研发。在Cloudera企业版上构建的第4代GATK(GATK4),使用Spark分布式计算机网络来加速研究,博德研究所提升了对基因序列的理解,能够对数据加速挖掘,最终获得更佳的临床决定。
“建立基于Spark的下一代工具很大程度上加速了内存计算,并推进了并行性。Cloudera企业版加速了数据探索的访问和计算的回路,大幅降低了研发时间。这是一个科学上具有深远意义的进步,”Dolley说。
目前有超过31000名GATK的注册用户。博德研究所与合作者致力于发展云托管选项,来扩大数据访问,促进基因分析工具的使用,使其产生更强的洞察力和决策能力。用户也可以更容易创建最佳实践途径,避免重复建造基础设施。
“在Cloudera企业版中使用Spark计算框架,给予了我们在GATK3上因其计算复杂程度无法实现的工具”,博德研究所数据科学和数据工程高级总监、GATK软件包创始人Eric Banks博士说,“在Cloudera企业版上,我们可以以快于前代版本GATK二个数量级的速度来运行基因数据分析,加速反复分析,推进基因创新。”
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
相关推荐
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
数据太多Hold不住?Hadoop数据治理来“救场”
当LinkedIn还是一家规模较小的公司时,它从社交网站上获取的数据是如何被格式化和结构化的,似乎并没有人关注。
-
将数据治理工具渗透到企业中有多难?
对于主流大数据用户来说,数据治理是一个大问题。最近,IT供应商已经宣称使用开源以及商业数据治理工具来管理基于Hadoop的数据湖中的数据。
-
遇到Hadoop性能问题很头疼?监控集群很重要
大数据系统中,数据并非唯一需要管理的内容。数据科学家和其他用户所运行的查询也必须进行监控,以确保他们不会在Hadoop和Spark集群中陷入困境。