谷歌大数据基础架构:不要轻易尝试?

日期: 2013-10-16 作者:Jack Vaughan翻译:陈洪钰 来源:TechTarget中国 英文

尽管谷歌自己使用的数据基础架构软件不完全是Hadoop,但Hadoop平台却是在谷歌的影响下产生的。而谷歌向来以天才程序员和开发分布式程序闻名。

在波士顿儿童医院举行的数据仓库研究所会议上展示了一些谷歌的数据产品,他们的“技术主管”Jeromy Carriere也出席了这次会议。

Carriere分享了一些有趣的实例。谷歌的大数据程序的确是大。举个例子来说,谷歌在六个多小时内就会生成超过1PB的记录报表。这需要八千台计算机,实验可能要用坏几个磁盘驱动器。

Carriere表示,谷歌要构建基础架构管理工具才能支持大规模的数据通道。编写MapReduce程序还是容易的,“难的是版本、部署和配置”。为了完成这些任务和许多其他任务,公司聘请了一批骨干系统工程师。如果说基础架构就像是管道,那么工程师就可以被称为“未来的管道工人”了。

Carriere认为,谷歌的系统工程师都精通于系统管理。他说:“我们没有这堵墙。”Carriere引用了那句经常用来形容开发者的话——“把软件扔到墙外”,让系统管理员去搞定吧。

谷歌和开源软件的关系很特别。谷歌向来自己打造,绝不购买,它虽然没有正式地支持开源,但广为人知的是,它发表了很多有影响力的技术论文。

Hadoop两个主要组件HDFS和MapReduce都是在谷歌的技术论文的影响下形成的。另外,谷歌的Big Table也为Hadoop HBase做了铺垫。

谷歌诸多努力的背后,是改善现存关系型数据仓库方法和将其应用到分布式环境中的愿望。这是一项了不起的工作。

钻研数据分析

谷歌在数据分析领域发展了很长时间,这家举世闻名的公司如何管理收集来的信息,蕴藏着巨大的利益。谷歌的数据开发文化与众不同,资金充足,它开发分布式数据基础架构的能力也让大多数公司望尘莫及。

美国Athena IT解决方案咨询公司创始人Rick Sherman表示:“谷歌开发自己的软件来处理它们大量的非结构化数据,对于全世界来说都很有意义。”但他也提醒,能够玩转Hadoop基础架构管理的人才很不好找。谷歌的团队做起来尚不容易,普通公司做起来就更难了。

Sherman表示,未来在云端能够解决这一问题。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

作者

Jack Vaughan
Jack Vaughan

TechTarget新闻记者和网站编辑,主要关注数据管理领域的技术趋势和动态。

相关推荐