尽管谷歌自己使用的数据基础架构软件不完全是Hadoop,但Hadoop平台却是在谷歌的影响下产生的。而谷歌向来以天才程序员和开发分布式程序闻名。
在波士顿儿童医院举行的数据仓库研究所会议上展示了一些谷歌的数据产品,他们的“技术主管”Jeromy Carriere也出席了这次会议。
Carriere分享了一些有趣的实例。谷歌的大数据程序的确是大。举个例子来说,谷歌在六个多小时内就会生成超过1PB的记录报表。这需要八千台计算机,实验可能要用坏几个磁盘驱动器。
Carriere表示,谷歌要构建基础架构管理工具才能支持大规模的数据通道。编写MapReduce程序还是容易的,“难的是版本、部署和配置”。为了完成这些任务和许多其他任务,公司聘请了一批骨干系统工程师。如果说基础架构就像是管道,那么工程师就可以被称为“未来的管道工人”了。
Carriere认为,谷歌的系统工程师都精通于系统管理。他说:“我们没有这堵墙。”Carriere引用了那句经常用来形容开发者的话——“把软件扔到墙外”,让系统管理员去搞定吧。
谷歌和开源软件的关系很特别。谷歌向来自己打造,绝不购买,它虽然没有正式地支持开源,但广为人知的是,它发表了很多有影响力的技术论文。
Hadoop两个主要组件HDFS和MapReduce都是在谷歌的技术论文的影响下形成的。另外,谷歌的Big Table也为Hadoop HBase做了铺垫。
谷歌诸多努力的背后,是改善现存关系型数据仓库方法和将其应用到分布式环境中的愿望。这是一项了不起的工作。
钻研数据分析
谷歌在数据分析领域发展了很长时间,这家举世闻名的公司如何管理收集来的信息,蕴藏着巨大的利益。谷歌的数据开发文化与众不同,资金充足,它开发分布式数据基础架构的能力也让大多数公司望尘莫及。
美国Athena IT解决方案咨询公司创始人Rick Sherman表示:“谷歌开发自己的软件来处理它们大量的非结构化数据,对于全世界来说都很有意义。”但他也提醒,能够玩转Hadoop基础架构管理的人才很不好找。谷歌的团队做起来尚不容易,普通公司做起来就更难了。
Sherman表示,未来在云端能够解决这一问题。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
翻译
相关推荐
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
采矿设备制造商利用BI on Hadoop来挖掘数据
如果大数据要取得巨大成功,则需要提供给更多的最终用户群组。但广泛使用的商业智能工具尚不能轻松分析最大的大数据, […]
-
学习迪士尼的分析之道
华特迪士尼公司正在继续增加对数据分析的投资,以改善其关键业务部门的客户体验。 该公司的业务包括公园和度假村、媒 […]
-
新Qlik Sense功能可用于云计算、AI和大数据
一年前,Qlik公司公布其长期计划,即将高级云计算、AI和大数据功能添加到其自助式BI和数据可视化软件中。现在 […]