Apache软件基金会最近发布了Hadoop 2,这个最新版本的开源平台具有高扩展性和分布式计算等特点。Hadoop 2包含了一些新功能,比如重新设计的资源管理器YARN。Apache宣称YARN是一款能够同时运行多个大数据应用的高扩展分布处理系统。
但Hadoop 2也让一直困扰大数据公司的一个问题重新引起关注:大数据人才的供不应求。
Modus Operandi是一家运行Hadoop的小公司,它为政府机构提供数据管理和分析技术,包括美国海军和美国陆战队等。Modus Operandi公司的副总裁兼首席科学家Eric Little博士认为,“技术人才很稀缺”。公司在和大的软件供应商和拥有更多资源的用户组织争夺技术人才。
Little表示:“即便是大公司,也找不到技术人才。难道让我们和IBM、苹果、谷歌、亚马逊、雅虎这些巨头去竞争吗?”
要解决这一问题也不是没有办法。比如,公司可以重金聘请Hadoop专家。不过很多公司心有余而力不足。
或者,企业可以在内部培养大数据人才。在Little的公司,高级工程师花费大量的时间培训新人,这样就有一批稳定的员工熟知大数据分析技术。同时,一些大的项目,他们可以委托给Cloudera, Hortonworks和MapR等Hadoop供应商。Gartner的数据调查显示,到2016年,组织只能拥有需要的大数据人才的三分之一。
不过Gartner的分析师Merv Adrian也表示:“实际上,这些技术人才都会流向排名前1000的企业和大的系统集成商。他们会倾向于软件企业。剩下的就要小公司去抢了。”
稀缺的技术人才
很多组织早就开始在内部寻求Hadoop或其他大数据部署的人才,其中不只有IT工作者。一些非技术人员也参与到大数据技术中来,虽然人数少,但却有逐渐增长的趋势。他们成为了Hadoop的先锋。
Adrian认为,“他们往往被忽视了。他们自己搭建想要的东西,在亚马逊上使用,或者下载免费的发行版。在很多公司,他们都是内部招聘的。识别可用的技能也是一个有趣的机会啊!”
Modus Operandi推荐每一个对Hadoop感兴趣的人都参加供应商举办的培训课程,比如Cloudera。这样才能缓解技术人才稀缺的困境。
Little认为,在招募和培训新人的时候,需要思路开阔。比如一个有数学背景的人就比一个计算机背景的人更有发展。
“因为Hadoop需要很强的数学能力。经验告诉我,只有精通算法的人才能胜任这项工作,这也就要求他们具备很强的数学能力。”
启用或实验Hadoop 2.0的公司都希望能够了解开源工程的生态系统。比如Hive, Pig, Mahout, ZooKeeper, Flume和Sqoop。
Adrian表示:“最近比较火的一个项目是Ambari,是一个Hadoop的管理环境。要想应用Hadoop,必须了解Ambari。”
部署Hadoop
虽然组织在启动Hadoop项目的时候都希望有供应商的支持,但组织完全可以独立完成部署。
Adrian表示:“很多早期的用户采用的都是纯净版的Apache,并一直在运行。通常,高管们都不愿意去护理、保养、升级、维护、集成测试、回归测试和移植。”
组织应该与主流Hadoop发行版供应商紧密合作,比如Cloudera、MapR或者Hortonworks。其他的供应商,像Intel和EMC也都在今年年初发布了自己的发行版产品并提供支持。
不过组织与供应商的合作可以这样展开:要想实现大数据,需要很多开源项目。除了YARN,Hadoop 2主要的组成部分还包括Hadoop分布式文件系统(HDFS)和MapReduce。其他开源工程有自己的管理和运行速度。分销商需要事先集成开源系统,然后向用户提供开发环境和运营指标。
Hadoop 2的新功能
组织除了应对大数据技术人才稀缺的难题之外,还应该了解一下Hadoop 2.0的新功能。
数据管理软件公司RedPoint Global的联合创始人和首席技术官George Corugedo认为,Hadoop 2中新增的YARN功能很重要,因为有了它用户可以更容易地在不同程序之间创建和分享功能。YARN是Yet Another Resource Negotiator(另一种资源协调者)的简称,也被称为MapReduce 2.0,因为它作为Hadoop 2的资源管理工具,已经替代了之前的MapReduce。
Hadoop 2还为HDFS提供了高可用性和联合功能。支持微软桌面,还具有对存储在HDFS中的数据的快照功能。
Corugedo认为,开始应用这些技术的组织应该既有全局眼光,有能把握细节。“其实Hadoop和其他新技术一样,信誉和技术是最重要的,千万不要落入炒作的陷阱。”
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
翻译
相关推荐
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
采矿设备制造商利用BI on Hadoop来挖掘数据
如果大数据要取得巨大成功,则需要提供给更多的最终用户群组。但广泛使用的商业智能工具尚不能轻松分析最大的大数据, […]
-
新Qlik Sense功能可用于云计算、AI和大数据
一年前,Qlik公司公布其长期计划,即将高级云计算、AI和大数据功能添加到其自助式BI和数据可视化软件中。现在 […]
-
Cambridge Analytica秘密收集Facebook数据表明对道德数据挖掘的需求
当有关Cambridge Analytica公司秘密收集Facebook数据的消息传出时,这暴露了一个薄弱环节 […]