遇到Hadoop性能问题很头疼?监控集群很重要

日期: 2017-07-17 作者:Craig Stedman翻译:乔俊婧 来源:TechTarget中国 英文

如果查询没有得到适当地调整或工作负载不均衡,那么大数据系统中的处理可能会变得很慢,这些问题需要对集群进行仔细地监控。 大数据系统中,数据并非唯一需要管理的内容。数据科学家和其他用户所运行的查询也必须进行监控,以确保他们不会在Hadoop和Spark集群中陷入困境。 Hadoop性能问题成为英国电信集团的一个痛点,因为随着生产应用程序开始激增,它的数据湖环境在2016年初开始迅速增长。

这家总部位于伦敦的公司的业务洞察和分析架构主管Jason Perkins表示:“我们的用户需求已经达到一个峰值。” Perkins说,最终,通信和电视服务提供商不得不“关闭”几个月内的新用户,同时向Hadoop系统……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

如果查询没有得到适当地调整或工作负载不均衡,那么大数据系统中的处理可能会变得很慢,这些问题需要对集群进行仔细地监控。 大数据系统中,数据并非唯一需要管理的内容。数据科学家和其他用户所运行的查询也必须进行监控,以确保他们不会在Hadoop和Spark集群中陷入困境。 Hadoop性能问题成为英国电信集团的一个痛点,因为随着生产应用程序开始激增,它的数据湖环境在2016年初开始迅速增长。这家总部位于伦敦的公司的业务洞察和分析架构主管Jason Perkins表示:“我们的用户需求已经达到一个峰值。” Perkins说,最终,通信和电视服务提供商不得不“关闭”几个月内的新用户,同时向Hadoop系统增加了更多的计算节点。他补充说,平衡大数据处理工作中非常复杂的工作量仍然是一个挑战。英国电信计划将集群中的应用数量从4月份的100个增加到年底的500个,这可能是一项更大的挑战。

解决Hadoop查询的问题

LinkedIn公司在Hadoop和Spark环境中也遇到了类似的问题,该公司已经在数千个用户访问的多个集群中成长为超过1万个节点。是LinkedIn的高级工程师及Hadoop开发团队的负责人Carl Steinbach说,公司发现,如果个人工作没有得到适当的调整,整体的处理性能将会受到影响。 起初,Hadoop团队试图通过与用户会面来审查建议的查询并建议更改,从而避免这些问题。但Steinbach说,“这可能需要几周的时间,然后用户不得不重新排队等待另一个会议。对他们和我的团队来说,这都浪费了很多时间。” 为了加速这一过程,LinkedIn开发了一款名为Dr. Elephant的工具,它可以监控Hadoop的性能,并识别出有问题的大数据查询。Steinbach解释说,基于网络的工具在自己的集群节点上运行,不断地分析系统日志,找到有问题的工作进程,然后提供解决问题的建议。 在追踪查询时,Dr. Elephant提供了一种“软治理模式”,Steinbach说,“它确实让我们看到了集群中发生的事情。每个人都有自己的看法,这激励着人们去做正确的事。” 软件供应商Pepperdata今年增加了一个基于Dr. Elephant的产品,用于管理Hadoop集群并管理其使用的一套工具。许多其他商业和开源集群管理工具也可从大数据平台供应商(如Cloudera和Hortonworks)以及类似于Pepperdata的第三方软件开发人员获得。

适当的平衡可以控制成本

联想集团大数据资深经理Marc Gallman负责平衡工作负载,以最实惠的方式最大限度地发挥Hadoop的性能。在美国联想总部工作的Gallman负责监督大数据架构,将本地Hadoop集群与在Amazon Web Services云中运行的系统相结合。 Galler说,联想正在将大部分大数据处理工作转移到云端,以支持更多的市场营销和互联网点击流数据分析,而不是通过在本地集群中运行的批处理工作来完成。 他补充说,这样做的目标是让公司做完成更有针对性的营销,同时更有效地花费广告预算。 Gallman说,但是为了避免在数据处理上花费过多,在内部继续运行一些分析算法和查询是有意义的。他指出,“并不是每个算法都需要实时运行,通过这条管道驱动一切并不都是有益的。” 想了解更多关于Dr. Elephant的内容,请继续阅读:

翻译

乔俊婧
乔俊婧

关注商务智能及虚拟化领域技术发展,专注网站内容策划、组稿和编辑, 负责《数据价值》电子杂志的策划和撰稿。喜欢桌游,热爱音乐,吃货一枚。

相关推荐