如果查询没有得到适当地调整或工作负载不均衡,那么大数据系统中的处理可能会变得很慢,这些问题需要对集群进行仔细地监控。 大数据系统中,数据并非唯一需要管理的内容。数据科学家和其他用户所运行的查询也必须进行监控,以确保他们不会在Hadoop和Spark集群中陷入困境。 Hadoop性能问题成为英国电信集团的一个痛点,因为随着生产应用程序开始激增,它的数据湖环境在2016年初开始迅速增长。
这家总部位于伦敦的公司的业务洞察和分析架构主管Jason Perkins表示:“我们的用户需求已经达到一个峰值。” Perkins说,最终,通信和电视服务提供商不得不“关闭”几个月内的新用户,同时向Hadoop系统……
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
解决Hadoop查询的问题
LinkedIn公司在Hadoop和Spark环境中也遇到了类似的问题,该公司已经在数千个用户访问的多个集群中成长为超过1万个节点。是LinkedIn的高级工程师及Hadoop开发团队的负责人Carl Steinbach说,公司发现,如果个人工作没有得到适当的调整,整体的处理性能将会受到影响。 起初,Hadoop团队试图通过与用户会面来审查建议的查询并建议更改,从而避免这些问题。但Steinbach说,“这可能需要几周的时间,然后用户不得不重新排队等待另一个会议。对他们和我的团队来说,这都浪费了很多时间。” 为了加速这一过程,LinkedIn开发了一款名为Dr. Elephant的工具,它可以监控Hadoop的性能,并识别出有问题的大数据查询。Steinbach解释说,基于网络的工具在自己的集群节点上运行,不断地分析系统日志,找到有问题的工作进程,然后提供解决问题的建议。 在追踪查询时,Dr. Elephant提供了一种“软治理模式”,Steinbach说,“它确实让我们看到了集群中发生的事情。每个人都有自己的看法,这激励着人们去做正确的事。” 软件供应商Pepperdata今年增加了一个基于Dr. Elephant的产品,用于管理Hadoop集群并管理其使用的一套工具。许多其他商业和开源集群管理工具也可从大数据平台供应商(如Cloudera和Hortonworks)以及类似于Pepperdata的第三方软件开发人员获得。适当的平衡可以控制成本
联想集团大数据资深经理Marc Gallman负责平衡工作负载,以最实惠的方式最大限度地发挥Hadoop的性能。在美国联想总部工作的Gallman负责监督大数据架构,将本地Hadoop集群与在Amazon Web Services云中运行的系统相结合。 Galler说,联想正在将大部分大数据处理工作转移到云端,以支持更多的市场营销和互联网点击流数据分析,而不是通过在本地集群中运行的批处理工作来完成。 他补充说,这样做的目标是让公司做完成更有针对性的营销,同时更有效地花费广告预算。 Gallman说,但是为了避免在数据处理上花费过多,在内部继续运行一些分析算法和查询是有意义的。他指出,“并不是每个算法都需要实时运行,通过这条管道驱动一切并不都是有益的。” 想了解更多关于Dr. Elephant的内容,请继续阅读:相关推荐
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
采矿设备制造商利用BI on Hadoop来挖掘数据
如果大数据要取得巨大成功,则需要提供给更多的最终用户群组。但广泛使用的商业智能工具尚不能轻松分析最大的大数据, […]
-
新Qlik Sense功能可用于云计算、AI和大数据
一年前,Qlik公司公布其长期计划,即将高级云计算、AI和大数据功能添加到其自助式BI和数据可视化软件中。现在 […]
-
Cambridge Analytica秘密收集Facebook数据表明对道德数据挖掘的需求
当有关Cambridge Analytica公司秘密收集Facebook数据的消息传出时,这暴露了一个薄弱环节 […]