对于大数据管理和分析应用程序云服务,用户的关注度正不断增长,而为了应对这一趋势,供应商已经开始努力简化Hadoop的云部署流程,并试图降低云端Hadoop的购买价格。 大数据和云计算现在对于Hadoop供应商和一些大数据技术公司来说,已经变得十分重要。这些公司正在尝试使用新方法,来简化用户部署Hadoop云系统的步骤,并降低用户的部署成本。 例如,Cloudera将计量功能加入其Cloudera Director工具中,以管理构建在Hadoop中的分布式集群。
这允许Cloudera用户采用一种基于使用的定价模型,而不必以节点为单位进行支付,这让他们能够运行一些因特定目的搭建起来的临时系统,使用……
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
对于大数据管理和分析应用程序云服务,用户的关注度正不断增长,而为了应对这一趋势,供应商已经开始努力简化Hadoop的云部署流程,并试图降低云端Hadoop的购买价格。
大数据和云计算现在对于Hadoop供应商和一些大数据技术公司来说,已经变得十分重要。这些公司正在尝试使用新方法,来简化用户部署Hadoop云系统的步骤,并降低用户的部署成本。
例如,Cloudera将计量功能加入其Cloudera Director工具中,以管理构建在Hadoop中的分布式集群。这允许Cloudera用户采用一种基于使用的定价模型,而不必以节点为单位进行支付,这让他们能够运行一些因特定目的搭建起来的临时系统,使用完后可以释放资源,从而避免成本的上升。
在单个Cloudera Director实例的大数据云环境中,用户现在可以在其中的多个区域内部署集群。此外,新版本的Cloudera Enterprise(一个基于Hadoop的大数据平台)实现了在Amazon Simple Storage Service(S3)数据存储上直接运行Apache Impala SQL-on-Hadoop 查询引擎。这使得不需要移动数据到Hadoop分布式文件系统就可以实现查询操作,这也为用户在AWS云上部署临时系统提供了便利。
按需定价以及对Impala-on-S3的支持,在Narasimhan Sampath看来是非常有用的,他是Choice Hotels International Inc.公司的系统架构师,这家公司在AWS云上运行着Cloudera-based集群,这些集群与Spark数据处理引擎和Kafka信息查询系统等技术协同工作,以支持各种自助分析应用程序。
把你的集群迁移到云上
在Strata + Hadoop World 2016会谈中,Sampath表示,Choice遵循了BYOC的方式,将自己的集群,以按需的方式部署到云环境。例如,营销部门的集群可以部署到云中,完成一项工作,然后释放资源。同样地,开发团队的集群每天运行12小时,然后在夜间关闭,以节省公司在AWS云上的投入。
Cloudera的计量定价方式非常适合这种情景,Sampath在会谈结束后说道。“我并不需要购买500个(Cloudera)许可证,除非我无时无刻都在使用这些资源。这和亚马逊的模型是一样的。”
他补充道,Choice过去六个月与Cloudera进行了十分紧密的合作,试图连接S3和Impala,Impala最初由Cloudera作为开源软件发布。Choice使用S3作为数据存储。Sampath说,Impala对新查询的支持为BYOC策略提供了额外的灵活性。
Cloudera负责云产品营销的主管David Tishgart表示,他们已经越来越乐意在客户中推广云。但直到现在,他们对临时系统也没有太好的解决方案,也不能随便增加或减少工作负载。他承认,由于这个原因,大多数Cloudera用户选择了在云中长期运行集群,而不是采取临时的方式。
追上Hadoop 云的脚步
随着越来越多的用户展示出对云的兴趣,Clouder需要与Amazon Elastic MapReduce(EMR),AWS提供的Hadoop云平台进行竞争。此外,Cloudera还发现,自己在与微软Azure HDInsight大数据云服务的竞争中也处于劣势,该平台基于Hortonworks Inc .的Hadoop的分布式环境。
根据Gartner分析师Merv Adrian所述,从用户数量的角度看,EMR已经让AWS成为了最大的Hadoop供应商。AWS最初落后于其他Apache Hadoop竞争对手,但两年前这种情况得以改变,现在AWS Hadoop用户数比其他厂商总和还要多。
Hortonworks还专注于扩展Hadoop云功能,他们表示,HDInsight现在运行着2.5版的Hortonworks数据平台(HDP)。此外,Hortonworks现在还支持Microsoft's Azure Active Directory service 和Apache Ranger的集成。(Apache Ranger是一个用来管理Hadoop数据安全性和用户访问权限的框架)
尽管与微软云环境关系密切,但Hortonworks也提供HDP的技术预览版,以便AWS用户使用Spark和Apache Hive搭建临时集群。“我们了解所有云环境上的工作负载情况,”该公司主管全球营销的高级副总裁Matt Morgan说道。
Paxata公司也开始使用云环境。这家自助服务数据准备软件的供应商提供了一个新工具,叫做Paxata Connect,它可以汇总运行在不同Hadoop集群上的数据,其中也包括独立云平台中的数据。Paxata首席产品官Nenshad Bardoliwalla说道,很多Hadoop的工作负载都已迁移到云,能够创建“临时”集群,运行特定的工作,然后释放资源,这种模式的诱惑十分巨大。
翻译
TechTarget特邀编辑。北京邮电大学计算机科学与技术专业硕士。熟悉软件开发流程,对系统管理,网络配置,数据库应用等方面有深入的理解和实践经验。现就职于IBM(中国)投资有限公司,从事IBM服务器相关软件的开发工作。业余时间喜欢游泳登山,爱健身,喜欢结交朋友。
相关推荐
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
数据太多Hold不住?Hadoop数据治理来“救场”
当LinkedIn还是一家规模较小的公司时,它从社交网站上获取的数据是如何被格式化和结构化的,似乎并没有人关注。
-
将数据治理工具渗透到企业中有多难?
对于主流大数据用户来说,数据治理是一个大问题。最近,IT供应商已经宣称使用开源以及商业数据治理工具来管理基于Hadoop的数据湖中的数据。
-
遇到Hadoop性能问题很头疼?监控集群很重要
大数据系统中,数据并非唯一需要管理的内容。数据科学家和其他用户所运行的查询也必须进行监控,以确保他们不会在Hadoop和Spark集群中陷入困境。