将定制的Spark和Hadoop试点项目转移到生产中是一项艰巨的任务,但容器技术缓解了这种艰难的过渡。 当团队试图将小型试点项目转变为面向数据科学团队和业务分析人员的大型运营应用程序时,Spark和Hadoop分析工作往往会遇到困难。对于许多人来说,这是他们在大数据分析之路上遇到的最大障碍。 配置的复杂性有时候也是绊脚石。
由一个单独的数据科学家构建的自定义配置的原型可能需要很长的时间来重新创建,一旦失败,是由一个更广泛的用户池共享。为了解决这些问题,一些人利用DevOps型容器和微服务技术将Spark和Hadoop组件衔接在一起。 “我们的数据科学团队和业务利益相关者不希望等待过长的时间,等我……
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
是在脚本中运行吗?
在容器中谈论大数据为时尚早。BlueData的联合创始人兼首席架构师Tom Phelan表示,到目前为止,Spark集群主要是在裸机服务器中实施。 Tom在最近在波士顿举行的Spark Summit East 2017年的演讲中表示,裸机意味着难以改变的架构和静态实施。 容器的实现可以使用脚本由手动完成,但是由于大数据管道组件较多,因此容器变得更具挑战性。他说,Spark常常是比较复杂的、协调工作负载的一部分,这些工作量并不一定容易适应容器的方法。 他告诉会议与会者,“必须要跨过容器管理者这一关。 这也是BlueData软件需要解决的问题之一。”弹性缩放的路径
Phelan表示,BlueData平台最近的更新解决了使用Spark的数据科学家(如咨询委员会)的实施需求。 BlueData最新版本在本月初推出,支持常用的Spark工具,如JupyterHub,RStudio Server和Zeppelin编程笔记本,作为预配置的Docker映像。目的是为数据科学带来更多DevOps风格的敏捷性。 使用Docker容器和其他微服务方法是实现应用程序部署自动化的驱动力。这些方法通常是弹性缩放的一个途径,它允许管理员根据工作负载来建立和分解计算资源。 这在云计算以及内部部署实施中日益普及,如果Spark和Hadoop的使用范围在企业中逐渐扩大,拥抱容器的加入未尝不是一件好事。相关推荐
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
数据分析是关于文化,而非技术
在新加坡,Tableau公司新数据准备工具发布会上,发言人表示,数据分析日益盛行的原因在于数据量呈指数级增长以 […]
-
攻关克难:大数据系统中的预测技术
大数据分析近年来逐渐成为预测分析技术的代名词。这使得越来越多的人以为,任何用于预测分析的系统都必定涉及大数据; […]
-
让工业无忧 天泽智云发布工业智能应用孵化器GenPro
工业世界看似离我们遥远,却与我们的福祉紧密相连。数据和智能分析赋予我们更加广阔的视野,能够以预测的方式管理和避免还未发生的问题。