Databricks通过自动配置选项来简化Spark计算

日期: 2017-08-14 作者:Ed Burns翻译:乔俊婧 来源:TechTarget中国 英文

Databricks为其管理的Spark平台带来了新功能,以及开源Spark,希望能够使计算引擎更广泛地使用。 Apache Spark的使用一直以来都非常复杂。数据提供商Databricks正在寻求通过自动配置选项来简化Spark计算。该公司是Spark开发的推动力量,也是提供Spark计算服务的供应商之一。

在旧金山举行的2017 Spark峰会上,Databricks发布了一款名为Serverless的新产品,它将进一步推进公司管理型Spark平台的概念。 在Serverless之前,Databricks的价值主张是管理Spark在服务器上的安装,然后通过云提供对这些受管服务器的访问。 ……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

Databricks为其管理的Spark平台带来了新功能,以及开源Spark,希望能够使计算引擎更广泛地使用。 Apache Spark的使用一直以来都非常复杂。数据提供商Databricks正在寻求通过自动配置选项来简化Spark计算。该公司是Spark开发的推动力量,也是提供Spark计算服务的供应商之一。 在旧金山举行的2017 Spark峰会上,Databricks发布了一款名为Serverless的新产品,它将进一步推进公司管理型Spark平台的概念。 在Serverless之前,Databricks的价值主张是管理Spark在服务器上的安装,然后通过云提供对这些受管服务器的访问。 但是一旦客户通过Databricks购买了Spark资源,就可以在他们的集群上配置软件。这意味着将资源分配给特定工作负载,并定义与数据存储和安全性相关的其他配置设置。 在没有服务器的情况下,Databricks正在做更多的配置。企业可以告诉Databricks,他们希望的集群规模大小,而且当他们进入集群时,服务会自动将资源分配给工作负载。 位于旧金山的Databricks首席技术官和Apache Spark的创始人Matei Zaharia表示,公司的目标是使Spark不再是数据工程师的工具,并将其开放给数据科学家和一般业务分析师。Zaharia说,通过自动化Spark计算集群的更多配置并简化执行工作的过程,公司内更多的员工将能够使用该工具。 “这是我们想要这么做的主要原因之一,”他说,“随着Spark用户群的增长,你需要让它变得更简单。” 服务器的价格与Databricks的传统产品一样,数据工程工作的每个Databricks单位(每小时处理能力的单位)为0.20美元。 每个Databricks单元的分析工作负载为0.40美元。 除了开源Spark,Zaharia和他的团队还宣布了一个新的机器学习库,与无服务器声明一样,新的机器学习库的目标是降低深度学习和人工智能这一复杂世界的门槛。 新的机器学习库为流行的机器学习工具TensorFlow和Keras添加了一个管道操作符。这两种工具在机器学习方面已经取得了一定的进展,部分原因是它们的简单界面。新增的管道操作符允许用户使用Spark计算作为数据处理后端来开发这些接口中的模型。 Zaharia说,这有助于解决许多用户在机器学习中遇到的扩展问题。许多用于开发机器学习模型的工具都是桌面或开源软件。它通常需要一些重新编码来从这些工具中获取模型并将其投入生产。开发用于数据处理的企业级Spark集群的工具模型可以最大程度的减少这个问题。 Zaharia说:“深度学习是非常强大的,但它需要大量的工作。我们认为,通过这些高级API,你可以得到同样的结果,而且速度更快。”

作者

Ed Burns
Ed Burns

TechTarget网站编辑,重点关注商务智能、数据分析和数据可视化技术。

翻译

乔俊婧
乔俊婧

关注商务智能及虚拟化领域技术发展,专注网站内容策划、组稿和编辑, 负责《数据价值》电子杂志的策划和撰稿。喜欢桌游,热爱音乐,吃货一枚。

相关推荐