IT团队自己掌握大数据安全问题

日期: 2018-04-30 作者:Craig Stedman翻译:邹铮 来源:TechTarget中国 英文

三年前,当TMW Systems公司开始构建大数据环境来运行高级分析应用时,他们的第一步工作不是设计和部署基于Hadoop的架构,而是构建框架来确保数据安全性。

TMW公司执行副总裁兼首席技术官Timothy Leonard称:“我们从安全入手是希望我们的客户知道,他们的数据是受保护的。在构建安全后,我们才会构建其余部分。”

技术分析师和经验丰富的IT经理都认为,大数据安全问题应该摆在首位,而不应该放在Hadoop、Spark等相关技术后面。这部分是在于保护数据免遭盗窃或滥用的重要性,还有部分是因为企业通常需要在数据湖和其他大数据系统创建有效防御措施。

TMW公司主要为货运公司开发运输管理软件并收集其运营数据进行分析。目前该公司主要部署三层数据保护,首先是在该公司大数据架构部署的系统级安全–该架构是基于Hortonworks公司的Hadoop发行版。此外,数据安全和管理功能可确定谁有权访问信息以及在什么情况下访问。

最后,Leonard的团队构建的元数据层提供端到端数据志记录,可显示单个数据元素如何被使用以及被谁使用。这可让TMW跟踪敏感数据的使用以及运行审计来搜索可疑活动,例如,查看数据元素今天是否移动400次。

自我改进的安全项目

Leonard称,TMW公司使用两款开源工具–Apache Ranger和Knox来支持某些数据科学应用中基于角色的安全性,以及加密数据–无论是当数据存储在大数据环境还是在不同点移动时。

但其元数据库是DIY技术,TMW公司还创建了一个自定义数据字典,根据数据元素的敏感性来映射数据元素到不同安全级。Leonard说:“我们发现一些需要改建的地方,总体而言,大数据的安全级别还没有完全成熟。”

Gartner公司分析师Merv Adrian称,对于大数据安全问题,技术不成熟是用户面临的最大问题之一。这些技术包括当前可用于大数据环境以及大数据技术本身的数据安全工具及管理工具。

Hadoop、NoSQL数据库和其他大数据平台尚无法与内部部署相同水平的安全功能。此外,数据湖通常包含各种技术,而这些技术没有针对安全任务(例如活动日志记录和审计)进行一致配置。他解释说:“这很复杂。”

大数据安全问题

同时,目前市场上的商业和开源安全工具可解决部分(但不是全部)大数据问题。Adrian称:“很少有供应商可以覆盖这个领域。最终,企业用户需要从整体看待大数据安全,而现在,他们只能自己构建这种安全性。”

在2017年3月发布的报告中,Forrester Research公司分析师Brian Hopkins和Mike Gualtieri指出,为确保大数据生态系统中的技术更好地协同工作,我们必须要有通用框架来管理元数据、安全和数据管理。但Hortonworks及其竞争对手Cloudera和MapR Technologies走的是不同的路,他们提供的工具无法协同工作,他们也都无法提供用户所需的全部功能,另一个主要大数据平台供应商亚马逊云计算服务也同样如此。

Adrian指出,其他大数据安全问题还包括所涉及的数据量规模;如何使用来自新来源的数据,包括外部数据;在原始数据拉入数据湖时,缺乏前期数据分类;以及在混合环境中云端和内部系统间的数据移动。另外,数据科学家产生的分析结果也可能以不可预见的方式暴露敏感数据。

网络安全初创公司ProtectWise联合创始人兼首席技术官Gene Stevens称其公司设计了自己的内部大数据安全战略来解决数据采集、传输、处理、存储和使用等方面的问题。而且,与TMW一样,ProtectWise做了大量定制开发以满足其保护数据的需求–这些数据主要是从客户收集的网络操作数据,用于监控和分析。

为了从企业网络传输数据到AWS云端的数据湖,这家公司还构建了软件传感器,它可生成客户特定的加密密钥,以防止在发生数据泄露时将其他客户的数据也暴露给攻击者。这些密钥为一次性使用,随后将被丢弃。

安全漏洞顾虑

ProtectWise公司每天收集超过400亿数据记录,高达600TB,他们建立了自己的密钥管理系统来监控大部分数据传输,而不只是依赖AWS提供的系统。Stevens称:“我们对亚马逊很有信心,但如果他们密钥管理系统的任何漏洞,我们都不想要受到影响。”

此外,ProtectWise公司还开发了例程来加密Apache Spark处理引擎以及Cassandra NoSQL数据库DataStax Enterprise版中的数据,该公司使用该数据库与亚马逊EMR平台对实时和历史数据运行分析应用。Stevens称,目前Spark不支持ProtectWise需要的加密;Cassandra提供加密,但在受到巨大业绩影响下,该公司承担不起。

他表示他可以接受使用Spark和Cassandra等技术中的“安全友好型”嵌入式功能,“但我们更想要自己构建这些功能,因为这对业务至关重要。安全在我们的DNA中,我们必须认真对待安全。”

在应对大数据安全问题中,TMW公司的Leonard也是同样的做法,他指出:“保护公司Hadoop环境中的数据是我的首要工作。你要知道,开发大数据是一回事,但你最好先确保安全性。”

所有人都应联手确保大数据安全

根据Gartner公司Adrian的说法,对于很多数据管理专业人士来说,安全是一个未被重视的话题,他认为这需要改变,尤其是在企业面临大数据安全问题时。

数据管理团队需要更多地参与保护大数据系统的工作中。而对于基于不太成熟的Hadoop等技术构建的数据湖,安全是每个人的责任。

TMW公司的Leonard称,安全措施可结合改善数据管理和使用。除了支持安全审计,元数据存储库还可让其团队了解数据科学家是否在正确应用该公司大数据环境中的数据作为分析应用的一部分。

Leonard称:“我们发现,并不是他们没有被授权访问某个数据元素,而是当他们这样做时,他们的方式不正确。”因此,TMW公司的培训计划已经调整,以让数据科学家更好的了解如何使用这些数据。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

翻译

邹铮
邹铮

相关推荐