大数据管理第一部分:技术差异化

日期: 2012-06-20 作者:John Webster翻译:曾少宁 来源:TechTarget中国 英文

厂商都喜欢新鲜的概念,总是争先恐后地把它们用到自己的产品宣传当中去。在新一轮竞争中,许多公司都使用“大数据”颠覆现有的一切。作为数据存储管理员,在当前环境中实现大数据管理时,您可能会认为这样做很奇怪。厂商们几乎是同时奔向大数据存储和大数据分析市场,所以您很可能会认为大数据存储就是大数据分析的前提。

然而,它们现在是两个相互独立的技术领域:其中一个专注于PB甚至EB级别的存储平台开发(大数据存储),而另一个则专注于以最少的时间实现大型分散数据集的处理(大数据分析)。   但是,对于存储管理而言,在这两种技术趋势之中,至少有两个方面变得越来越重要。首先,大数据分析过程明显与传统数据仓库不同,它已悄然……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

厂商都喜欢新鲜的概念,总是争先恐后地把它们用到自己的产品宣传当中去。在新一轮竞争中,许多公司都使用“大数据”颠覆现有的一切。作为数据存储管理员,在当前环境中实现大数据管理时,您可能会认为这样做很奇怪。厂商们几乎是同时奔向大数据存储和大数据分析市场,所以您很可能会认为大数据存储就是大数据分析的前提。然而,它们现在是两个相互独立的技术领域:其中一个专注于PB甚至EB级别的存储平台开发(大数据存储),而另一个则专注于以最少的时间实现大型分散数据集的处理(大数据分析)。

  但是,对于存储管理而言,在这两种技术趋势之中,至少有两个方面变得越来越重要。首先,大数据分析过程明显与传统数据仓库不同,它已悄然进入企业的业务部门和数据中心部门。这正是存储管理员发挥作用的地方。随着他们所依赖的平台(Hadoop等)与业务的关系越来越密切,用户会更多地依赖这些平台来实现企业安全、数据保护和数据管理策略。

  第二,分布式计算在数据分析平台中使用的存储技术并不是现有的NAS和SAN,而是组成集群的分布式计算节点之间和之中的DAS。(后文将解释这其中的原因。)这样会增加大数据管理的复杂性,因为您无法像以前一样在数据上应用安全性、保护和保存过程。然而,管理分布式计算集群必须应用这些策略,而且这会改变计算层与存储层的交互方式。

  本文是大数据管理系列文章的第一篇,我们将介绍大数据分析与传统数据仓库之间的区别,以及作为大数据分析基础的分布式计算集群。然后,我们将介绍分布式计算的存储,同时深入介绍如何使用Hadoop创建和使用存储层。接着,我们将介绍一个三级存储模型,它会在Hadoop存储层中加入NAS和SAN。最后,我们将使用存储管理员用于评估存储阵列的相同决策点来评估Hadoop作为存储设备的可行性。

  区分大数据分析与传统数据仓库

  大数据分析领域的技术差异性越来越大。因此,现在就尝试将它定义为一种技术构成(如Hadoop)是毫无意义的。然而,确定大数据分析通用技术的作用很明显的,其中包括:

  • 传统数据仓库过程性能过慢,而且可扩展性有限。
  • 聚合多种数据源的数据——包括结构化和非结构化数据。
  • 对于从非结构化数据源提取值而言,提取时间信息非常重要,这些数据源包括移动设备、RFID、Web和越来越多的自动化检测技术。

  传统数据仓库一般会从现有的关系数据库提取数据。然而,预计超过80%的企业存储数据是非结构化的——数据不是保存在关系数据库管理系统(RDBMS)。通常,根据讨论的目的,非结构化数据都是那些不适合存储到结构化关系数据库的数据。非结构化数据类型是指从以下数据源提取的数据:

  • 电子邮件及其他形式的电子通信方式
  • 基于Web的内容,包括点击流和社交化媒体内容
  • 数字化语音和视频
  • 机器生成的数据(RFID、GPS、传感器生成的数据、日志文件等)和互联网内容

  在大数据分析环境中,一定要认识到这些数据类型远远多于RDBMS数据类型——代表各种各样新型的重要信息源。由于每年非结构化数据的增长速度是结构化数据的10至50倍,因此从业务角度看,这些数据变得越来越重要。

  为什么需要新技术?

  从大数据分析角度看,业务主管的挑战在于从这些数据源捕捉数据,然后执行一些分析过程,发现它们的信息价值。传统数据仓库技术不适合在相对较短时间内(5秒左右)处理大容量非结构化数据,所以必须使用新的大数据管理方法。

  接下来是分布式计算集群。分布式计算集群的概念已经出现很多年了,但是大部分时候都属于IT边缘技术。在2004年,谷歌发布了一个使用这种架构的过程MapReduce。在MapReduce过程下,查询分布在各个并行节点中,而且采用并行方式进行处理(Map步骤)。然后,再收集和传输结果(Reduce步骤)。在谷歌取得成功之后,其他公司也希望复制这个过程。MapReduce从一个谷歌单独拥有的框架,逐渐演变为Apache的开源项目Hadoop。

  在系列文章第二部分,我们将从分布式计算集群角度更深入地介绍存储,然后主要介绍Hadoop使用存储的方法。敬请期待。

翻译

曾少宁
曾少宁

TechTarget中国特约技术编辑,某高校计算机科学专业教师和网络实验室负责人,曾任职某网络国际厂商,关注数据中心、开发运维、数据库及软件开发技术。有多本关于思科数据中心和虚拟化技术的译著,如《思科绿色数据中心建设与管理》和《基于IP的能源管理》等。

相关推荐