厂商都喜欢新鲜的概念,总是争先恐后地把它们用到自己的产品宣传当中去。在新一轮竞争中,许多公司都使用“大数据”颠覆现有的一切。作为数据存储管理员,在当前环境中实现大数据管理时,您可能会认为这样做很奇怪。厂商们几乎是同时奔向大数据存储和大数据分析市场,所以您很可能会认为大数据存储就是大数据分析的前提。
然而,它们现在是两个相互独立的技术领域:其中一个专注于PB甚至EB级别的存储平台开发(大数据存储),而另一个则专注于以最少的时间实现大型分散数据集的处理(大数据分析)。 但是,对于存储管理而言,在这两种技术趋势之中,至少有两个方面变得越来越重要。首先,大数据分析过程明显与传统数据仓库不同,它已悄然……
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
厂商都喜欢新鲜的概念,总是争先恐后地把它们用到自己的产品宣传当中去。在新一轮竞争中,许多公司都使用“大数据”颠覆现有的一切。作为数据存储管理员,在当前环境中实现大数据管理时,您可能会认为这样做很奇怪。厂商们几乎是同时奔向大数据存储和大数据分析市场,所以您很可能会认为大数据存储就是大数据分析的前提。然而,它们现在是两个相互独立的技术领域:其中一个专注于PB甚至EB级别的存储平台开发(大数据存储),而另一个则专注于以最少的时间实现大型分散数据集的处理(大数据分析)。
但是,对于存储管理而言,在这两种技术趋势之中,至少有两个方面变得越来越重要。首先,大数据分析过程明显与传统数据仓库不同,它已悄然进入企业的业务部门和数据中心部门。这正是存储管理员发挥作用的地方。随着他们所依赖的平台(Hadoop等)与业务的关系越来越密切,用户会更多地依赖这些平台来实现企业安全、数据保护和数据管理策略。
第二,分布式计算在数据分析平台中使用的存储技术并不是现有的NAS和SAN,而是组成集群的分布式计算节点之间和之中的DAS。(后文将解释这其中的原因。)这样会增加大数据管理的复杂性,因为您无法像以前一样在数据上应用安全性、保护和保存过程。然而,管理分布式计算集群必须应用这些策略,而且这会改变计算层与存储层的交互方式。
本文是大数据管理系列文章的第一篇,我们将介绍大数据分析与传统数据仓库之间的区别,以及作为大数据分析基础的分布式计算集群。然后,我们将介绍分布式计算的存储,同时深入介绍如何使用Hadoop创建和使用存储层。接着,我们将介绍一个三级存储模型,它会在Hadoop存储层中加入NAS和SAN。最后,我们将使用存储管理员用于评估存储阵列的相同决策点来评估Hadoop作为存储设备的可行性。
区分大数据分析与传统数据仓库
大数据分析领域的技术差异性越来越大。因此,现在就尝试将它定义为一种技术构成(如Hadoop)是毫无意义的。然而,确定大数据分析通用技术的作用很明显的,其中包括:
- 传统数据仓库过程性能过慢,而且可扩展性有限。
- 聚合多种数据源的数据——包括结构化和非结构化数据。
- 对于从非结构化数据源提取值而言,提取时间信息非常重要,这些数据源包括移动设备、RFID、Web和越来越多的自动化检测技术。
传统数据仓库一般会从现有的关系数据库提取数据。然而,预计超过80%的企业存储数据是非结构化的——数据不是保存在关系数据库管理系统(RDBMS)。通常,根据讨论的目的,非结构化数据都是那些不适合存储到结构化关系数据库的数据。非结构化数据类型是指从以下数据源提取的数据:
- 电子邮件及其他形式的电子通信方式
- 基于Web的内容,包括点击流和社交化媒体内容
- 数字化语音和视频
- 机器生成的数据(RFID、GPS、传感器生成的数据、日志文件等)和互联网内容
在大数据分析环境中,一定要认识到这些数据类型远远多于RDBMS数据类型——代表各种各样新型的重要信息源。由于每年非结构化数据的增长速度是结构化数据的10至50倍,因此从业务角度看,这些数据变得越来越重要。
为什么需要新技术?
从大数据分析角度看,业务主管的挑战在于从这些数据源捕捉数据,然后执行一些分析过程,发现它们的信息价值。传统数据仓库技术不适合在相对较短时间内(5秒左右)处理大容量非结构化数据,所以必须使用新的大数据管理方法。
接下来是分布式计算集群。分布式计算集群的概念已经出现很多年了,但是大部分时候都属于IT边缘技术。在2004年,谷歌发布了一个使用这种架构的过程MapReduce。在MapReduce过程下,查询分布在各个并行节点中,而且采用并行方式进行处理(Map步骤)。然后,再收集和传输结果(Reduce步骤)。在谷歌取得成功之后,其他公司也希望复制这个过程。MapReduce从一个谷歌单独拥有的框架,逐渐演变为Apache的开源项目Hadoop。
在系列文章第二部分,我们将从分布式计算集群角度更深入地介绍存储,然后主要介绍Hadoop使用存储的方法。敬请期待。
作者
翻译
TechTarget中国特约技术编辑,某高校计算机科学专业教师和网络实验室负责人,曾任职某网络国际厂商,关注数据中心、开发运维、数据库及软件开发技术。有多本关于思科数据中心和虚拟化技术的译著,如《思科绿色数据中心建设与管理》和《基于IP的能源管理》等。
相关推荐
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
数据分析是关于文化,而非技术
在新加坡,Tableau公司新数据准备工具发布会上,发言人表示,数据分析日益盛行的原因在于数据量呈指数级增长以 […]
-
攻关克难:大数据系统中的预测技术
大数据分析近年来逐渐成为预测分析技术的代名词。这使得越来越多的人以为,任何用于预测分析的系统都必定涉及大数据; […]
-
让工业无忧 天泽智云发布工业智能应用孵化器GenPro
工业世界看似离我们遥远,却与我们的福祉紧密相连。数据和智能分析赋予我们更加广阔的视野,能够以预测的方式管理和避免还未发生的问题。