大数据管理第一部分：技术差异化

厂商都喜欢新鲜的概念，总是争先恐后地把它们用到自己的产品宣传当中去。在新一轮竞争中，许多公司都使用“大数据”颠覆现有的一切。作为数据存储管理员，在当前环境中实现大数据管理时，您可能会认为这样做很奇怪。厂商们几乎是同时奔向大数据存储和大数据分析市场，所以您很可能会认为大数据存储就是大数据分析的前提。

然而，它们现在是两个相互独立的技术领域：其中一个专注于PB甚至EB级别的存储平台开发（大数据存储），而另一个则专注于以最少的时间实现大型分散数据集的处理（大数据分析）。　　但是，对于存储管理而言，在这两种技术趋势之中，至少有两个方面变得越来越重要。首先，大数据分析过程明显与传统数据仓库不同，它已悄然……

查看全文

我们一直都在努力坚持原创.......请不要一声不吭，就悄悄拿走。

我原创，你原创，我们的内容世界才会更加精彩！

【所有原创内容版权均属TechTarget，欢迎大家转发分享。但未经授权，严禁任何媒体（平面媒体、网络媒体、自媒体等）以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget

官方微博

TechTarget中国

取消回复

要发表评论，您必须先登录。

厂商都喜欢新鲜的概念，总是争先恐后地把它们用到自己的产品宣传当中去。在新一轮竞争中，许多公司都使用“大数据”颠覆现有的一切。作为数据存储管理员，在当前环境中实现大数据管理时，您可能会认为这样做很奇怪。厂商们几乎是同时奔向大数据存储和大数据分析市场，所以您很可能会认为大数据存储就是大数据分析的前提。然而，它们现在是两个相互独立的技术领域：其中一个专注于PB甚至EB级别的存储平台开发（大数据存储），而另一个则专注于以最少的时间实现大型分散数据集的处理（大数据分析）。

　　但是，对于存储管理而言，在这两种技术趋势之中，至少有两个方面变得越来越重要。首先，大数据分析过程明显与传统数据仓库不同，它已悄然进入企业的业务部门和数据中心部门。这正是存储管理员发挥作用的地方。随着他们所依赖的平台（Hadoop等）与业务的关系越来越密切，用户会更多地依赖这些平台来实现企业安全、数据保护和数据管理策略。

　　第二，分布式计算在数据分析平台中使用的存储技术并不是现有的NAS和SAN，而是组成集群的分布式计算节点之间和之中的DAS。（后文将解释这其中的原因。）这样会增加大数据管理的复杂性，因为您无法像以前一样在数据上应用安全性、保护和保存过程。然而，管理分布式计算集群必须应用这些策略，而且这会改变计算层与存储层的交互方式。

　　本文是大数据管理系列文章的第一篇，我们将介绍大数据分析与传统数据仓库之间的区别，以及作为大数据分析基础的分布式计算集群。然后，我们将介绍分布式计算的存储，同时深入介绍如何使用Hadoop创建和使用存储层。接着，我们将介绍一个三级存储模型，它会在Hadoop存储层中加入NAS和SAN。最后，我们将使用存储管理员用于评估存储阵列的相同决策点来评估Hadoop作为存储设备的可行性。

　　区分大数据分析与传统数据仓库

　　大数据分析领域的技术差异性越来越大。因此，现在就尝试将它定义为一种技术构成（如Hadoop）是毫无意义的。然而，确定大数据分析通用技术的作用很明显的，其中包括：

传统数据仓库过程性能过慢，而且可扩展性有限。
聚合多种数据源的数据——包括结构化和非结构化数据。
对于从非结构化数据源提取值而言，提取时间信息非常重要，这些数据源包括移动设备、RFID、Web和越来越多的自动化检测技术。

　　传统数据仓库一般会从现有的关系数据库提取数据。然而，预计超过80%的企业存储数据是非结构化的——数据不是保存在关系数据库管理系统（RDBMS）。通常，根据讨论的目的，非结构化数据都是那些不适合存储到结构化关系数据库的数据。非结构化数据类型是指从以下数据源提取的数据：

电子邮件及其他形式的电子通信方式
基于Web的内容，包括点击流和社交化媒体内容
数字化语音和视频
机器生成的数据（RFID、GPS、传感器生成的数据、日志文件等）和互联网内容

　　在大数据分析环境中，一定要认识到这些数据类型远远多于RDBMS数据类型——代表各种各样新型的重要信息源。由于每年非结构化数据的增长速度是结构化数据的10至50倍，因此从业务角度看，这些数据变得越来越重要。

　　为什么需要新技术？

　　从大数据分析角度看，业务主管的挑战在于从这些数据源捕捉数据，然后执行一些分析过程，发现它们的信息价值。传统数据仓库技术不适合在相对较短时间内（5秒左右）处理大容量非结构化数据，所以必须使用新的大数据管理方法。

　　接下来是分布式计算集群。分布式计算集群的概念已经出现很多年了，但是大部分时候都属于IT边缘技术。在2004年，谷歌发布了一个使用这种架构的过程MapReduce。在MapReduce过程下，查询分布在各个并行节点中，而且采用并行方式进行处理（Map步骤）。然后，再收集和传输结果（Reduce步骤）。在谷歌取得成功之后，其他公司也希望复制这个过程。MapReduce从一个谷歌单独拥有的框架，逐渐演变为Apache的开源项目Hadoop。

　　在系列文章第二部分，我们将从分布式计算集群角度更深入地介绍存储，然后主要介绍Hadoop使用存储的方法。敬请期待。

作者

: John Webster

翻译

: 曾少宁

TechTarget中国特约技术编辑，某高校计算机科学专业教师和网络实验室负责人，曾任职某网络国际厂商，关注数据中心、开发运维、数据库及软件开发技术。有多本关于思科数据中心和虚拟化技术的译著，如《思科绿色数据中心建设与管理》和《基于IP的能源管理》等。

大数据管理第一部分：技术差异化

取消回复

作者

John Webster

翻译

曾少宁

相关推荐

Cloudera-Hortonworks合并或将减少Hadoop用户的选择

数据分析是关于文化，而非技术

攻关克难：大数据系统中的预测技术

让工业无忧天泽智云发布工业智能应用孵化器GenPro

大数据管理第一部分：技术差异化

取消回复

作者

John Webster

翻译

曾少宁

相关推荐

Cloudera-Hortonworks合并或将减少Hadoop用户的选择

数据分析是关于文化，而非技术

攻关克难：大数据系统中的预测技术

让工业无忧 天泽智云发布工业智能应用孵化器GenPro

让工业无忧天泽智云发布工业智能应用孵化器GenPro