从2014年开始,大数据逐渐发展壮大起来。越来越多的公司开始使用大数据,包括日常事务管理及复杂业务方案探究。大数据已经很快地从一个被夸大的词汇转变成了一个可行的技术,无论业务规模是大还是小。
大数据,简单来说就是存在于我们身边的大量数据,如智能终端、网络应用、社交媒体、聊天室、移动App、通讯记录、支付历史以及各种其他方式涉及到的数据。大数据技术对大量的信息进行整合、存储以及分析,数据量一般在PB级别。
这项技术已经完全改变了人们看待数据与数据库的方式,也改变了人们使用数据的方式。在军事方面,大数据主要用来预防损伤。在NBA,大数据主要用来捕捉并且分析一场比赛中数以百万计的个人动作。健康产业将大数据应用于治疗癌症与心脏病。汽车公司将这项技术实现自动驾驶以及汽车自主交流。
大数据正在改变这个世界。但,究竟在这之后存在着怎样的软件呢?是什么使得大数据技术不断发展与运行呢?
答案揭晓,Hadoop。
很多人认为hadoop就是大数据,但它不是。在hadoop出现之前就已经存在大数据,而且即使没有hadoop大数据也将继续存在。然而,hadoop现在是大数据行业的寡头。hadoop与大数据二者混用是有原因的——很多人都这样用。你可以自己去找找看哪些大数据公司不使用hadoop。
Hadoop究竟是什么?
它是一个“软件库”,使用者可以通过它获得处理大批数据的能力,即“使用简单编程模型在计算机集群上处理大量数据”。换句话说,它使公司有能力对大批数据进行汇总、存储与分析。
另外,理解大数据很重要的一点在于它是一个“软件库”。大量的程序库补充了Hadoop基本框架,给予各个公司所需的特定工具,以获得期望的hadoop结果。
让我们来看一下hadoop生态系统。相关资源及更多信息参见hadoop网站。
Hadoop项目包含了各种模块——Hadoop通用库、hadoop分布式文件系统、Hadoop YARN 与Hadoop MapReduce。这些系统的整合,支撑了我们下面提到的其他hadoop项目,赋予了大数据处理实时自动任务调度和集群资源管理能力。
其他项目提供了特定的服务,完善了整个 hadoop生态系统。
Apache Hive:“一个提供数据汇总与即席查询的数据仓库”。该系统是一个强大的查询工具,并能仅实时的得到查询结果。
Apache Spark: Apache Spark是一个通用计算引擎,能对大规模数据进行快速分析。Spark建立在HDFS之上,而不依赖于MapReduce,它使用了自己的数据处理框架。Apache Spark通常的使用场景,包括实时查询、事件流处理、迭代计算、复杂操作与机器学习。
Apache Ambari: Ambari的目的在于帮助管理hadoop。它能够为许多hadoop生态环境中的工具提供支持,包括Hive, HBase, Pig, Sqoop 与Zookeeper。该工具的特征在于有一个控制面板,能够跟踪集群健康状态,帮助诊断性能问题。
Apache Pig: Pig是一个平台工具,它支持一种处理大数据集的查询语言。
Apache HBase: HBase是一个在HDFS之上运行的非关系型数据库管理系统。建立HBase的目的在于处理大数据项目中的稀疏数据集。
其他常见的hadoop项目包括:Avro, Cassandra, Chukwa, Mahout与Zookeeper。
通过构建hadoop,使用者能够获得大量工具和资源,从而深度定制他们的大数据平台,以适应自己的业务所需。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
作者
翻译
相关推荐
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
采矿设备制造商利用BI on Hadoop来挖掘数据
如果大数据要取得巨大成功,则需要提供给更多的最终用户群组。但广泛使用的商业智能工具尚不能轻松分析最大的大数据, […]
-
新Qlik Sense功能可用于云计算、AI和大数据
一年前,Qlik公司公布其长期计划,即将高级云计算、AI和大数据功能添加到其自助式BI和数据可视化软件中。现在 […]
-
Cambridge Analytica秘密收集Facebook数据表明对道德数据挖掘的需求
当有关Cambridge Analytica公司秘密收集Facebook数据的消息传出时,这暴露了一个薄弱环节 […]