Hadoop生态系统以非常快的速度增加了搜索功能。既然Hadoop热潮要主要归功于开源,那么选择的技术就是开源Lucene搜索引擎。事实上,这很像是阔别已久的老朋友重聚:最开始,Apache Hadoop就是Apache Lucene项目的分支。
Hadoop与搜索工具的结合想来在情理之中。最近对使用Hadoop集群和NoSQL数据库管理非结构化和半结构化数据的关注之热,甚至盖过了文本检索技术领域取得的实质性进展。这些进展能够帮助Hadoop用户从串联进系统的大数据流中提取业务价值。
文本无处不在。因为业务用户已经习惯了通过在线谷歌搜索快速获得各种信息,所以他们很期待这种搜索能力。
如果使用美国前国防部长Donald Rumsfeld一种比较另类的说法“我们知道我们已经知道了”,那么谷歌搜索引擎可以说是“已知的已知”。另一方面,Hadoop应用上运行的搜索则有助于揭示“未知的未知”。这是Rumsfeldian创造出来的颇有禅意的一个词,意思是“我们还不知道我们不知道”。虽然这种表述有点别扭,但它在瞬息万变的业务分析中确实有所应用。
“未知”的意义
其实,在“已知的已知”和“未知的未知”之间还有一种状态,那就是“已知的未知”——即我们知道我们不知道。从商务智能和数据分析的角度来看,主流商务智能工具、关系型数据库和数据仓库已经稳固的应用了很多年。它们帮助最终用户解答业务操作方面的问题,这些问题往往是预定义的,并且是具体的。
但是现在很多组织都希望得到能够和更自由的分析方法结合的补充。这反过来要求供应商将Hadoop和Lucene搜索软件结合起来。
Hadoop系统一个巨大的潜在优势在于,它可以使组织先将大量数据集合起来,之后再考虑如何处理。通过搜索技术观察Hadoop数据,提供了一种多角度检查数据的方式,创造了发现可能被陈旧方法忽视的问题的机会。
市场调研和咨询公司Kusnetzky集团的创始人Dan Kusnetzky表示:“今天,部署大数据工具的意义在于,人们对于超前的问题,不再不懂装懂。而在使用传统的交易和业务系统的时候,人们知道他们存在什么问题。”
搜索Hadoop数据
他补充道,结果,企业需要改变他们管理和分类在Hadoop集群中“收集的大量数据”的方式,从而有效地分析信息。“现在,查询是基于你心里的问题进行的,你可以用便于查询的方式存储数据。不必再用基于特定关键查询的传统商务智能存储数据,那种存储方式已经没用了。”
在Hadoop产品上添加搜索已经是最近产品发展的大势所趋。例如,Cloudera公司这个月就发布了基于Lucene的搜索工具,可以在Hadoop分布上使用。
今年夏天,MapR技术有限公司开始在其同名产品Hadoop平台上分布Lucene衍生的搜索功能。LucidWorks是一家提供建于核心Lucene搜索引擎库及Apache Solr搜索服务器上的企业级搜索发展平台的公司,它已经和三个Hadoop发行版“专营公司”建立了联盟,分别是Cloudera、MapR和Hortonworks公司。
随着关于Donald Rumsfeld的纪录片《未知的已知》的发行,你会听到更多的关于他提出的“已知”和“未知”概念的讨论。同时,业务分析师、数据科学家和其他的分析专家会采用黑客的方法处理新的数据,以期将未知信息转变为可利用的已知信息。很多情况下,这都需要Hadoop和搜索工具的结合。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
翻译
相关推荐
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
数据太多Hold不住?Hadoop数据治理来“救场”
当LinkedIn还是一家规模较小的公司时,它从社交网站上获取的数据是如何被格式化和结构化的,似乎并没有人关注。
-
将数据治理工具渗透到企业中有多难?
对于主流大数据用户来说,数据治理是一个大问题。最近,IT供应商已经宣称使用开源以及商业数据治理工具来管理基于Hadoop的数据湖中的数据。
-
遇到Hadoop性能问题很头疼?监控集群很重要
大数据系统中,数据并非唯一需要管理的内容。数据科学家和其他用户所运行的查询也必须进行监控,以确保他们不会在Hadoop和Spark集群中陷入困境。