企业搜索功能带来哪些独特的挑战?

日期: 2015-12-30 翻译:杨宏玉 来源:TechTarget中国 英文

高效的企业搜索工具是任何信息治理策略不可或缺的重要组成部分,但企业用户对于这种既繁琐又笨重缓慢的技术已经感到越来越不满了。 在本系列的第一部分中,Jonathan Bordoli曾经提到,类似于谷歌一类的网络搜索引擎的出现,使得人们对于企业搜索的性能产生了更高的期望。他的客户想要一个“像谷歌搜索那样的企业搜索体验”,但是企业搜索和搜索引擎间存在着巨大的技术差异,想要把企业搜索的搜索体验提升到和公用搜索引擎一样,对于企业来说是个非常大的挑战。 举例来说,谷歌使用了标准化的搜索,通过“分面”对内容进行分类,并在网络中提供搜索上下文内容,但企业搜索的分面应该更为具体,并和标准化分类挂钩,这些分类应该……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

高效的企业搜索工具是任何信息治理策略不可或缺的重要组成部分,但企业用户对于这种既繁琐又笨重缓慢的技术已经感到越来越不满了。

在本系列的第一部分中,Jonathan Bordoli曾经提到,类似于谷歌一类的网络搜索引擎的出现,使得人们对于企业搜索的性能产生了更高的期望。他的客户想要一个“像谷歌搜索那样的企业搜索体验”,但是企业搜索和搜索引擎间存在着巨大的技术差异,想要把企业搜索的搜索体验提升到和公用搜索引擎一样,对于企业来说是个非常大的挑战。

举例来说,谷歌使用了标准化的搜索,通过“分面”对内容进行分类,并在网络中提供搜索上下文内容,但企业搜索的分面应该更为具体,并和标准化分类挂钩,这些分类应该基于特定业务的相关词汇。

此外,Web爬虫程序爬取有序结构化的网站相对容易,因为这些网站在搜索引擎优化(SEO)专家的帮助下,分类十分准确,搜索引擎优化专家的工作是确保搜索引擎可以找到特定的内容。相反,企业内容通常是非结构化,负责内容排序的员工可能并不十分理解,企业需要保持内容易被发现和访问的商业价值所在。在本系列的第二部分和最后一部分中,Bordoli概述了企业搜索功能的特有需求,并讨论了一些新兴技术,这些技术可能对企业搜索体验向Web搜索引擎体验靠拢的努力产生一定的影响。

另一个更好的选择?

我的客户经常要求企业搜索要有像google那样的搜索体验。但也许他们真的应该寻求更好的东西——它们能够提供更优化的性能,同时还能匹配企业的独特需求:

  • 以明确策略分类,驱动分面搜索为基础的内容的可检索性
  • 文档内部内容的可检索性
  • 超越文档,存储在业务线应用程序中内容的可检索性
  • 无论是企业或者第三方的内容,这些有着良好互联性内容的可检索性

显然,提升内容的可检索性是关键所在,令人欣慰的是,企业搜索相对于从前,在性能上已经有了改善。但搜索提供商为了跟上千变万化的形式,企业搜索也在不时转变:

云平台,特别是PaaS(平台即服务)。越来越多的企业选择不再安装软件到本地,甚至也不再选择IaaS云平台(基础设施即服务)的软件。相反地,他们会试图开启一个企业搜索服务,就像他们可以把SQL或Hadoop存储作为服务开启一样。这里的挑战在于,很少有企业能完全处于云中,混合结构可能是最优的选择。

大数据和IoT(物联网)。越来越多的企业希望看到内容(非结构化文档)和数据(关系型数据库或Hadoop存储中的结构化数据)以整体的形式展现,与此同时,无论数据的存储位置以及数据类型是什么,企业希望这些数据能够在最短的时间内找到。物联网项目引入了大量的数据,这些数据来自遥测数据源(火车、飞机、汽车等)和其他连接设备,这些设备现在无处不在,例如健身追踪器。

富媒体。富媒体内容日益增长,诸如视频和音频数据,未来都将纳入搜索功能的搜索范围之中。

知识图谱,由谷歌引入并推广普及,是图形数据库的一种,知识图谱对实体(节点)进行建模,这些实体包括人、账目、商业等。节点与节点间通过边相互关联(边有入边和出边之分),节点具有自己的属性,例如人有名字、年龄、眼睛颜色;账目有账目编号、账目所属等。知识图谱的目的是为内容添加具体的意义。

在谷歌的上下文背景下,搜索Leonardo da Vinci (节点为人)可以显示出他是一个文艺复兴时期的画家(属性),与绘画有关(节点=绘画)。显然现在搜索任何一幅他画的画,如蒙娜丽莎(节点=绘画)将与他关联。知识图谱开始为内容添加具体的意思——这是一个视觉语义网概念的具体实现,此概念于2001年由Tim Berners Lee首次提出。

机器学习。机器学习日益商业化,它是让事物更加智能的核心技术。在我们的例子中,智能搜索可能意味着,企业搜索工具能够基于过往的搜索行为预测出未来可能出现的搜索,当然这需要用到机器学习和预测分析技术。

结论

想要交付一个更为智能和集中式的企业搜索体验,你还需要考虑将多个内容库整合到搜索结果的问题,这让事情变得更为复杂。

以往,企业搜索引擎独立于内容和内容容器存在,它作为一个可安装的程序,爬取和分析离散存储的内容。互联技术提供了一个单一的搜索界面外观,但这其中存在出现巨大缺陷的可能性。首先是上下文安全问题,缺乏统一的用户访问控制,每个存储库需要判断哪些人可以看到哪些内容,当跨应用程序搜索时——搜索结果可能会不完整。此外,关键上下文将不可用,除非所有内容源共享相同的分类。当这些问题出现时,互联搜索更像是由几个独立的搜索结果组成的,结果显示在屏幕的不同区域。这样搜索结果太过分离,没有任何交织。

也许下一代企业搜索引擎的核心组件需要融入现有的底层技术和新兴的技术堆栈中,如关系数据库、Hadoop媒体服务、存储等等,提供一个基于内容实际存储位置的搜索互联。如果所有内容来源都属于相同的安全模型,且共享相同的分类,那么互联应该允许交叉的结果以及正确的安全性调整。但困难在于要跨这些互联服务层来创建整体的单一搜索体验。

与此同时,用户应努力发展和细化分类,内容分类方案可以将使现有的企业搜索技术变得更有效率,通过产生更为相关的搜索结果,实现更好的ROI。

翻译

杨宏玉
杨宏玉

TechTarget特邀编辑。北京邮电大学计算机科学与技术专业硕士。熟悉软件开发流程,对系统管理,网络配置,数据库应用等方面有深入的理解和实践经验。现就职于IBM(中国)投资有限公司,从事IBM服务器相关软件的开发工作。业余时间喜欢游泳登山,爱健身,喜欢结交朋友。

相关推荐

  • 业务案例:为什么要部署SharePoint

    SharePoint2013能够大大改善效率、降低成本和优化流程。但是,理解部署这个平台所需要的时间与知识,可能会让股东失望,让用户失望,让IT声名扫地。