“非结构化数据”,这是一个我们近些年来经常听到的一个词。它随着大数据时代的到来而进入了我们视线,同时它也是我们在谈到大数据时提到最多的一个挑战。也正是因为非结构化数据的激增,使得人们认为传统的关系型数据库无法满足大数据时代的需求。话虽这么说,但企业在处理非结构化数据时遭遇的难题,真的只是关系型数据库无法应对那么简单吗?对于非结构化数据,我们真正应该关心的是什么呢?
为了深入了解非结构化数据,就必须先来回顾我们所谓的“数据”它所走过的历史。在上世纪我们试着把这个世界数字化的时候,我们首先想到的就是交易数据,因为它的门槛是比较低的。交易数据的出现使得人们可以把表格形式的信息转换成为整齐的行与列格式。
经过了几十年的发展,我们希望把更多的东西数字化并在企业内部以及合作伙伴之间进行共享。这样导致的结果就是企业中将产生大量的信息,这些信息通常是以文本、图片、电子邮件、视频、音频以及网页等形式存储的,这正是我们所谓的非结构化数据。但有一点需要澄清,并不是说非结构化数据就没有结构,而是它们的结构不适合放在企业传统的关系型数据模型中处理。
更糟的是,在企业员工的头脑中根本就缺少处理非结构化数据的思维,同时也对如何捕获、管理、衡量和改进非结构化数据缺少有效的方法。非结构化数据其实并不是什么新生事物,但为什么我们迟迟没有能够驾驭它?是什么让我们没法更好地管理非结构化数据?主要是有以下的几个原因:
- 缺少有效管理非结构化数据的工具。这些工具要能够提供文本分析、分类以及元数据管理等功能
- 无法将非结构化数据与交易系统进行集成。在进行分析和决策制定的时候,这两种数据通常是完全不同的,应对方法也不同
- 现有的员工缺乏相应的知识
- 企业缺少管理非结构化数据的忧患意识
无论我们是否能够驾驭非结构化数据,它还是会以飞快的速度增长,这给那些想要深入理解自身业务状况,并针对各种情况能够做出快速反应的企业带来了非常大的难题。当然,市面上也有一些成熟的工具,能够为企业提供相应的解决方案。但是企业所面临的真正挑战在于提高自身的紧迫性,让更多的员工意识到这些无处不在的数据中所蕴含的价值,以及我们究竟能利用这些非结构化数据做些什么。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
作者
相关推荐
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
采矿设备制造商利用BI on Hadoop来挖掘数据
如果大数据要取得巨大成功,则需要提供给更多的最终用户群组。但广泛使用的商业智能工具尚不能轻松分析最大的大数据, […]
-
新Qlik Sense功能可用于云计算、AI和大数据
一年前,Qlik公司公布其长期计划,即将高级云计算、AI和大数据功能添加到其自助式BI和数据可视化软件中。现在 […]
-
Cambridge Analytica秘密收集Facebook数据表明对道德数据挖掘的需求
当有关Cambridge Analytica公司秘密收集Facebook数据的消息传出时,这暴露了一个薄弱环节 […]