解决大数据分析中的信息传输问题

日期: 2012-11-13 作者:David Loshin翻译:茶一峰 来源:TechTarget中国 英文

来自各种内部外部资源的数据创建和更新,带来数据量和数据速率的持续增长,外加标准硬件构建可扩展分析平台的简易安装工具的可用性,大数据风靡一时。   就像高速公路容纳量的增大促生了机动车的繁荣,BI分析平台计算能力与速度的提升也促进了企业中可行动知识的传播。除此之外,业务用户对更加快速获取信息和进行决策的需求使得适时智能性能按指数增长。然而,许多企业在技术架构信息延迟方面都束手无策。

怎样才能突破这一瓶颈呢?   如果你的数据仓库每个月都进行更新,那么批量ETL流程可以满足你的需求。但现在适时分析无处不在,批量化的方式对目前和未来的数据集成和传输需求就无法满足了。   更强大的存储性能和更给力的计算……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

来自各种内部外部资源的数据创建和更新,带来数据量和数据速率的持续增长,外加标准硬件构建可扩展分析平台的简易安装工具的可用性,大数据风靡一时。

  就像高速公路容纳量的增大促生了机动车的繁荣,BI分析平台计算能力与速度的提升也促进了企业中可行动知识的传播。除此之外,业务用户对更加快速获取信息和进行决策的需求使得适时智能性能按指数增长。然而,许多企业在技术架构信息延迟方面都束手无策。怎样才能突破这一瓶颈呢?

  如果你的数据仓库每个月都进行更新,那么批量ETL流程可以满足你的需求。但现在适时分析无处不在,批量化的方式对目前和未来的数据集成和传输需求就无法满足了。

  更强大的存储性能和更给力的计算机可生成、发布、捕捉和存储更多的数据用以分析。将那么多的数据注入分析环境中,会让运营环境拥有更多的报表和BI信息,也会让业务部门随之采取行动。数据科学家想要将这些数据流与多年来收集和归档的大量数据进行整合,以支持深度分析应用。

  有一个一直以来存在的障碍,与技术架构不能满足新的需求有关,即将来自源系统的数据和大量数据集提供并及时载入BI分析平台。总的来说,由于无法提供快速获取统一实时数据的途径,也就无法提供集成分析性能给越来越多的业务用户。数据延迟的问题一天不解决,数据的供应就会继续成为增长生产力和精准业务决策的绊脚石。

  数据延迟对业务的影响

  大数据业务流程和其他BI应用与上述瓶颈息息相关,以下是几个例子:

  • 拖延数据文档的获取。大数据平台越来越多地被用作临时数据文档系统,数据来自于内部和外部资源,数据的及时迁移对用户的索引、搜索、匹配和信息传输非常必要。数据延迟会降低系统性能和效率。
  • 延长分析应用的开发周期。开发高级分析应用程序的流程由一系列迭代步骤组成,包括开发、测试和分析模型的评估等。大数据分析应用需要使用大型数据集进行设计,每一次周期的重复都需要将数据集重新载入开发平台。如果数据可用性缓慢就会延长应用开发周期,从而导致业务机会的错失。
  • BI分析扩展性的缺失。用户对实时BI分析性能的需求越来越大,势必导致企业中分析数字和种类的大爆发,当然这就需要当下和及时数据可用性的推动,如果数据传输迟缓,将无法实现。
  • 对决策制定的担忧。BI和大数据系统中数据传输的滞后将阻碍业务决策者对可行动信息的获得。同时,数据延迟还引起了人们对数据及时性和一致性的担忧——它们会影响分析结果的可靠性,并最终影响决策的制定。

  数据传输创新法

  解决数据延迟的问题至关重要,因为只有这样才能确保大数据分析应用和传统BI系统维持在巅峰状态。既然如此,我们就来看看需要一些什么样的工具和策略。以下三点为基本目标:

  • 消除数据延迟的根本原因,扩展数据传输,以达到平台速度要求
  • 确保来自内部外部数据流的及时性和一致性
  • 提供各种数据源的广泛获取能力,包括结构化数据和非结构化数据

  解决数据获取问题使用的方法可能需要与传统的ETL流程有所不同。比如,许多企业都在已经存在20多年的数据复制技术上重新找到价值。高性能的数据复制加快了数据传输的速度,而像变化数据捕捉(change data capture)这样的技术可帮助企业系统数据及时性和一致性的确立。数据联邦和数据虚拟化软件中使用的缓存技术不仅加速了数据传输,还给孤岛系统中结构化和语义变量带来了无缝透明性。

  如果把所有这些方法结合起来使用,就能解决数据获取延迟问题;即便不能解决全部问题,也能收到不小的成效。这样一来,除去大数据分析的可扩展和弹性高性能计算的终极障碍也就有望了。

作者

David Loshin
David Loshin

Knowledge Integrity公司总裁,专注商务智能、大数据、数据质量、数据治理和主数据管理。

相关推荐