分析需求给数据仓库策略带来更高目标

当查看各种存储选项以及每个选项所提供的内容时，我们会发现，数据仓库有多种定义。

这就是说，很多人仍在试图确定什么是数据仓库以及如何将它应用于其架构。这些好奇的人中包括S4公司的数据工程师Fernando Tadakuma，S4是一家为食品行业提供风险管理的技术服务公司。S4公司管理和分析200 PB以上的数据，他的团队一直在努力确定数据仓库策略如何为他们提供最大的价值。

Tadakuma和他的团队注意到，商业世界和学术界对数据库、数据集市、数据仓库和数据湖有不同的定义。他说，这种理论与现实之间的鸿沟部分是由于数据仓库供应商的无知、疏忽或营销策略导致。Tadakuma意识到，这种差距使他和他的团队需要部署多种工具来实现其数据路线图。

那些需要高度交互的应用程序被视为数据仓库，数据源可在数据仓库和数据湖之间来回传输。Tadakuma解释说：“目前，数据仓库和数据湖之间的通道自动化程度较低，并且需要‘人为’标准，我们正转向自主工具，关联到商业目标。”

S4公司的数据提取过程涉及从多个渠道收集数据，例如卫星图像源、气象站、无人机、农业机械、银行、政府数据集和用户。这些未经过滤的信息会移入他们的数据湖中，然后根据该公司当前和现有的数据计划，过滤器会将部分数据从相对缓慢且便宜的数据湖基础架构移至性能更高的数据仓库。

这里的重点是保持成本水平。Tadakuma说：“我们努力使该仓库具有专用视图，通过这些视图，不同的技术配置文件可以轻松地查找其需求的相关数据。”但是有时数据管理者需要更快的响应时间或用户无法执行的特定域联接。这些任务部署在数据集市中，具有特定数据库引擎为各种风险建模场景创建自定义算法。

Tadakuma指出：“一直以来，我们投入大量时间向使用或以某种方式参与我们数据处理过程的人们解释数据、模型、技术和理论，这最终会对整个企业都有利。”

不惜一切代价填满座位

Qualex Consulting Services公司首席数据官兼科学家Al Cordoba说，现在球队开始采用数据仓库策略，以帮助在门票销售和填满体育场座位间取得平衡。他说：“我们所支持的球队希望从他们体育馆的座位中挤出最后一笔收入，同时又要最大限度地提高球迷的积极体验。”

因此，重要的是将票务的价格定在一定水平，以使粉丝能够入座并最大程度地增加收入。Cordoba的数据科学家团队开发了一种动态定价算法，该算法可以从数据仓库中获取历史数据并监视粉丝行为。该数据仓库存储并提供建模数据，建模数据包含内置变量，这些变量会影响购票决策，例如天气、球队的对手或球队的表现以及每周的销售量。

基于此数据，该算法会预测特定比赛是高需求还是低需求，从而提高或降低门票价格。在这里，对于门票价格的分析建议以标准格式输出，并与票务系统集成。Cordoba指出：“另外，为特定球迷提供某些门票也可以提高球迷的满意度。”

提高BI

数据仓库会收集运营、ERP、HR、分析和财务系统生成的数据，这些数据可支持预定义的报告和分析，例如总账、执行人员仪表板和市场营销活动。

云咨询公司Syntax的分析副总裁Craig Kelly表示：“数据仓库数据通常用于商业智能仪表板和报告工具。这有点像可显示高级汇总数据的汽车仪表板，只是在这种情况下，当你单击检查引擎灯时，你实际上可以看到潜在的问题，而不必去车行来确定问题。”

当制定数据仓库策略和优化仓库性能时，数据管理者需要权衡真正的拥有成本，而不仅仅是数据仓库硬件的成本。Kelly建议投资于提取、转换和加载工具；计划好软件应用；并且还需要考虑相关的数据库许可费用。

同样重要的是，确保为数据仓库架构以及柱状存储等新技术提供充足的“马力”。Kelly补充说：“阻止用户部署数据仓库的最快方法是仪表板和报告运行很慢。”

数据仓库中存储的数据质量也是一个问题。SPR公司的高级数据和分析顾问Elena Goryainova说：“当需要对数据进行整合和逻辑整理以进行有效分析时，数据仓库会提供优势。”SPR公司主要将仓库用于BI和分析应用程序。

她最大的挑战是数据质量问题，例如在特定时间点丢失源数据。Goryainova说：“如果你在查找数据时遇到问题，则可能是数据模型太复杂或没有数据目录。”

另一个问题是性能下降–当数据仓库无法处理并发工作负载时。解决该问题的好方法是与数据仓库团队合作以更改处理或使用方式。

数据仓库的发展时间表

尽管近期关注点是大数据和云时代的存储，但其实数据仓库拥有悠久的历史。AI和分析咨询公司Cognizant的数据现代化副总裁Michelle Wallig表示，很多公司投资于数据仓库可追溯到30年前，她将数据仓库的发展分为三个不同的时期：

解决模式–1990年代末至2003年。大多数仓库的建立都是为了在采集到准备再到汇总的过程中整理数据。
解决性能— 2004年至2015年。重点转向性能限制，主要由于基础架构的局限性以及对更多数据访问的需求而导致。基于设备的数据仓库占主导地位，因为它们可为查询大型数据集提供稳定性能。
解决弹性— 2016年至2020年。在解决性能和可扩展性后，云计算与数据和分析的融合导致数据仓库简化以模拟数据湖架构。大数据湖项目（第二代大数据项目）的失败要求基于云的数据仓库来支持非结构化数据。

Wallig表示，即使企业迁移到云端，对数据仓库也有浓厚的兴趣。她说：“我们仍然看到企业投资于在Azure、AWS、Snowflake和Google云端建立数据仓库，以支持法规和智能决策工作负载。”数据仓库技术也已经成熟，可以支持自动扩展，同时变得更加高效且运营成本更低。

分析需求给数据仓库策略带来更高目标

不惜一切代价填满座位

提高BI

数据仓库的发展时间表

更多的是关于目的，而不是追求完美

取消回复

作者

George Lawton

翻译

邹铮

相关推荐

随着AI驱动BI，ThoughtSpot不断发展

数据分析中使用的4种模拟模型

微软新数据库、分析工具瞄准代理AI

Yellowfin推出新NLQ功能，加入GenAI竞争