在几年以前,数据库的分类基本就分两种,一种面向OLTP 的,一种面向OLAP 的,都是关系型数据库,各种应用的不同决定了他们优化的路线不同,现在随着数据量的暴增,两个世界都发生了巨变,兴起了各种面向不同方向优化的noSQL 数据库,这里介绍的就是主要面向分析型数据库的大概分类。
1、企业级数据仓库 (EDW)
包括的数据: 各种类型但是不包括操作的交易记录
使用类型: 各种
包括的数据: 各种类型但是不包括操作的交易记录
通常例子:集中的EDW 对大企业
鸭梨: 并发,可靠性,负载管理
最原始的美好想法,所有支持决策的数据放一起,主要厂家是Teradata ,DB2 , Oracle Exadata . 现在看来完全不可能,数据量的增长远远超过了硬件, 软件优化和复杂度的能力. 但是在数据量容许的情况下,部分EDW 还是可能的.
2、传统的数据集市 (Data mart)
包括的数据: 各种数据类型,但是一般限于部门级别
通常例子: BI 报表 , 预算预测, MOLAP 之类的
鸭梨: 性能 , 并发, 成本
BI 最开始的定义, 尤其像是报表这种入门级应用, 一般也是选用关系型数据库, 但是列数据库(Vertica , Sybase IQ ) 可能成本会更有优势
3、敏捷型分析数据集市
包括的数据: 各种数据, 尤其是客户相关的
使用类型: 分析
通常例子: 几TB 的面向特定分析但是不持久
鸭梨: 容易建立,容易管理,性价比要高
往往面向少数特定的分析而建立的非持久化的子集,比如像是客户分类之后做的营销或者广告效果之类的分析,一般网站的点击流也算,这时候InfoBright 可能是性价比极高的选择,IBM 的Netezza 低端设备也可以考虑, 或者一些内存型的前端分析工具像是QlikView 或是Tableau 都不错.
4、大型分析数据库
包括的数据: 各种类型 , 尤其客户相关的,财务方面的
使用类型: 分析
通常例子: 从20TB 到20 PB 的数据库
鸭梨: 性能, 伸缩, 分析功能
现在的面向分析型的数据库都可以考虑,报表,仪表盘,OLAP 往往不是他的主要应用,能够伸缩到上百到上千节点是必须的,POC 必须能够证明性能和功能能满足大多需要,还要提供面向分析的功能,不管是mapreduce , procedure 还是in-database analytics functions, Aster ,Netezza , ParAccel, Vertica , Greenplum 基本都是往这个方向发展. Teradata 更是跟SAS 合作多年,分析能力更多更强.
5、Bit Bucket
包括的数据: 日志
使用类型: ETL , 中间格式
通常例子: Hadoop 用的各种日志, GPS 生成的地理信息, 医疗仪器产生的监测数据
鸭梨: 廉价存储,伸缩,涉及大IO的查询 , 数据一般需要经过清洗和转换
比如监控主机产生的监控日志和程序输出的消息,大部分没有实际作用,不发生特别事件的时候都可以只保留小部分. 主要技术可以考虑的有Hadoop 和Splunk
6、归档数据储存
包括的数据: 历史操作记录
使用类型: 归档, 报表
通常例子: 电话记录,历史邮件,历史消息 , B2C 的历史购买信息
鸭梨: 储存成本, 压缩率,伸缩,偶尔的报表查询
银行电信一般都会保留比较长时间的各种记录,但是基本都是“冷数据”,greenplum 一开始跟Sun 合作就是做这个市场的,SAND 和Infobright 也都可以考虑. 压缩率往往是一个很重要的标准.
7、外包数据集市
包括的数据: 各种
通常例子: 在线广告跟踪 , Saas CRM
鸭梨: 性能,可靠性,并发
广告跟踪的时候一般都没有具体的本地的数据库,另外一些Saas 厂商提供的数据服务也算,像是Amazon 和Google Appengine 提供的都是非关系数据库.
8、操作分析混合型
包括的数据: 客户相关的,财务交易相关的
使用类型: 网页个性化,反欺诈,风险控制
鸭梨: 性能,可靠性,分析功能
yahoo 和amazon 的首页你登录进去每个人都是不一样的,显示的广告也是不一样 . 复杂事件管理比如信用卡短期大量提款冻结,零售分析你买了什么东西推荐你买另一些东西。 这种应用都是在传统的操作性流程里面加入分析特性,但是马上把给过返回给操作流程的. 个性化搜索或者社交里面的People You May Know 都算.
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
作者
相关推荐
-
用了多年的数据指示器软件,可能真的用错了
数据指示器软件已经存在很多年了,许多企业可能认为,现在指示器的实现是全自动的,无需人为干涉。但他们错了,这种观点可能会带来严重的问题。
-
年度数据仓库市场格局新鲜出炉 论技术论实力谁更受青睐?
国际数据管理分析机构The Information Difference在最新年度数据仓库市场格局(Big Data Warehouse Landscape)报告中,对全球前25家数据仓库厂商进行了评估。
-
体育机构合理选择数据仓库 上演“球迷也疯狂”
体育运动机构如何能更准确地熟悉球迷群体呢?NBA的夏洛特黄蜂队提出了这个问题,并在Phizzle FanTracker平台中获得了答案。
-
Hadoop工具让数据仓库迁移更轻松
即便进入Hadoop时代已经有些年头了,但将任务迁移至分布式平台并非易事。能够找出哪些任务在不给大量开发人员带来麻烦的情况下进行迁移,有助于数据管理人员做出最佳选择。