解读微软大数据战略

日期: 2012-12-16 作者:孙瑞 来源:TechTarget中国

无论对于终端用户还是厂商,大数据的价值毫无疑问已经得到了广泛的肯定。在过去的一年中,IT巨头纷纷布局大数据市场,发布了一系列的产品和解决方案。而凭借年初最新发布的SQL Server 2012,三大企业数据库厂商之一微软的大数据战略也逐渐浮出水面。

  近日,微软并行数据仓库全球卓越中心(Microsoft PDW COE)总监Russ Cavan接受了TechTarget中国记者的采访,重点介绍了微软大数据战略及并行数据仓库一体机2012产品路线图。微软大数据战略也将延续“端到端”的理念,凭借数据处理、集成以及前端展现三个部分,实现大数据生命周期的管理,并为用户提供大数据洞察力。

微软全球卓越中心PDW组总监Russ Cavan

微软全球卓越中心PDW组总监Russ Cavan

  从存储到消费 大数据需要端到端的解决方案

  Russ Cavan认为,大数据挑战已经从最初的数据存储转向了应用层面,如何帮助客户更好地“消费”大数据,让所有用户能够从几乎任何数据中获得可转换为业务执行的洞察力,这是微软大数据战略的重点。

  微软的大数据解决方案涵盖了管理、扩展和洞察三个层面,从各个角度来把握大数据生命周期。其中数据管理层将对所有类型的数据进行搜集和管理,包括结构化、半结构化、非结构化和流数据;数据扩展层主要实现数据发现的功能,通过多种类型、多种数据源的互连实现对数据集的丰富;洞察力层主要面向应用,通过数据挖掘以及多种数据展现工具,实现任何用户对任何位置的任何数据洞察。

微软大数据战略图

微软大数据战略图

  Russ Cavan介绍,微软对大数据生命周期的三个层面都投入了大量的研发力度,争取为用户提供最好的产品。SQL Server 2012数据库和并行数据仓库(Parallel Data Warehouse,简称PDW)将作为结构化数据的处理平台,其中PDW 2012版将于明年正式推出,在性能、扩展性和易用性方面都将有突破性进展。针对非结构化数据,微软也将推出全新的Hadoop服务HDInsight,该产品包括公有云(Windows Azure)和私有云(Windows Server)两个版本,提供企业级的Hadoop服务。

  另外,最新发布的Windows Azure Marketplace将实现大数据的共享,通过开放数据协议(OData)展现数百种来自微软和第三方的应用程序和数据挖掘算法。Russ Cavan表示,用户还可以使用最熟悉的工具从结构化和非结构化数据中获得可执行的洞察力,包括SQL Server分析服务(SSAS)的PowerPivotPower View,通过连接器就可以对Hadoop分布式文件系统中的非结构化数据进行分析与展现。

  SQL Server 2012并行数据仓库为大数据而生

  微软并行数据仓库PDW是在SQL Server 2008 R2中推出的新产品,目前已经成为微软主要的数据仓库产品。它采取的是大规模并行处理(MPP)架构,与传统的单机版SQL Server存在着根本上的不同。然而微软全球PDW卓越中心的数据仓库架构师乔怡表示,对于DBA来说,架构的变化并不会造成任何困扰,在PDW中数据被透明化地分布到多个计算节点之上,DBA甚至可以使用相同的界面工具对PDW进行管理。

微软全球卓越中心数据仓库架构师乔怡

微软全球卓越中心数据仓库架构师乔怡

  乔怡表示,新版SQL Server 2012并行数据仓库是为大数据而建,是打通传统数据与非结构化数据的“桥梁”,其中新添加的Polybase功能将极大简化Hadoop的使用。Polybase类似于一个转换器功能,让DBA可以在PDW中直接使用SQL语言来对存储在HDFS中的非结构化数据进行查询,从而绕过了编写复杂的MapReduce代码。这一功能对于传统SQL Server DBA来说意义非常大,在此之前要实现这一目的,DBA需要系统学习MapReduce或者手动将HDFS中的数据导入到数据仓库或者数据集市当中。Polybase的意义在于大大减少了对时间和人力成本的投入,甚至非IT人员也能够直接对海量非结构化数据进行查询。

PDW 2012中的Polybase工作原理

PDW 2012中的Polybase工作原理

  SQL Server 2012并行数据仓库的另外一个突破是从物理层面上实现了数据按列存储的模式。包括SQL Server在内的传统数据库和数据仓库都是基于行存储的,而列存储的优势在于应对OLAP工作负载时的性能以及数据压缩比提升。乔怡介绍,PDW 2012和SQL Server 2012企业版数据库中的列存储技术虽然都是基于xVelocity,但存在着本质上的区别。SQL Server 2012企业版数据库是在索引层面上实现的列功能,性能改进主要通过查询更少的页(Page)来完成。而PDW是从物理层面上实现的列存储,数据原生以列的方式存放在磁盘当中(这与Sybase IQ相类似),数据能够进一步压缩,更多的数据可以放到内存中进行分析,从根本上提升了性能。

  此外,PDW 2012保持了一体机的模式,微软还将与硬件合作伙伴一起为用户交付软硬件集成化的解决方案。PDW目前提供了四分之一配、半配和满配三种配置,并提供横向扩展,最高支持6 PB的数据存储。据了解,PDW 2012的硬件合作伙伴包括戴尔和惠普两家,微软仅针对两家厂商各自的硬件特点采取了微调,因此用户购买两种硬件的PDW差别并不大。Russ Cavan认为,虽然微软没有自身的硬件产品,但同甲骨文和IBM相比,这既可以说是劣势也可以说是微软的优势,因为他们的选择范围更多。一体化解决方案已经成为大数据时代的“香饽饽”,而微软的PDW也将坚持一体化的策略,未来不会考虑单独发布PDW软件。

  据了解,国家审计总署已经成功完成微软并行数据仓库的部署,并成为PDW在国内的首个客户。乔怡介绍,国家审计总署的PDW项目实现了开箱即用,快速上线的效果。PDW通常从安装配置到运行仅需要几个小时的时间,软硬件一体化的模式极大降低了部署的难度。国家审计总署通过PDW完成了大数据云平台的搭建,它在数据存储和处理架构上兼具了资源池共享、按需可扩展、高可用保障、统一运维监控等典型的云计算平台特性。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

作者

孙瑞
孙瑞

相关推荐