提到大数据,人们更多想到的是Google、Facebook和亚马逊这样的互联网企业,微软在2013版的大数据产业生态地图中的位置并不耀眼,但实际上微软也是一个不折不扣的大数据公司,微软的Bing搜索引擎、Office365和Azure云计算服务每天都在制造和处理大量数据。
而且微软在大数据技术方面的动作也绝不仅限于与Hortonworks在Hadoop平台上的合作,根据微软技术研究员Dave Campbell透露:“Hadoop只是微软信息生产线迈出的第一步。”
近日,微软开始加大大数据市场的营销推广力度,推出了“2013年全球企业大数据趋势调查报告”(报告生成的信息图在本文末尾),调查指出:未来12个月中,全球超过75%的大中型企业将开始部署大数据相关解决方案,客户关怀、销售/财务和市场营销是企业大数据应用的三大热点。信息周刊为此专访了Dave Cambell,就微软的大数据策略进行了深入解读,IT经理网整理编译如下:
问:微软在帮助企业利用外部数据方面有什么作为?
Campbell:我们做的一件事就是数据集市(基于Windows Azure)。但不仅仅是提供数据集,还包括分析模型等。过去的15年是大型企业应用的全盛时期——SAP、PeopleSoft等,这些大型企业应用产生大量数据孤岛。在粘合各种应用的过程中我们经历了多个整合阶段。但是大数据更加水平化,你需要混搭来自业务流程、系统记录、外部的各种数据。大数据不仅仅是应用和服务器,大数据更多是数据生产。
问:微软在大数据方面还提供哪些产品和服务?
Campbell:我们的策略是让信息制造流程更加轻松,帮助客户混搭各种格式的数据然后交给BI平台处理。我们的工作是帮助客户提高数据的投资回报。
我和其他微软员工一道极力推动微软采纳Hadoop,因为Hadoop已经成为大数据的品牌,例如客户经常会问:“你有哪些Hadoop集成的成功案例?”而不是“你有哪些大数据的成功案例?”但是大数据的商业价值不在Hadoop里,而是分析处理环节。 我们与Hortonworks的合作是为了让Hadoop的安装、部署和管理更加容易。这意味着通过微软虚拟机管理器部署、用System Center来管理,用Active Directory来集成。我们和Hortonworks的紧密合作就是为了确保这一点。
问:很多人都认为机器学习解决大数据人才短缺的好途径,那么机器学习是否真的能帮助企业开发出预测应用,减少对数据科学家的依赖?
Campbell:机器学习其实就是将相对稀缺的数据科学家的智慧规模化。今天从事机器学习工作都是博士专家,他们用自己独特的方法完成任务,但是他们运行的模型数量有限,在实际应用中经常会出问题,专家们往往扮演救火队员的角色。 例如过去几年中,全球广告网络使用的预测模型就已经难以满足不同广告主的需要,广告主需要这些模型能够自我维护,并在一种模式失效后衍生出新的模型。微软很希望替客户完成这个任务。 其他还有很多著名的机器学习模型例如欺诈侦测、垃圾邮件过滤等。很多人都在开发相关的模型,而微软希望能将这些模型打包部署到Azure环境中。
任何人开发出的模型都可能会得到500强企业的青睐,并部署和运行在我们的云计算环境中。而运行这些模型的数据,Azure也能提供。
问:微软如何处理数据库内分析(in-database analytics,一种常见的预测分析加速技术)
Campbell:我们有一系列可在多个处理运行时中运行的基础算法。在今天这个崭新的时代,时间和地点数据已经成了最基础的数据,所以我们计划在数据仓库或者HPC的内存中运行时间序列分析(time-series-analysis)。但是我们也有很多人用SQL Server的CLR(common language runtime)来定义分析功能或用户自定义功能。Jim Gray为科学家和宇航员们带来了强大的数据库,很多科学工作如今都在SQL Server上通过.Net CLR来完成。
问:在大数据市场,微软的SQL Server和HPC平台的定位是什么?
Campbell:在我们正在建设的信息生产线上,那些数以百计的TB或者PB级别的大量数据一开始存储在Hadoop系统中,这些数据经过精炼,通常是通过MapReduce,体量会缩小到TB级别,这样就能载入到一个小的集群甚至普通服务器中进行处理,你很可能会在HPC平台上完成最后的分析工作。
问:你怎么看待大数据市场微软的竞争对手?
Campbell:坦率讲,Oracle、SAP甚至IBM自身业务的数据处理量都不像微软这样每天数百PB。他们每天也不需要索引整个web(像微软的Bing),微软能获得更多的社交网络信息。微软的商业数据平台、操作系统、SQL数据库、BI、高性能计算和在线服务整合到一起正产生非常有趣的聚合效应,这个星球上很少有企业能像我们这样拥有大规模的互联网服务和商业平台。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
作者
相关推荐
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
采矿设备制造商利用BI on Hadoop来挖掘数据
如果大数据要取得巨大成功,则需要提供给更多的最终用户群组。但广泛使用的商业智能工具尚不能轻松分析最大的大数据, […]
-
新Qlik Sense功能可用于云计算、AI和大数据
一年前,Qlik公司公布其长期计划,即将高级云计算、AI和大数据功能添加到其自助式BI和数据可视化软件中。现在 […]
-
Cambridge Analytica秘密收集Facebook数据表明对道德数据挖掘的需求
当有关Cambridge Analytica公司秘密收集Facebook数据的消息传出时,这暴露了一个薄弱环节 […]