2016年3月22日,Teradata天睿公司旗下的大数据咨询公司Think Big宣布正式启动大中华区业务。Think Big公司2010年初创于加州,2014年被Teradata收购,2014年正式开拓国际市场,其核心业务是提供基于开源的数据分析咨询服务。由此可见,开源大数据技术在欧美市场发展得红红火火。那么,国内大数据市场对开源技术的接受程度如何?Think Big又将如何开展针对中国市场的服务?为此,Teradata天睿公司大中华区首席执行官辛儿伦(Aaron Hsin)和Think Big 公司联合创始人兼国际业务高级副总裁 Rick Farnell接受了采访。
能否介绍一下目前大数据领域发展的趋势?
辛儿伦:过去在电脑科学领域,更多数据是偏向结构化数据,面向关系型数据库所延伸出来的数据科学领域,叫做 OLAP 联机分析处理系统,即 On-Line Analytical Processing。这些领域对于结构化数据的处理和分析,一直围绕着关系型数据仓库。特别在过去的五年,很多企业和政府单位,他们对非结构化或半结构化的数据和信息进行分析,这些并不是以结构化的形态储存的。事实上不仅是过去五年,过去十年也有很多,比如互联网数据、文本数据、制造业数据、机器生成的数据,只是五六年前没有能够迅速、有效的数据分析手段来分析非结构化或半结构化的数据。随着过去几年,Teradata通过强化自身研发,同时也非常开放地融合所有世界上优秀的开源技术,不管是结构化数据、半结构化数据,还是非结构化数据,都可能进行有效的数据分析,产生业务的洞察力。
随着这些需求发展和技术进步,以及各种数据分析的需要,就需要考虑形成良好的数据架构、方法论,引用领先的技术、合适的人才,去搭建一个高效的数据架构。很多企业同时要整合过去生产的数据、供应商数据、设计数据,到销售、分配、物流,以及后台的客服数据等,通过有效的整理和整合,让业务人员能够更快速地了解问题的所在。
例如,当企业的产品开始量产并发布,怎样能很容易、迅速地得到客户的反馈数据,同时根据客户的反馈数据,知道这个产品当前版本有哪些问题,这样就可以很快地反馈到生产部门,对下一代产品进行有效的调优。这在过去,是很难有效、迅速地反馈到设计和生产部门。现在,通过数据分析和统一数据架构解决方案,可以很快地能够分析出问题并进而得到解决办法。这在过去需要花上数月的时间,现在只需更短的时间,甚至一两天的时间。
在当下竞争的社会,或者更加国际化的时代,就需要更高的国际竞争效率,企业要更快速、更精确地获得业务洞察,才能抓住更多的业务增长机会。这就是为什么 Teradata 在过去五年延伸数据分析能力,融入更多的开源技术处理半结构化数据、非结构化数据,通过自身研发以及Think Big咨询业务,为客户提供更好、更有价值的服务。
Think Big公司主要提供什么样的服务?
Rick Farnell:我详细介绍一下Think Big提供给客户的比较典型的服务组合。这些都是针对客户的“痛点”,在交流了解到以后提供的服务。很多客户尝试自己单独使用这些大数据,刚开始做这些试点项目的时候还是可以的,但是要全方面推广大项目的时候,就会遇到问题。
首先,Think Big提供数据湖优化,来满足客户对生产系统和生产环境所需要的数据服务要求。有的客户对于如何来启动大数据项目,如何来处理这样相关的数据,其实还是有些纠结的。这种情况下,Think Big会给客户制定一个6周的路线图,帮助客户来思考,在这些已有流程上,哪些是属于优先级的排序,还要分析对业务、流程的影响,以及要开发出的最佳数据架构。我们把所有这些信息集中在一起,再给这个客户推出12个月的发展路线图。这些服务里面包含我们的方法论,能够帮助客户明智地开始、快速地发展。
接下来就是制定大数据线路图。如果客户提出要求要启动第一个数据项目,比较典型的就是按照这样的路线图来做。我们可以提供数据湖的基础,可以作为今后进一步延伸发展的平台。
然后是数据湖基础的服务,怎样能够帮助客户从现有的数据平台上获得更高的价值。这就是我们提供的数据科学服务,把我们的数据科学跟客户的业务分析人员结合在一起,就能够加速帮助客户更加快速地获得洞察。
下一个服务是帮助客户来管理这样一种新的平台,因为这个平台上经常是涵盖了无数的技术。这些平台经常是本地的部署,或者混合性的部署。Think Big 和Teradata 都是能够针对全球的市场,来推出综合的数据管理服务,这是非常具有战略意义的。
最后一项服务是“Think Big大数据学院”。当时 Think Big在2010年的情况,也正像 2016 年中国的情况:我们找不到或者很难找到大数据领域里具有十年经验的人才。我们准备推出“Think Big大数据学院” ,能够培养、创造出这些领域里边的数据工程师,让这些企业能够利用我们的技术能力,来扩展在本地的技术和人员的规模。一方面这也能扩大我们自己的能力,同时也能够将这些服务提供给我们的客户。
随着技术的不断增长和发展,大数据是一个历程,而不是一个单独的事件。 Think Big联合Teradata采用持续创新的方法,将能够向客户提供持续的价值。
可否具体分享Think Big的用户案例?
Rick Farnell:下面我举三个比较典型的案例分析。这三个案例所在的行业也是在中国很具普遍性。
第一个是制造行业。磁盘驱动器生产厂商 HGST是西部数据(Western Digital)旗下的公司,在亚洲和北美地区设有四个办公地点。我们在跟它合作过程中,也反映出了“工业4.0”的概念。这里有基于传感器的互联,始终贯穿在生产流程当中,贯穿在质量管理当中。跟HGST的合作,我们在它的所有工厂车间里来捕捉数据,能够帮助他们做质量的管理或测试。之前,他们很多数据是根本不存储的,有一些即使是存储的数据,也是以往的关系型数据。我们有非常开放的先进的数据获取能力,把数据获取和收集放到开源的 Hadoop 系统上存储。我们使用 Apache Hbase的基础,把那些数据集合到上面。
我们也开发出了非常先进的数据获取,以及数据存储在云端的方案。我们会使客户的工程师,包括负责质量检验的工程师,能够清晰地看到以前所看不到的相关的数据和信息,能够让HGST非常有效地管理那些跟质量相关的流程,还可以帮助客户简化产品,再批处理来做简化的产品,极大地提升其销售能力。这里有一些新的可视化技术,能够帮助他们从数据的角度进行计算,包括文本也反映出来,比如可以反映温度、空气压力等相关的数据。这样一种新的数字化的视觉能力,能够帮助他们实现可视化,也能够做到用机器学习的目的。对制造业来说,一般制造业的构建、生产、测试的流程,会极大地提升他们的效率。跟 HGST 在制造领域获得的经验,对所有相关的制造领域都非常适用,包括汽车业、太阳能面板,还有风能的叶轮等,关于生产相关的制造领域都是能适用的。
另一个是金融行业的纳斯达克证券交易公司。在纳斯达克上市的企业,他们的数据是孤岛式的、遍布于全球的,都是存放在产生数据的全球各处。纳斯达克需要找到实时的信息,要把它作为一种信息来提供,或者销售这些信息。但是,他们的问题就是存在非常复杂的数据孤岛的情况。通过Think Big给它提供平台和云服务,能够把它所有分散在各个地方的孤岛信息集中到一个单一的平台上。这样的话,就可以使得纳斯达克为自己的客户提供精选出来的报表,或者将挑选出来的报表提供给客户,能给客户提供非常好的数据服务。
最后一个是 Facebook公司,他们有客户的分析和在线的社交媒体的分析。Facebook是大数据领域的创新和领导企业之一,Think Big帮助他们把数据平台,包括一些广告收入的平台集成在一起,给它提供向社会发布报告的能力。
整体来看,这三个案例里面相关模式、风险和典型情况,都是能够适用于任何一个行业和任何一家公司。例如,可以看到消费类的行业、医疗保障的行业,能针对所有的从设备上产生的数据进行分析和服务,包括智能穿戴设备等,能针对这些数据进行服务。
能不能具体介绍一下目前大数据在国内金融行业的应用情况以及和国外市场的异同?
辛儿伦:我们和国内很多金融行业客户的合作都超过10年或者15年。传统来讲,15年前他们可能刚开始对于数据分析还是围绕分析报表形式,而且这个报表有对内、对外用途需求,包含满足银监会提出的一些监管报告等。随着日后技术和解决方案能力的提升,再加上现在大数据的方方面面的视角以及能力的展现,其实现在更多的业务分析场景已经在过去五年产生了很大的变化,同时项目的数量也越来越多。
我举几个例子。比如银行要做市场的扩充,要扩充几百个银行网点或者社区银行网点,它怎样去选择非常合适的网点位置。传统的办法是说,市场部找第三方咨询机构,去做传统市场的调查,推荐位置,再去筛选,再去现场调查等。而现在,通过大数据的分析,结合这些地理位置信息,结合银行内部的统计信息,再加上交易的形态统计,以及贡献度分析,还有其他方面的数据,进行整合分析,可以有效形成位置的推荐。以前可能这方面的数据没有融入进来,随着统一数据架构更容易地导入和整合数据,能够很好地去挖掘数据价值,并去协助他们进行选择,告诉他们这些位置是你们可以参考的。特别是社区银行,它的服务不是全面性的,是属于半自动化,像在哪个位置能够有更多的客户更需要这样的服务,进而能够选取正确的位置。甚至我们现在探讨怎样结合动态地图,还有街道的动态场景,能够很快地去结合这些位置,做一个线上的判断。应该来说这方面已经有更多的部门、更多的项目,通过这样快速的分析能力,来解决一些以前比较困难解决或者以前需要花费很长时间才能解决的问题。
另外,以前数据分析的工具和办法里是比较难看到针对 “暗数据” 的洞察力。通过数据探索、图像的分析,能够很快知道这里面存在更大的风险。我想要强调,如果只是简单停留在一种分析报告里,我觉得好多年以前已经具备了这种能力。数据探索、数据分析事实上已经进行到了怎样的阶段?不仅进入了延伸出的自助分析的阶段,同时到了第三阶段,就是根据过去的历史数据的分析,能够协助客户预判、分析有可能未来会产生的状况。那怎么在第一时间协助客户,避免这样的风险出现。同时,这样的能力在过去只能提供给经营管理决策者,但是这样的能力通过现在的技术,就已经可以释放到客户一线的人员,甚至包括呼叫中心,怎样迅速、快速、有效、智慧地服务于他们的客户。
Rick Farnell:关于我们在美国和国际上提供的服务,我们有1/3的客户是在金融业、保险业、支付行业。在我们所有这些金融客户里,我们可以看到他们比较常见的、通用的两个主题,这种趋势并没有变化。一是,交易的完整性;不管是在银行或者企业的处理当中,特别强调交易的完整性,这个最起码没有发生变化。第二是在强调处理数据的时候,是快速的递增式的处理方式,这里涉及到每日之间的风险,要重新评估或者重新实施等。
现在有企业通过公有云进行数据分析,但对此的安全性很关注,您如何看待?
辛儿伦:我们现在确实有企业客户因为要保证数据的安全性,所以更多使用的是私有云,这种需求更多。我们也有中型和大型的企业,比如汽车行业或者制造业,特别是针对于测试的需要,询问能不能使用公有云服务。现在,我们的Think Big团队推出面向大中华区的服务,将结合Teradata自身的技术优势和资源,为这些客户提供行之有效的方案。
Rick Farnell:关于云或者开源的安全性,我们可以说,现在没有任何一个单一的产品能够真正解决在数据开源方面和其他方面的安全问题。这就更加强调了客户必须要与提供专业服务的公司进行合作,共同解决问题。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
相关推荐
-
Cloudera-Hortonworks合并或将减少Hadoop用户的选择
近日大数据领域两家顶级供应商达成交易协议,这可能会影响Hadoop和其他开源数据处理框架,并使大数据用户的技术 […]
-
采矿设备制造商利用BI on Hadoop来挖掘数据
如果大数据要取得巨大成功,则需要提供给更多的最终用户群组。但广泛使用的商业智能工具尚不能轻松分析最大的大数据, […]
-
新Qlik Sense功能可用于云计算、AI和大数据
一年前,Qlik公司公布其长期计划,即将高级云计算、AI和大数据功能添加到其自助式BI和数据可视化软件中。现在 […]
-
Cambridge Analytica秘密收集Facebook数据表明对道德数据挖掘的需求
当有关Cambridge Analytica公司秘密收集Facebook数据的消息传出时,这暴露了一个薄弱环节 […]