数据分析跟不上 还谈什么物联网(一)

日期: 2016-02-28 作者:Craig Stedman翻译:杨宏玉 来源:TechTarget中国 英文

Intelligent Mechatronic Systems公司每天都要从美国和加拿大成千上万的汽车上收集16亿条数据。 汽车配备的设备会跟踪驾驶距离、速度、燃料使用情况和其它汽车操作相关的信息,这些数据被IMS用于支持基于用户的保险项目或车辆交通管理计划。直到今年年中,数据一直存储在MariaDB关系型数据库中,但这个开源软件对数据结构有着严格的限制,这无疑增加了数据分析的难度。 IMS (Intelligent Mechatronic Systems)公司负责产品开发和管理的高级主管Christopher Dell说,“数据的价值不可估量,我们只是不知道如何挖掘这一价值”。

2015年8……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

Intelligent Mechatronic Systems公司每天都要从美国和加拿大成千上万的汽车上收集16亿条数据。

汽车配备的设备会跟踪驾驶距离、速度、燃料使用情况和其它汽车操作相关的信息,这些数据被IMS用于支持基于用户的保险项目或车辆交通管理计划。直到今年年中,数据一直存储在MariaDB关系型数据库中,但这个开源软件对数据结构有着严格的限制,这无疑增加了数据分析的难度。

IMS (Intelligent Mechatronic Systems)公司负责产品开发和管理的高级主管Christopher Dell说,“数据的价值不可估量,我们只是不知道如何挖掘这一价值”。

2015年8月,项目进行一年后,IMS添加了一个Apache Cassandra NoSQL数据库,该数据库集成了Pentaho数据集成和分析工具。现在,数据由MariaDB系统流向Cassandra数据库, 这让滑铁卢和安大略省等地各个公司的数据科学家能够更灵活地格式化信息。此类配置允许分析团队对客户驾驶行为进行细粒度的分析,找出模型或趋势,帮助保险公司调整基于用户行为所制定的保险政策和保险费率。

此外,Dell还表示,新技术应该允许IMS更好地处理以后的数据增长,预计这些数据将来自于两个部分。公司希望用于收集车辆数据的新智能手机应用程序可以让其用户数量“飙升”。还有一个趋势,就是把驾驶信息与物联网其他类型的数据结合起来,如天气记录以及智能家居系统的远程信息等。

像IMS一样,希望收集和分析物联网数据的企业,通常会发现他们首先要做的是增强IT体系结构。这对公司来说,适用于物联网范畴内消费者和企业两个层面:收集和处理大量来自车载设备、工业传感器、健身追踪器、手机和其他设备的数据对企业来说是一个不小的挑战,因为业务界限并不十分清晰。升级通常包括大数据管理技术如Hadoop,Spark引擎和NoSQL数据库,以及先进的分析工具,可以支持机器学习和其他算法驱动的应用程序。在许多情况下,技术需要满足所有物联网数据分析的需要。

大数据扩张

三年前,Cisco Systems的WebEx部门安装了一个Hadoop集群,用于存储数据,这些数据来源于连接到Cisco网络和视频会议服务的移动设备和个人电脑。最初,WebEx 为单个部门开发了一些独立的分析应用程序,但在2014年初,WebEx 采用了一个统一的策略跟踪使用情况、分析性能并诊断客户端的技术问题。今年,公司总部扩展了其Hadoop系统,增加额外的大数据工具。扩展是因为新数据类型分析的需要,以及越来越数据需要加载,每天大约有数TB的数据,而总共收集的数据接近则1PB。

WebEx云服务平台工具主管Joe Hsy表示,秋季,他的团队为Cloudera-based集群增加了30个节点,目前总节点数超过了100个。

去年夏天,WebEx开始使用Apache Kafka消息队列技术,该技术可以更快地将遥测数据发送至Hadoop集群和其他系统,以支持实时性能监测和报警。此外,会议部门开始使用Spark过滤传入的数据流,分为各个子集以用于分析,并支持一个机器学习应用程序原型。该应用旨在改善对欺诈电话的检测能力。平台的基础设施还包括用来存储事件日志的Cassandra,以及用于保存会议历史数据的Oracle 数据库。在前端层面,WebEx 主要依靠Platfora 所提供的基于Hadoop的分析工具,再加上供业务用户使用的Tableau 和Excel。

越来越多的技术选项使得类似WebEx的企业能够使用物联网数据做更多的事。但管理Hadoop、Spark和相关开源工具是一个挑战,Hsy说,出现bug和管理缺陷,部分原因是这些技术和其商业版本的开发和更新节奏过快。

为了在新功能与稳定性之间找到平衡,WebEx通常会使用上述技术的次新版本。“我们是一个运营团队,所以我们不会过份追求最新的技术”Hsy表示。但他补充说,在这样一个快速变化的环境中,密切关注发展计划以及大数据的趋势是至关重要的。”这是我们作为一个团队必须要做的,不仅为了保证系统运行,还要为未来打算,要考虑以后会发生什么。”

物联网数据分析仍是新兴的领域。TDWI调查显示,在2015年5月,303个受访者中只有16%的人表示,他们的企业在分析物联网数据。另有33%的人所在的企业有意向进行物联网数据分析。但在7月发表的第四篇“hype cycle”物联网年度报告中,咨询和市场调研公司Gartner预测,大多数物联网数据分析技术和流程要成为主流应用还需要5至10年的时间。这么估计是有据可依的。Gartner分析师认为,部署物联网对于企业来说是一个巨大的挑战,通常需要对一系列的技术进行投资,再加上新的数据管理和分析技能,困难度可想而知。

1 | 2

翻译

杨宏玉
杨宏玉

TechTarget特邀编辑。北京邮电大学计算机科学与技术专业硕士。熟悉软件开发流程,对系统管理,网络配置,数据库应用等方面有深入的理解和实践经验。现就职于IBM(中国)投资有限公司,从事IBM服务器相关软件的开发工作。业余时间喜欢游泳登山,爱健身,喜欢结交朋友。

相关推荐