数据处理跟不上 还谈什么物联网

日期: 2016-02-28 作者:Craig Stedman翻译:杨宏玉 来源:TechTarget中国 英文

解析PB级的数据 对于大多数公司来说,,对物联网产生的数据量进行处理是一个全新的领域。“我们以无与伦比的速度收集数据,至少这在我们的世界里是十分不可思议的,”约John Dyck说道,John是Rockwell Automation公司的全球软件业务开发总监。 过去三年,这家位于Milwaukee的公司使用微软Azure云平台,建立了一个新的体系结构,捕获客户端生产控制系统的数据。Dyck表示,石油和天然气行业的100多家公司和各种制造业公司目前使用云相关技术;Rockwell 管理和分析大约三分之二的数据,其余的企业则自己完成这些任务。

Rockwell存储在云架构中的数据共有几PB,单个工……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

解析PB级的数据

对于大多数公司来说,,对物联网产生的数据量进行处理是一个全新的领域。“我们以无与伦比的速度收集数据,至少这在我们的世界里是十分不可思议的,”约John Dyck说道,John是Rockwell Automation公司的全球软件业务开发总监。

过去三年,这家位于Milwaukee的公司使用微软Azure云平台,建立了一个新的体系结构,捕获客户端生产控制系统的数据。Dyck表示,石油和天然气行业的100多家公司和各种制造业公司目前使用云相关技术;Rockwell 管理和分析大约三分之二的数据,其余的企业则自己完成这些任务。

Rockwell存储在云架构中的数据共有几PB,单个工厂厂房产生的数据很容易处理,但一秒钟内从工厂的数千设备收集多次信息,并跨多个设备和不同的客户重复这一过程,就是截然不同的情况了。 “我们花了一定的功夫来处理这个问题,”Dyck说。

最终,公司创建了类似于发货清单的计划表管理收集过程;它还内置了缓冲和转发机制,确保在即使网络管道狭窄或脱机时也能完成数据收集任务,Dyck解释道。最初我们单纯依赖于微软的关系型Azure SQL 数据库,后来在去年Rockwell增加了HDInsight,作为一个暂存库来提高处理所有输入数据的能力。

工业自动化公司也使用了Hadoop系统,与微软Azure机器学习分析技术协同工作,以超越传统的性能监控,并开发出预测模型,在设备故障发生之前预测出可能发生故障的位置。Rockwell 正在进行一项和六个客户一起合作的试点项目。Dyck说,过去,预见性维护几乎如白日梦一般,因为大多数制造商将不同的设备生成的数据存放在彼此独立的数据库中。但是现在,我们可以访问更大的数据池,Rockwell的数据科学家正在构建自动化算法,这样可以产生令人信服的预测。

这种算法需要当前和历史的数据。要获得所有这些彼此孤立的生产数据库的历史数据,企业需要一个健壮的架构。“如果获取三年的历史数据需要大约六个月,这是一个大问题,”软件供应商Mtell的联合创始人兼首席技术官Alex Bates表示。2015年3月,该公司发布了一个平台,预见性维护应用程序,基于Hadoop MapR技术的数据存储库,可以通过该平台结合起来。

当然,并非所有来自物联网的数据都是有用的。旧金山软件工程公司副总裁Rob Ferguson坦言,像IMS、Automatic Labs 这样的公司,销售能够插入汽车的板载设备,收集数据来跟踪车辆性能指标。设备返回所有数据,每天总计数百万行。

数据被存入Amazon S3 (Amazon Simple Storage Service)存储库,使用运行在Spark Databrick上的一系列云节点来对这些数据进行处理和分析,但并不是所有的数据都会用到。“目前,我们收集更多数据,比我们实际用到的要多”,Ferguson说。

Ferguson补充说, Automatic Labs 想捕获尽可能多的信息,在一定程度上为基于用户的保险条款和车队管理服务提供更高级的分析应用程序。但是为了防止S3存储的失控,Ferguson的团队过滤掉了一些数据。“在这种情况下,我们获得更多的无用信息。”例如,随着诸如Toyota Prius等混合动力汽车的使用,电压数据的准确性已经受到了影响。

对于IMS来说,从汽车中收集的数以亿计数据总共加起来不会太大。Dell表示,该公司系统中存放了75TB的数据。最初,IMS通过独立的环境将数据发送给不同的保险公司处理。把所有的信息存入Cassandra数据库,保持数据一致性的同时又不影响数据的完整性,“这比我们预期的挑战更大,”他说。

现在,该公司正在使用集中式存储库,以推进新的分析计划。除了向司机的智能手机发送行程报告(参见图2),IMS在9月发布一组新的分析工具和仪表板,允许保险公司跟踪其基于用户的保险计划,识别可能引发保险政策发生变化的驾驶行为。

Dell的团队还推出了一个1.0版本的分析工具,该工具主要针对内部业务用户,如运营和财物团队。“我们对他们的操作有所限制,”他说,他想确保升级架构可以处理额外的工作负载。他计划在2016年初,将第二个版本交付给内部用户,给他们更多在Cassandra系统上运行查询的自由。新的数据库将部署并测试,他现在相信,IMS“提取数据到另一个数据库才能进行分析的日子一去不返了。”

对于许多试图利用物联网数据分析的企业来说,将各种大数据平台和分析工具整合成一个体系结构以应对大量数据流是个严峻的挑战。挑战刚刚开始,好戏还在后头。

本文节选自《数据价值》2016年1月刊·拥抱物联网

1 | 2

翻译

杨宏玉
杨宏玉

TechTarget特邀编辑。北京邮电大学计算机科学与技术专业硕士。熟悉软件开发流程,对系统管理,网络配置,数据库应用等方面有深入的理解和实践经验。现就职于IBM(中国)投资有限公司,从事IBM服务器相关软件的开发工作。业余时间喜欢游泳登山,爱健身,喜欢结交朋友。

相关推荐