Tagged.com数据质量问题解决案例

日期: 2013-01-31 作者:Nicole Laskowski翻译:茶一峰 来源:TechTarget中国 英文

Tagged.com与Facebook和Google+同为社交分享类网站,但它更注重合作伙伴、交流对象或游戏玩家的推荐。可以这么说,从表面上看,Tagged就是一个社交网站,但从深层次讲,它是一家靠数据质量取胜的企业。

  任何通过数据优化业务的企业都是如此,高质量的数据能成为竞争优势,解决不好的数据质量问题就会拖后腿。

  Tagged的CTO Johann Schleier-Smith指出,这是一项需要长期维护的工作,牵一发就有可能动全身。

  问题出现

  所有的社交网站都需要分析点击流数据以及网站和移动应用日志,Tagged也不例外,而这些数据量的增长十分迅速。Schleier-Smith称,为了整合这些信息,Tagged环境中的一个应用每个月会生成500亿条日志记录。

  “Tagged系统的规模无论从数据速率、收集数据的机器数量,还是从新特性变更的产品团队数量上看都十分巨大。”

  然而,业务发展需要尽可能多地从数据中提取价值,捕捉日志文档和点击量只是工作的一部分;公司必须确保所有这些运行在一千多台机器的服务器农场中的数据能够顺利迁移到数据仓库中,以作分析。于是,问题出现了。

  Schleier-Smith说,仪表盘报表会记录业务指标,比如访问网站的人数或者用户之间匹配推荐的数量,但这一功能已不如从前,很多数据在过程中丢失了。

  原因与影响

  Tagged早期的数据分析平台存在软件bug和缺陷,有时候会出现新的信息类别,有时候无法将数据传输到数据仓库,使仪表盘报表变得非常不准确,甚至会将错误的数据带入开发流程中。

  因此,Tagged安装了新的部件,希望能够更好地控制数据提取和处理。Schleier-Smith说:“我们的数据团队在日志流的端对端质量上花费了好几个月的时间。”

  他们创建了自动控制,监控数据并在超出既定基准范围的情况下发出警报(比如日志事件或过去几小时中载入事件数量的时间间隔)。

  除此之外,还会添加故障自趋安全。随着日志文档不断注入Tagged环境,它们会被顺势推向数据仓库,以将来自不同独立服务器的数据收集到同一个中央分析系统中。同时系统会创建一个临时文档备份,以防万一。另外,硬件故障还会激活自动恢复程序。

  Schleier-Smith说:“多留心小事,以免大患。哪怕数字不对一点点都值得警惕。”

  未来的规划

  最开始的时候,这个项目用来实现数据在Tagged环境中传输的标准化,后来改变了日志文档的处理方式。Schleier-Smith说:“传输过程中的数据丢失已经得到控制,我们下一步需要解决更加复杂的数据质量问题。”

  今天,网页、移动和点击流日志一进入Tagged环境,系统就会添加结构,标记具体分析数据。

  Schleier-Smith以信息交换为例,分析师可以通过两名用户之间的互动频率与共同好友来判断他们的关系是不是朋友。但是如果两名用户曾经是朋友,现在已经不是,这个分析过程会更加复杂与耗时。

  作为推荐可能匹配对象给用户的一个社交网站来讲,双方的信息都非常重要。Tagged的技术开发人员编写了突出关键数据的程序。

  “如果我们想要研究朋友之间的通信模式,就必须想出比在信息日志中添加一项更行之有效的方法。”

  换句话说,数据质量工作不仅仅在于确保数据的准确性,而更应该在更加有效地运用数据上面下功夫。

  Schleier-Smith说:“预先精心设计很必要。精心设计好的结构化数据能够即刻获得更好的洞察;相反地,如果日志事后处理,就会留下很多空子,在大量数据涌入的情况下难以更正。”

  除此之外,他指出,将多余的任务自动化、为员工提供高质量的数据将使工作效率大大提高,这样数据科学家和分析师们就能够尽其所长地去解决问题。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

作者

Nicole Laskowski
Nicole Laskowski

Nicole Laskowski is a senior news writer for SearchCIO.com and SearchCIO-Midmarket.com. She covers CIO strategies for analytics, business intelligence and data management. Prior to joining TechTarget, she worked as the news editor for a community newspaper in Arlington, Mass., overseeing the news content of both the weekly print publication and the newspaper’s website. Nicole also has worked for two other community newspapers in Oregon and Michigan and brings 10 years of writing and editing expe

相关推荐