David Nettleton是《商业数据挖掘:为预测分析项目处理,分析和建模》一书的作者,他还是一位在数据分析处理方面有丰富经验的顾问和学术研究者。在此次TechTarget访谈中,Nettleton谈论了企业在筹划和执行数据挖掘项目以及其他高级分析计划的时候所要面临的挑战。为了满足业务人员的需求,技术部门往往要绞尽脑汁、尝试各种方法。这里,Nettleton给出了一些关于开发有效数据挖掘应用程序以及保持对数据分析工作进行追踪的相关建议。
TechTarget:您认为,实现一个数据分析项目最具挑战的方面有哪些呢?
David Nettleton:这要视情况而定。随着项目的推进,有些我们原本预计很容易的事情会变得异常困难,而其他我们本以为很困难的东西则会变得容易。项目的首要步骤就是要定义一个或多个业务目标。这样项目就会进行的很快很顺利,否则则会事倍功半。
然后,有必要通过集体讨论选出最可行的目标。接下来需要评估可行性,它与数据的可用性相关联。获取,过滤并准备正确的数据通常是一个关键步骤。项目成员可能会发现直接进行数据分析要比例行的准备和验证数据工作来的更加有趣。
准备数据是决定后期分析和挖掘阶段成功与否的关键环节。我们可能会发现所需的数据变量并不存在,但我们必须要获得这些变量。有时虽然有一些关键变量,但是数据是错误的或是以不正确的格式存在的。另外一个有问题的步骤就是部署。我们需要确定如何在业务流程中应用我们的分析结果。
TechTarget:项目人员如何做才能实现项目的成功?什么样的技能才是有用的?
Nettleton: 现在需要既了解IT又了解业务的复合型人才。项目还需要熟悉数据工作的人。另外,之前在此类项目上的经验很显然是一项优势。至于项目流程,最初一个营销或业务经理可能会提出一个或多个业务目标。接下来,IT经理会列出一张所需数据的初始清单来满足每个业务目标,然后会审查公司数据库来判断当前状态数据是否可用。有了正确的数据之后,我们还需要与一个熟练使用选择数据分析和挖掘工具的分析师协同工作。
TechTarget:有没有能够分析大量数据的工具?
Nettleton: 这要取决于业务目标。一项关于离群值的研究显示,比如在欺诈检查上,可能会需要对所有可用数据进行详尽处理以捕捉异常。如果我们想要将客户进行细分,我们为了做到这点需要所有的客户么?答案是否定的,只要我们能够从完整数据集中提取出具有代表性的抽样即可。
大数据也意味着专业软件,例如Hadoop,还有专业硬件,例如服务器集群。同样,数据量可以用长(记录数量)宽(描述性变量的数量)加以衡量。我们可以有上十亿的记录和四个变量,也可以有百万的记录和一百个变量。
对于每个变量,我们必须要问的是我们为什么需要它,而对于记录的数量,我们必须要问的是它们的覆盖范围。如果当前业务的周期是两年,那我们就没必要处理十年前的数据。如果我们是一个处理能力有限的中小型企业,那么我们就必须在处理数据的成本和从挖掘数据中所获利益之间加以权衡。
TechTarget:人们在数据挖掘项目上最常犯的错误有哪些,又该如何避免呢?
Nettleton: 造成数据分析项目出错的原因大概有三个,分别是数据偏差,数据处理中的错误和错误的解释造成的。
第一种错误类型可能与不正确的抽样或扭曲的数据有关。例如,我们想要研究年龄在18至35岁之间的女性对反吸烟的健康公益广告的反应,但我们集中的所有数据记录对应的都是有过吸烟历史的人。如果真是这样,我们可以根据兴趣变量,检查正确分布的动态数据,稍作修正。
第二种错误类型可能是由于选择错误数据或是在格式化非法数据值,标志等过程中的错误造成的。要解决这一问题,需要熟悉数据提取和迁移的人员在处理阶段,花费更多的时间和精力,提高可用性。
第三种错误类型,误解,可能是因为在数据分析上缺乏经验或是做了过度总结造成的。另外一个相关问题是覆盖率不足,例如,数据是否是仅仅用一个地区代替了整个国家。
其他的数据分析问题包括:
- 任务缺乏正确数据。此问题可能与在一开始就选择了一个不可行的目标有关。
- 分析师只依赖一项技术来进行数据分析,此项技术可能是分析师偏爱或是最熟悉的。而花费时间和精力学习如何使用不同的方法是非常值得的。
- 把输出变量,也就是未来的分析结果,作为输入变量来使用,不断地提升预测精度。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
作者
翻译
相关推荐
-
数据丰富的企业将重点转向道德数据挖掘
随着数据泄露事件席卷Facebook、Equifax等公司,越来越多的公司开始谈论道德数据挖掘。虽然大部分讨论 […]
-
学习迪士尼的分析之道
华特迪士尼公司正在继续增加对数据分析的投资,以改善其关键业务部门的客户体验。 该公司的业务包括公园和度假村、媒 […]
-
多样化数据集分析可提供最高价值
在2011年11月丰田公司推出普锐斯V后,驾驶员很快就注意到刹车时奇怪的声音。普锐斯车主在2012年4月开始致 […]
-
看烧烤店如何使用Alexa强化后厨BI指示器
Dickey连锁烧烤餐厅计划使用亚马逊的Alexa,这样加盟商就可以在烹饪时获得操作数据,在烤架外查看指示器内容。