如果数据科学家和分析师不能对他们正在寻找和分析的数据集做出合适的选择,预测分析应用程序可以就会偏离轨道。 成熟的数据科学核心任务之一是利用数据挖掘和机器学习算法来开发预测模型,旨在预测客户行为和其他未来事件。但是,如果在前期没有选择正确的数据挖掘数据集合,即使是最佳设计的模型也可能会误入歧途。 预测模型基本上依赖于一组预测变量,其预期值将影响未来的活动。
天气建模是一个常见的例子。分析与环境因素相关的一组变量的历史价值,以查看特定类型的天气事件(如飓风,暴风雪或阳光灿烂的日子)有哪些组合特征,然后根据当前条件的数据运行分析模型进行预测。 预测模型也用于许多不同的业务应用。银行通过包括年龄、婚姻状……
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
预测模型得到一定的监督
预测模型通常使用称为“监督学习”的过程开发,其中选择一组预定结果,识别可能有助于预测结果的变量,并将统计分析算法应用于测试数据集,以确定哪些变量是最相关的预测因子以及如何加权。收集合适的数据挖掘数据集是该过程中的关键步骤,它期望在每个选定的结果之前找到最具统计学意义的变量值。最终结果是一组规则,将加权函数应用于所识别的预测变量的值到选定的结果。 使用较早的天气预报示例,数据科学家或其他分析师可能会选择五种不同的天气情况:暴风雪、雷暴、阳光、雾气和风。接下来,选择温度、湿度、云层、风速、日出时间、高压和低压系统的位置以及喷气流的方向等变量的集合,然后收集和分析这些变量的值。完成的分析将提供如下预测指标:“全天绝大部门时间的温度高于65度,湿度低于20%,有10%的云层覆盖,有一个高压系统通过该地区,明天将是阳光灿烂的一天,晚些时间可能出现多云天气。”数据偏差给出模型错误的视图
分析团队在开发具有特定数据集的准确预测模型时面临着一些重大挑战。一个基本的挑战源于数据集可能具有一定的分歧。因此,模型可能非常适合一个数据集,但不能普遍适用于其他数据集。 这就是为什么分析师通常将他们使用的数据集分为两组:用于开发可以产生所需输出的模型的训练数据集和可以检查偏差的验证数据集,验证模型是否正常工作并为需要获得有效的结果进行调整。一些数据科学家甚至可以使用三个数据集,使用单独的数据来调整模型并验证其准确性。 为了避免错误的预测,在选择用于预测建模工作的数据挖掘数据集时,必须非常小心。首先,要确保数据集包含足够的数据,以表示正在尝试建模和分析的真实事件。 此外,要确保它的大小和多样性足以涵盖想要的建模结果的所有场景。最后,将模型开发过程的不同阶段划分为不引入或加强潜在偏见的方式。 从正确的数据集开始,将有助于改善您的数据挖掘和预测分析项目的结果。如果使用错误的数据集会造成怎样的后果,你懂的。相关推荐
-
数据丰富的企业将重点转向道德数据挖掘
随着数据泄露事件席卷Facebook、Equifax等公司,越来越多的公司开始谈论道德数据挖掘。虽然大部分讨论 […]
-
十大步骤帮你有效使用预测分析算法
一个成功的预测分析项目不仅仅涉及软件部署,使用软件分析数据。了解下面这些步骤可以帮助你为分析项目打下坚实基础。
-
人力资源分析 需要的不仅仅是数据
数据并不能直观显示员工的工作表现和员工留存率,更多的公司计划使用员工分析工具来帮助员工做出决策。
-
数据挖掘规则正在改变 人工智能技术更需信任
随着特朗普政府和国会与互联网服务供应商合作的展开,逐渐放宽了对用户搜索历史的管制,数据领域可能会进一步扩大。