数据分析中的9种偏见以及如何避免

日期: 2024-07-12 作者:George Lawton翻译:邹铮 来源:TechTarget中国 英文

偏见会通过多种方式出现在分析中,从如何假设和探索问题到如何采样和整理数据。对于任何处理数据的人来说,解决偏见应该是工作的重中之重。如果不小心,在任何阶段都可能引入偏见,从定义和捕获数据集到运行分析或人工智能和机器学习系统。

虽然数据科学家永远无法完全消除数据分析中的偏见,但他们可以采取对策来寻找它,并在实践中缓解问题。为了避免偏见,首先要认识到数据偏见存在于数据本身、分析或使用数据的人以及分析过程中。在数据分析中,偏见会带来很多不利影响,从做出直接影响底线的错误决定到对某些人群产生不利影响。

数据分析中的偏见是什么?

偏见是一种统计偏误,可以在数据分析生命周期的任何阶段发生,包括数据的测量、整合、处理或分析。通常,偏见不会被注意到,直到你根据数据做出决定发现错误,例如构建预测模型,随后被证明是错误的。生成式AIGenAI)模型及其用于分析的过程也开始引入新型偏见。

全球战略和管理咨询公司Kearney数字和分析业务的合伙人Bharath Thota表示,这类系统性问题可以以多种方式发生。这些包括团队测量、采样、观察和关注数据分析过程的方式。

一般来说,避免偏见的最佳方法通常从确定偏见的来源和确定对策开始。交叉验证模型也可以提高模型的准确性。进行探索性数据分析可以帮助在过程的早期发现潜在的偏差。

统计教科书充满了基本的偏见类型。然而,由于业务实践的变化和新技术(例如生成式AI)的使用,业务分析团队正越来越多地遇到新的偏见。以下是数据分析中常见的9种偏见,以及解决每种偏见的方法。

1. 使用错误的数据

数据分析团队有时会选择大数据而不是粒度数据。例如,团队可能会每周收集零售连锁店所有商店每日销售额的数据,以进行特定分析。供应链规划和优化公司ToolsGroup的首席执行官Inna Kuznetsova表示,与更小的更精细的数据相比,这有时需要更多的时间和费用,但在规划促销方面,这种数据没有很大用处。相反,在小部分商店集群中,按小时跟踪这些商店营业的销售额将使商店能够规划针对特定客户需求的促销活动。

如何避免

从分析类型开始,并考虑在相关数据集中识别模式的最佳方式。此外,确定某些数据集可能与给定分析无关。例如,在夏季海岛上,一个高档品牌的独立商店可能不会遵循圣诞节大规模销售的常规模式。这家商店的销量主要产生在夏季,当人们在夏季结束离开后,它几乎很少卖出任何东西。Kuznetsova说,更大的数据对该商店没有用,但更精细的数据是有用的。

2. 确认偏差

当研究人员只选择支持他们自己假设的数据时,就会产生确认偏差。在评估结果时,最常发现确认偏差。

数据咨询公司Business Data Leadership合伙人Theresa Kushner说,如果结果倾向于证实我们的假设,我们就不会进一步质疑它们。然而,如果结果不能证实我们的假设,我们会不思索地重新评估过程、数据或算法,认为我们一定是犯了错误。

如何避免

在将模型发送给用户之前,开发程序以测试偏差。理想情况下,最好与不同的团队一起运行测试,不同的团队可以以新的眼光查看数据、模型和结果,以识别原始团队可能错过的问题。

3. 可用性偏差

Protiviti公司董事总经理兼企业数据治理负责人Matt McGivern表示,他越来越多地看到一种新的偏见,即以前在公共领域的高价值数据集被锁定在付费墙后面或不再可用。根据建模人员的财务支持和数据类型,未来的模型结果可能会偏向于公共领域内仍然免费提供的数据集。

如何避免

根据建模用例,创建高质量的合成数据集可以帮助解决可用性问题。此外,未来可能会有一些优势,因为以前仅供个别组织使用的更多数据集现在公开开放,即使需要支付费用。

4. 时间偏差

重要的是要考虑特定预测在不同的时间窗口中可能会如何变化,例如工作日/周末、月底、季节或节假日。当使用特定时间的数据在不考虑潜在变化或季节性的情况下做出预测或得出结论时,可能会出现时间偏差。

如何避免

电子发现平台Consilio的首席顾问Patrick Vientos表示,可能的缓解措施包括使用时间序列分析技术,滚动窗口进行模型培训和评估,考虑季节性和周期性模式,以及定期使用新数据更新模型。

5. 人工智能无误偏见

生成式AI模型可能编写看起来权威的文章作为他们的回应,但律师引用乱编的案件的头条新闻最近引起了人们的注意。全球咨询公司SSA & Company应用解决方案副总裁Nick Kramer表示,他在业务分析案例中也看到了同样的问题,即用户依靠GenAI进行计算,并信任数字或匆忙发送带有不正确事实的电子邮件。

如何避免

Kramer建议在接触人工智能时,应该像你去接触没有经验的新员工。对于采用生成式AI工具来帮助解释分析的用户,他们需要关于GenAI和大型语言模型(LLM)的优势和劣势的全面培训。对模型产生的结果保持正常的怀疑态度也很重要。

6. 乐观主义偏见

分析师或数据科学家有时会生成积极、充满希望和支持企业目标的分析或见解集合。这可能没有展示全部真相,并可能错过最有可能发生的事情,也无法进行适当的风险识别和缓解。

如何避免

公司咨询和业务转型公司Lotis Blue Consulting的合伙人兼首席数据科学家Donncha Carroll建议团队常规化、识别和奖励早期风险识别和准确性。这需要提出正确的问题,以得出正确的信息,并理解平衡视角的价值。同样重要的是,花时间审查过去业务决策的基础,以确定哪些见解和方法提供最佳结果。

7. 机器偏见中的幽灵

Carroll也开始看到这样的情况,即新的AI工具被集成到传统分析中,导致生成见解的过程复杂化。这些复杂的模型可以提供重要且高价值的见解。然而,它们在引擎盖下也引入了复杂性。例如,每个答案都可能是来自不同来源的信息拼凑,这使得更难理解每个组件线程或来源是否被准确提供和适当加权。

如何避免

Carroll建议,公开和诚实地确定,基于系统提供的答案而做出错误决策会带来怎样的影响。确定信息创建过程或管道在哪里应该由机器驱动,以获得最重要的见解。然后,在此过程中建立一个或多个人为的步骤来审计信息和方法,以避免犯危险的错误。

8. 预处理偏差

数据的分类和准备阶段有时会引入预处理偏差。SAS数据伦理实践的高级数据科学家Allie DeLonay表示,关于变量转换、如何处理缺失值、分类、采样和其他过程的决策可能会引入偏差。

例如,在疫情期间,广泛采用远程医疗,这为医疗保健专业人员提供的数据带来一些系统性变化。因此,数据科学家不得不考虑如何在各个流程中处理不同的数据集。例如,患者在家收集的健康监测设备数据可能需要与医院护士收集的类似数据不同的处理步骤。

如何避免

DeLonay说,当数据丢失或可能需要以不同的方式处理时,数据科学家需要决定该怎么做。他们需要小心,特别是在医疗保健等领域,因为一些研究表明,这些类型的决定会增加不公平性。

假设一名数据科学家使用初级保健访问数据来评估疫情如何影响高血压患者的血压值。在这种情况下,他们需要决定如何处理缺少生命体征的数据。这就是他们需要特别谨慎的地方,毕竟这可能危及患者生命。

9. 术语偏见

当对模型进行训练时,所采用的训练数据使用与某个组织不同的术语,生成式AI模型也可以在分析中引入偏见。在针对独特的企业数据运行分析时,这可能会导致问题。人工智能平台Aible的创始人兼首席执行官Arijit Sengupta说,最终发生的情况是,生成性人工智能不理解公司特定的术语。例如,一家公司可能会将销售区称为“sales zone”,但人工智能模型所知道的术语可能是“sales territory”,尽管字面意思相同。

如何避免

企业必须考虑将其数据与LLM接受培训的数据相比具有代表性。Sengupta表示,在简单的情况下,通过将公司特定的单词翻译成更好的单词,为LLM,快速增强可以提供帮助。更复杂的案例可能需要微调LLM,以产生更实质性的差异。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

翻译

邹铮
邹铮

相关推荐