数据清洗的异常值处理

tamoadmin 赛事报道 2024-04-26 20 0

数据清洗的异常值处理

在数据清洗的过程中,异常值的处理是一项重要的任务。异常值,也称为离群点,是指数据集中存在的一些不合理的值,这些值偏离了正常的范围。如果不进行适当的处理,异常值可能会对数据分析的结果产生偏差。以下是几种常见的异常值处理方法:

1.异常值的识别

1.1

简单统计分析

最常用的统计量是最大值和最小值,用来判断这个变量的取值是否超出合理的范围。此外,还可以使用统计软件如Python的pandas库来生成描述性统计报告,以便更好地了解数据的分布情况。

1.2

3σ原则

如果样本服从正态分布,根据正态分布的特点,如果样本值大于或小于3倍标准差的概率为0.003,属于小概率事件,因而我们可以将其视为异常值。在实践中,首先通过数据的直方图和密度图观察样本分布,然后计算zscore进行定量判断。

1.3

箱型图分析

箱型图非常适合做异常值观察的图形,箱型图的五根线从上到下依次表示为最大值、最小值、上四分位、下四分位和中位数,最大值区间:上四分位+1.5IQR,最小值区间:下四分位1.5IQR,其中IQR=上四分位数下四分位数,高于最大值或小于最低值被认为是异常值。因此,异常值通常被定义为小于QL1.5IQR或者大于QU+1.5IQR的值,QL为下四分位数,QU为上四分位数。

2.异常值的处理

2.1

删除

直接将含有异常值的记录删除,通常有两种策略:整条删除或成对删除。这种方法最简单易行,但缺点也不容忽视,一是在观测值很少的情况下,这种删除操作会造成样本量不足;二是直接删除可能会对变量的原有分布造成影响,从而导致统计模型不稳定。

2.2

视为缺失值

利用处理缺失值的方法来处理。这一方法的好处是能够利用现有变量的信息,来填补异常值。需要注意的是,将该异常值视为缺失值处理,需要根据该异常值(缺失值)的特点来进行,针对该异常值(缺失值)是完全随机缺失、随机确实还是非随机缺失的不同情况进行不同的处理。

2.3

平均值修正

如果数据的样本量很小的话,也可用前后连个观测值的平均值来修正该异常值。这种方法其实是一种比较折中的方法,大部分的参数方法是针对均值来建模的,用平均值来修正,优点是能克服了丢失样本的缺陷,缺点是丢失了样本“特色”。

2.4

盖帽法

整行替换数据框里99%以上和1%以下的点,将99%以上的点值=99%的点值;小于1%的点值=1%的点值。这种方法的优点是简单易行,但可能会改变数据的整体分布。

2.5

分箱法

分箱法通过考察数据的“近邻”来光滑有序数据的值。有序值分布到一些桶或箱中。包括等深分箱:每个分箱中的样本量一致;等宽分箱:每个分箱中的取值范围一致。这种方法的优点是可以更好地保持数据的原有分布,但可能会丢失一些信息。

2.6

回归插补

发现两个相关的变量之间的变化模式,通过使数据适合一个函数来平滑数据。若是变量之间存在依赖关系,也就是y=f(x),那么就可以设法求出依赖关系f,再根据x来预测y,这也是回归问题的实质。这种方法的优点是可以更好地保留数据的信息,但可能会引入一些预测误差。

2.7

多重插补

多重插补的处理有两个要点:先删除Y变量的缺失值然后插补

1)被解释变量有缺失值的观测不能填补,只能删除,不能自己乱补;

2)只对放入模型的解释变量进行插补。这种方法的优点是可以更好地保留数据的信息,但可能会引入一些预测误差。

2.8

不处理

根据该异常值的性质特点,使用更加稳健模型来修饰,然后直接在该数据集上进行数据挖掘。这种方法的优点是不会对数据产生额外的影响,但可能会引入一些偏差到分析结果中。

数据清洗的异常值处理

在选择处理方法时,需要结合实际情况和数据分析的具体需求来进行综合考虑。