最近我们被客户要求撰写关于检测异常值的研究报告,包括一些图形和统计输出。

此示例显示了Hampel用于检测和删除异常值的过程的实现。产生一个包含24个样本的随机信号x。 重置随机数生成器以获得可重复的结果。

通常我们会使用程序判断滤波的方式来过滤异常数据,比如说先对一个序列求平均值,方差等等,然后对每个数据和平均值或方差的偏差,设置一个阈值,差超过这个阈值就认为是异常数据,然后过滤。当然这个阈值只能是经验值,有时候不一定准确,或当异常数据变成常态的时候,异常数据就不再是异常数据,这时候如果还是使用阈值过滤就会有一些问题。当然程序判断滤波的方式还是适用于一些场景,并且实现比较方便。

在做数据统计,分析以及图像处理中,为了防止噪声对数据结果的影响,除了采用更加科学的采样技术外,我们还要采用一些必要的技术手段对原始数据进行整理、统计。数字滤波技术是最基本的处理方法,它可以剔除数据中的噪声,提高数据的代表性。常用的滤波技术有:程序判断滤波,均值滤波,中值滤波,加权平均,滤波,众数滤波,一阶滞后滤波,移动滤波,复合滤波等。

记录每个周围窗口的中位数。 找到每个元素相对于窗口中位数的绝对偏差的中位数。

查找与中位数相差超过nd = 2个标准偏差的样本。 将这些离群值替换为其周围窗口的中间值。 这是Hampel算法的本质。

使用hampel 计算滤波后的信号并注释异常值。 覆盖在此示例中计算的过滤值。