深入机器学习系列——异常检测(Anomaly Detection)

菜小编

数据结构与算法

3.7W+

2018-10-23

异常检测(Anomaly Detection), 它是机器学习的一个重要分支，实际应用领域广泛，更与我们的生活息息相关。那么什么是异常检测？其主要方法和目前所面临的技术难题有哪些？本文或许能提供一些参考。

定义

异常值

霍金斯的定义为：“异常值是一个与其他观察结果有很大差异的观察结果，以此引起人们怀疑它是由不同的机制产生的”。

异常检测

所谓异常检测就是发现与大部分对象不同的对象，也就是发现离群点。一般规定数据具有“正常”模型，而异常被认为是与这个正常模型的偏差。在实际应用中对异常的定义也是特定的。

应用领域

网络入侵检测
保险/信用卡诈骗检测
保健信息获取/医疗诊断
产业损坏检测
图像处理/视频监控

主要挑战

很难定义具有代表性的“正常”区域
正常行为与异常行为之间的界限往往并不明确
不同的应用领域对异常值的确切定义不同
难以获取用于训练/验证的标记数据
数据可能含有噪声
正常行为并不是一成不变的，会不断发展变化

异常检测方法

一、图形方法：箱型图二、统计方法：单变量/多变量高斯分布三、基于距离的方法

四、基于密度的方法：LOF

五、基于模型的方法：孤立森林、RNN

一、图形方法：箱型图

方框的底部和顶部分别为Q1（下四分位数）和Q3（上四分位数）
方框内的线段为第二四分位数（中位数）
大于下四分位数+1.5IQR或小于上四分位数-1.5IQR的值为异常值（四分位距IQR=Q3-Q1）

二、统计方法：单变量/多变量高斯分布

总体思想

已知某种统计分布（如高斯分布）
假设所有数据点都由该分布生成（如平均值和标准差），进行参数计算
异常值是整体分布产生概率较低的点

基本假设

正常数据点遵循（已知的）分布且出现在该模型的高概率区域中
异常值偏离这种分布

1、单变量高斯分布

(1) 选出可能表示异常实例的特征xj

(2) 与参数u1, …, un, σ12，…, σn2拟合

(3) 已知新实例x，计算出p(x)

(4) 若 p(x) < ε，则该数据为异常值

2. 多变量高斯分布

3. 问题

平均值和标准偏差对异常值非常敏感。
这些值是针对完整数据集（包括潜在异常值）而计算的。
很难选择恰当的ε值。
数据分布未知。

三、基于距离的方法：k近邻算法

总体思想

根据与相邻点的距离来判断一个点是否为异常

基本假设

正常数据点具有密集的邻域
异常值则远离其相邻点，即具有较为稀疏的邻域

实施方法

计算每对数据点间的距离

定义异常值的几种方法

在给定距离D之内相邻点少于p的点为异常值
与第k个相邻点的距离最大的前n个点为异常值
与k个最邻近点的平均距离最大的数据点为异常值

问题

该假设不一定适用于所有情况。
计算每对数据之间的距离花费较大。
维数灾难问题，即随着维数的增加，计算量呈指数倍增长。

四、基于密度的方法：局部异常因子（LOF）

总体思想

将某一点周围的密度与其局部相邻点周围的密度进行比较
该点与其邻相邻点的相对密度计为异常得分

基本假设

正常数据点的密度与其近邻的密度相近
异常点的密度与其近邻的密度相差较大

1. 对于点p的第k距离

点p的第k距离（k为任意正整数），表示为k-distance(p)，其定义为点p到点o∈ D的距离d(p,o)，使得：

(1) 在集合中至少有不包括p在内的k个点o’∈D满足d(p,o,)≤d(p,o) 且

(2) 在集合中最多有不包括p在内的k−1个点o’∈D，满足d(p,o,)<d(p,o)

点p的第k距离邻域Nk(p)，就包含了距点p的距离不大于第k距离所有点，即Nk-distance(p)(p) = { q ∈D \ {p} | d(p, q) ≤ k-distance(p)}。

这些点就称为p的k个最近邻点。

2. 点p关于点o的可达距离

设k为一个自然数，点p关于点o的可达距离定义为：

reach-distk(p, o) = max { k-distance(o), d(p, o) }

3. 异常得分的分布

观察可知，大多数情况下，判断数据点是否异常的异常得分最佳阈值大约为2。

4. 步骤总结

计算每个点与数据集中其他点之间的（欧几里德）距离。O(n2)
将所得距离排序。O（nlogn）（最近邻问题）
计算每个点的可达距离。
计算每个点的局部可达密度。
计算每个点的局部异常因子。

5. Spark-LOF可视化

6. 问题

运行时间呈指数增长
维度灾难

五、基于模型的方法：孤立森林、RNN

1. 孤立森林(Isolation Forest)大多数现有的异常检测方法首先构建出正常数据的定义，然后将为不符合该定义的识别为异常。这些异常检测功能通常只是某些算法的“附带效果”或副产品，这些算法原本是为异常检测以外的目的而设的（如分类或聚类）。这导致了以下两方面的缺陷：

(i) 这些方法不针对检测异常进行优化，因此，它们的性能通常不尽人意，可能会触发过多错误警报（将正常值检测为异常），也可能检测灵敏性低，遗漏一些异常；

(ii) 由于其原始算法的遗留，许多现有方法受限于低维数据和较小的数据量。

(1) 假设

孤立森林通过孤立实例来检测异常，并不依赖于任何距离或密度度量。

i）检测对象是少数包含几个实例的数据集

ii）它们的属性值与正常实例的属性值相差较大

可通过任何分隔实例的方式实现孤立。

(2) 孤立树设T是孤立树的节点。T是没有子节点的外部节点，或者是具有一个测试的内部节点，并含有恰好两个子节点(T1，Tr)。节点T处的测试由属性q和分割值p组成，测试q <p可确定数据点到T1或Tr的遍历。 (3) 孤立森林：训练阶段

（4）孤立森林：评估阶段

（5）孤立森林：异常得分

（6）调节异常得分的粒度

2.复制神经网络(RNNs)(1) 假设RNN尝试在输出中重现输入模式。在训练期间，调整RNN的权重以最小化所有训练模式的均方误差（或平均重构误差）。

因此，经过训练的RNN更可能很好地再现共同模式，而表示异常值的模式的再现效果则较为逊色，且重构误差较高。

重构误差可用于衡量数据的孤立程度。

中间隐藏层（k = 3）的激活函数呈阶梯式，参数N是步数或激活级别，a3控制从一个级别到下一个级别的转换率。

(2) 成本函数

m是训练集中的记录数，n是特征数，xij是输入值，也是目标输出值（i = 1,2，...，m，j = 1,2， ...，n）和olij是第7次迭代时RNN输出的值。(3) 异常因子(OF)我们将第i条数据记录OFi的异常因子定义为异常的度量。OFi由所有特征（变量）的平均重构误差定义。

其中n为特征数量。使用训练好的RNN评估所有数据记录的OF。

结语

简而言之，异常检测就是要从茫茫数据中找到那些“长的不一样”的数据，但检测过程一般较为复杂，而实际情况下数据一般都没有标签（label），因而很难界定与监测正常与异常，这方面还有很大的突破空间。

THE END

为 Python 添加远程调试能力而不修改系统代码

<<上一篇

Docker镜像和GitLab的CI/CD工具构建一个Pipeline，在VPS/KVM Linux服务器进行部署

下一篇>>