您的位置：首页 > 其它

论文读后总结1:一种对多元数据非监督异常点检测算法的对比评估

2017-06-18 22:44 603 查看

论文标题：A Comparative Evaluation of Unsupervised Anomaly Detection
Algorithms for Multivariate Data

对比的算法：

Abstract：

1. 异常检测只应用于无标签的数据，也就是说，只能运用非监督学习算法。

2. 异常检测应用领域有：网络入侵检测（network intrusion detection）、欺诈检测(fraude detection)、生命科学和医学领域

3. 此论文评估的能反映：不同方法的优势和劣势、性能、计算量(computational efforts)、参数设置的影响、全局/局部异常的检测行为

4. 此论文最后给出了：典型实战任务中算法选择的建议

Introduction：

1. anomaly detection=outlier detection

2. 异常检测的原始用途是data cleansing，后者的定义是：消除outliers，因为模式识别算法(pattern recognition algorithm)对其非常敏感

3. 异常检验在入侵检验中的应用：应用最多，此时的异常检验被称为行为分析（behavioral analysis），为了实时处理海量数据，往往采用的是简单而快速的异常检验算法。通常使用模式匹配来检测已知的威胁，用额外的异常检验模块尝试识别未知的可疑行为

4.  异常检验在欺诈检验中的应用：通常分析日志数据，主要应用于金融领域，网络支付系统

5.  异常检验在数据防泄密（data leakage prevention, DLP）的应用：类似于欺诈检验，但要求准实时分析用以预防措施

6.  异常检验在医学应用领域和生命科学的应用：病人监护、分析医学图像（如CT）以检测畸形细胞或肿瘤。寻找异常状态或突变体。

7. 异常检验也可以依据检测出异常的时间点来分类：事后分析（post-incident analysis）、准实时监测、预先警告

Categorization of Anomaly Detection：

1. 异常检验设置

不同于分类设置，取决于可获得的标签，可分为三大类：

1.1 监督异常检测：

类似于模式识别，但他的类通常极其不平衡。决策树分类算法不适用，但SVM和ANN不错。但由于通常异常不是提前知道的，或者是测试阶段实时产生的，这种设置通常意义不大。

1.2 半监督异常检测：

用无异常的训练集训练出普通类的模型，因此偏离此模型的为异常。代表算法：One-class SVMs和autoencoders

1.3 无监督异常检验：

无标签，训练集和测试集无区别。用距离和密度判断是否是异常。本论文的关注点在此。

2. 异常检测算法输出

监督用label，半监督或无监督用score或置信值（实战中，只有top异常被报告给用户）。本论文使用score作为输出，并对结果进行排名用以性能评估。当然，通过设置阈值可以将排名变为标签。

3. 异常类型

全局异常、局部异常。微型簇。按照异常的分布状态可以分为：点异常检测、集合异常检测（可通过相关性、分组与合计来产生新特征，再使用点异常检测。需要有对数据集有扎实的背景，这个过程也叫做数据视图）、情境异常检测（可通过加入改变情境的因素作为新特征，再使用点异常检测）

4. 标准化

也需要背景知识。本论文采用典型的有极值正规化。

Related Work

本论文只处理表列数据。略。

Unsupervised Anomaly Detection Algorithms

分为：a.基于近邻的技术 b.基于聚集的方法 c.统计算法 d.子空间技术
本论文主要研究前两种以及实际运用最广泛的种类

1. k-NN全局异常检测

score有两种计分方法：kth-NN 和 k-NN(实际更倾向这个)。注意：不同于k-NN分类算法。
k一般属于（10，50）。不同于分类算法，无监督下，k的值不能用交叉验证。这篇论文用不同的k值和它们的平均值进行评估

2. LOF局部异常因子

step1. 得到记录x的k近邻Nk。
step2. 计算x的局部可达密度LRD，d(·)为x与每个近邻的可达距离。x越偏离，可达距离之和越大，局部可达密度越小。
step3. 计算x的局部异常因子LOF，这里还要算出x的各个近邻的局部可达密度LRD,用它们分别比上x的局部可达密度LRD(x)。x的可达密度LRD越小，局部异常因子LOF越大。因此，正常实例的score(LOF值)接近于1，反之，大于1

计算LOF的一种集成策略是计算LOF-UB。变化k，使得score最高，取此值。

3. COF基于连通性的异常因子

类似于LOF，但密度估计不一样。LOF是基于欧氏距离的，即默认数据是以球形分布的，假设是特征是线性相关的，LOF就无能为力。

COF中，近邻的局部密度是基于最短路径方法求得的，亦称链式距离（链接当前实例和所有k个近邻的最短距离之和）。

4. INFLO受影响的异常

应用场景：当两个不同密度的数据集很靠近的时候
算法使用k近邻和反向近邻集

（待续...）

5. LoOP局部异常概率

不算score，算概率。也许更方便比较不同数据集的异常记录。

6. LOCI局部关联积分

舍弃参数k，采用半径r，通过改变半径r，得到最高分，取这个最高分作为score。因此，复杂度由以前的O(n2)变为O(n3)。
类似于LoOP，用半高斯分布评估局部密度，且使用的是近邻个数，而不是距离。
不同于LOCI，比较的是两个不同尺寸的近邻而不是局部密度的比例
引入alpha控制不同近邻的比例。

7. aLOCI近似局部关联积分

解决LOCI时间复杂度过高的问题
（待续。。。）

8. CBLOF基于聚类的局部异常因子

k-means因其线性的计算复杂度在实际中最常被使用，是非确定性的算法（每次运行结果可能不同）。
score=某个实例到聚类中心的距离*聚类成员数
此论文作者反对CBLOF提出者的“使用聚类成员数作为转换系数能够估计聚类的局部密度”的观点表示不认同。采用了无权值的CBLOF，即uCBLOF。

9. LDCOF基于聚类的局部密度异常因子

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 对比评估非监督异常点检测算法

相关文章推荐

新的分享

章节导航