您的位置:首页 > 其它

论文读后总结1:一种对多元数据非监督异常点检测算法的对比评估

2017-06-18 22:44 603 查看

论文标题:A Comparative Evaluation of Unsupervised Anomaly Detection
Algorithms for Multivariate Data

对比的算法:

Abstract:

1. 异常检测只应用于无标签的数据,也就是说,只能运用非监督学习算法。

2. 异常检测应用领域有:网络入侵检测(network intrusion detection)、欺诈检测(fraude detection)、生命科学和医学领域

3. 此论文评估的能反映:不同方法的优势和劣势、性能、计算量(computational efforts)、参数设置的影响、全局/局部异常的检测行为

4. 此论文最后给出了:典型实战任务中算法选择的建议

Introduction:

1. anomaly detection=outlier detection

2. 异常检测的原始用途是data cleansing,后者的定义是:消除outliers,因为模式识别算法(pattern recognition algorithm)对其非常敏感

3. 异常检验在入侵检验中的应用:应用最多,此时的异常检验被称为行为分析(behavioral analysis),为了实时处理海量数据,往往采用的是简单而快速的异常检验算法。通常使用模式匹配来检测已知的威胁,用额外的异常检验模块尝试识别未知的可疑行为

4.  异常检验在欺诈检验中的应用:通常分析日志数据,主要应用于金融领域,网络支付系统

5.  异常检验在数据防泄密(data leakage prevention, DLP)的应用: 类似于欺诈检验,但要求准实时分析用以预防措施

6.  异常检验在医学应用领域和生命科学的应用:病人监护、分析医学图像(如CT)以检测畸形细胞或肿瘤。寻找异常状态或突变体。

7.  异常检验也可以依据检测出异常的时间点来分类:事后分析(post-incident analysis)、准实时监测、预先警告

Categorization of Anomaly Detection:

1. 异常检验设置

不同于分类设置,取决于可获得的标签,可分为三大类:

1.1 监督异常检测:

类似于模式识别,但他的类通常极其不平衡。决策树分类算法不适用,但SVM和ANN不错。但由于通常异常不是提前知道的,或者是测试阶段实时产生的,这种设置通常意义不大。

1.2 半监督异常检测:

用无异常的训练集训练出普通类的模型,因此偏离此模型的为异常。代表算法:One-class SVMs和autoencoders

1.3 无监督异常检验:

无标签,训练集和测试集无区别。用距离和密度判断是否是异常。本论文的关注点在此。

2. 异常检测算法输出

监督用label,半监督或无监督用score或置信值(实战中,只有top异常被报告给用户)。本论文使用score作为输出,并对结果进行排名用以性能评估。当然,通过设置阈值可以将排名变为标签。

3. 异常类型

全局异常、局部异常。微型簇。按照异常的分布状态可以分为:点异常检测、集合异常检测(可通过相关性、分组与合计来产生新特征,再使用点异常检测。需要有对数据集有扎实的背景,这个过程也叫做数据视图)、情境异常检测(可通过加入改变情境的因素作为新特征,再使用点异常检测)

4. 标准化

也需要背景知识。本论文采用典型的有极值正规化。

Related Work

本论文只处理表列数据。略。

Unsupervised Anomaly Detection Algorithms

分为:a.基于近邻的技术 b.基于聚集的方法 c.统计算法 d.子空间技术
本论文主要研究前两种以及实际运用最广泛的种类

1. k-NN全局异常检测

score有两种计分方法:kth-NN 和 k-NN(实际更倾向这个)。注意:不同于k-NN分类算法
k一般属于(10,50)。不同于分类算法,无监督下,k的值不能用交叉验证。这篇论文用不同的k值和它们的平均值进行评估

2. LOF局部异常因子

step1. 得到记录x的k近邻Nk。
step2. 计算x的局部可达密度LRD,d(·)为x与每个近邻的可达距离。x越偏离,可达距离之和越大,局部可达密度越小。
step3. 计算x的局部异常因子LOF,这里还要算出x的各个近邻的局部可达密度LRD,用它们分别比上x的局部可达密度LRD(x)。x的可达密度LRD越小,局部异常因子LOF越大。因此,正常实例的score(LOF值)接近于1,反之,大于1

计算LOF的一种集成策略是计算LOF-UB。变化k,使得score最高,取此值。

3. COF基于连通性的异常因子

类似于LOF,但密度估计不一样。LOF是基于欧氏距离的,即默认数据是以球形分布的,假设是特征是线性相关的,LOF就无能为力。

COF中,近邻的局部密度是基于最短路径方法求得的,亦称链式距离(链接当前实例和所有k个近邻的最短距离之和)。

4. INFLO受影响的异常

应用场景:当两个不同密度的数据集很靠近的时候
算法使用k近邻和反向近邻集

(待续...)

5. LoOP局部异常概率

不算score,算概率。也许更方便比较不同数据集的异常记录。

6. LOCI局部关联积分

舍弃参数k,采用半径r,通过改变半径r,得到最高分,取这个最高分作为score。因此,复杂度由以前的O(n2)变为O(n3)。
类似于LoOP,用半高斯分布评估局部密度,且使用的是近邻个数,而不是距离。
不同于LOCI,比较的是两个不同尺寸的近邻而不是局部密度的比例
引入alpha控制不同近邻的比例。

7. aLOCI近似局部关联积分

解决LOCI时间复杂度过高的问题
(待续。。。)

8. CBLOF基于聚类的局部异常因子

k-means因其线性的计算复杂度在实际中最常被使用,是非确定性的算法(每次运行结果可能不同)。
score=某个实例到聚类中心的距离*聚类成员数
此论文作者反对CBLOF提出者的“使用聚类成员数作为转换系数能够估计聚类的局部密度”的观点表示不认同。采用了无权值的CBLOF,即uCBLOF。

9. LDCOF基于聚类的局部密度异常因子

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息