您的位置:首页 > 其它

Stanford 机器学习 Anomaly Detection

2016-05-11 20:59 183 查看

Anomaly Dectection



检测异常点,通过判断该点出现的概率,如果概率较小,就判断为异常点,否则为正常点。



高斯分布,均值和方差这两个参数的估计,在实际情况下,分子为m或者m-1差别不大。



如何分配训练集和测试集。



对于算法的评估,如果anomalous点较少时,应该如何评估。



Anomaly Dection和Supervised learning的区别:

异常检测:

1. 异常点较少

2. 正常点特别多

3. 异常出现的情况多种多样

4. 有可能出现训练集中没有预料到的异常

监督学习:

1. 正样例和负样例都比较多

2. 算法能从训练集中正确学习到如何判断一个样本是正样本还是负样本



当发现数据分布和高斯分布有差别时怎么处理,一种求log,一种是求xcx^{c}。



当异常点在正常点的判断范围时,可以考虑是否可以寻找添加一个特征,使得异常点能够正常检测到。



多元高斯分布和u,和协方差矩阵之间的关系。当非对角线元素为负时,二者是负相关,当对角线元素为正时,二者正相关。



多元高斯分布,包括均值和协方差矩阵的求法。





使用原始模型的情况:

1. 发现获取向量间的关系

2. 计算需求少,适用于当特征特别多的情况

使用多元高斯分布:

1. 自动的发现特征之间的关系

2. 计算消耗大,n不能特别多

3. m一般是n的十倍以上,即训练集的数量远远大于特征的数目。如果两个特征时线性关系的话,会导致协方差矩阵不可逆。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: