您的位置：首页 > 其它

不同预测算法比较实例(R语言)

2021-03-23 20:47 85 查看

实例演示框架

此次我们使用的样本数据共538条，包括18个自变量和1个因变量组成。因变量取0时代表会发生异常，取1时代表不会发生异常。整体演示框架如下：

实例演示框架

step1

SMOTE方法平衡正负样本;

LOF方法剔除异常值；

step2

step3

分别使用随机森林、逻辑回归、

svm训练分类器;

绘制3个分类器的ROC曲线，

比较结果;

分步讲解

step1

导入数据后，观察y值的取值分布，发现整体样本较少，且正样本数与负样本数比例仅为4:10，因此需要扩充样本并进行正负样本平衡，这里我们使用SMOTE方法。

对数据扩充平衡后，使用LOF方法，删除异常点。根据下方异常值得分密度图，将得分超过3的点作为异常点剔除。

剔除后，数据分布如下：

step2

对处理后数据进行训练集与测试集划分，使用三种算法在训练集上构建分类器，在测试集上比较结果。

首先使用随机森林构建分类器。在构建随机森林分类器时，根据OBB误差最小选择合适的mtry值，再根据树的棵树与误差图选择合适的ntree值。

确定好参数后，训练最终分类器，并可得到变量重要性排序。

构建好随即森林分类器后，继续将逻辑回归及svm分类器构建完毕，然后将三个分类器分别对测试集进行预测。

step3

通过roc曲线比较三个分类器效果。在本例中，随即森林效果最好，逻辑回归效果最差。

完整代码

本例涉及到多个包，关于R语言包的安装方法可参见R语言包的安装。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航