您的位置：首页 > 其它

【学习笔记】基于随机森林分类的微博机器用户识别研究

2017-11-09 16:44 477 查看

1.基于随机森林分类的微博机器用户识别研究这篇论文在网上随便找

2.文中提出了8个点来识别是否为机器用户

条件信息熵

内容相似度

互关的比例

发私信率等等

比较难实现的应该是第一个点，条件信息熵，大概是如果发微博的比较规律，那么就可能是机器用户。

内容相似度指用户发布的微博与其他用户微博的相似程度，因为机器用户会伪装（那我的微博全部都是hhhhh 哈哈哈哈 66666 岂不是被识别成机器用户了？）

3.随机森林分类

文章列了很多随机森林分类的优点，比如每个指标只需要包含少量区分信息就可以了，对相关性不是特别敏感，对离散点不敏感等等。

如果不知道什么是随机森林分类，可以先学学决策树。

我决策树是在《机器学习实战》里学的，觉得讲得特别好。

随机森林分类就是很多决策树。

这里决策树的训练还和一般的不同。要有放回地抽样，有随机的特征候选集

在论文里特征候选集m=3，也就是在8个特征里随机挑3个，构造决策树，然后多个决策树一起构成随机森林分类。

4.原始数据集的获取

调用api接口（微博现在有好多限制）和爬虫，人工划分机器学习用户和普通用户

感觉好麻烦啊= =

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航