您的位置:首页 > 其它

【学习笔记】基于随机森林分类的微博机器用户识别研究

2017-11-09 16:44 477 查看
1.基于随机森林分类的微博机器用户识别研究  这篇论文在网上随便找

2.文中提出了8个点来识别是否为机器用户

条件信息熵

内容相似度

互关的比例

发私信率等等

比较难实现的应该是第一个点,条件信息熵,大概是如果发微博的比较规律,那么就可能是机器用户。

内容相似度指用户发布的微博与其他用户微博的相似程度,因为机器用户会伪装(那我的微博全部都是hhhhh 哈哈哈哈 66666 岂不是被识别成机器用户了?)

3.随机森林分类

文章列了很多随机森林分类的优点,比如每个指标只需要包含少量区分信息就可以了,对相关性不是特别敏感,对离散点不敏感等等。

如果不知道什么是随机森林分类,可以先学学决策树。

我决策树是在《机器学习实战》里学的,觉得讲得特别好。

随机森林分类就是很多决策树。

这里决策树的训练还和一般的不同。要有放回地抽样,有随机的特征候选集

在论文里特征候选集m=3,也就是在8个特征里随机挑3个,构造决策树,然后多个决策树一起构成随机森林分类。

4.原始数据集的获取

调用api接口(微博现在有好多限制)和爬虫,人工划分机器学习用户和普通用户

感觉好麻烦啊= =
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐