【学习笔记】基于随机森林分类的微博机器用户识别研究
2017-11-09 16:44
477 查看
1.基于随机森林分类的微博机器用户识别研究 这篇论文在网上随便找
2.文中提出了8个点来识别是否为机器用户
条件信息熵
内容相似度
互关的比例
发私信率等等
比较难实现的应该是第一个点,条件信息熵,大概是如果发微博的比较规律,那么就可能是机器用户。
内容相似度指用户发布的微博与其他用户微博的相似程度,因为机器用户会伪装(那我的微博全部都是hhhhh 哈哈哈哈 66666 岂不是被识别成机器用户了?)
3.随机森林分类
文章列了很多随机森林分类的优点,比如每个指标只需要包含少量区分信息就可以了,对相关性不是特别敏感,对离散点不敏感等等。
如果不知道什么是随机森林分类,可以先学学决策树。
我决策树是在《机器学习实战》里学的,觉得讲得特别好。
随机森林分类就是很多决策树。
这里决策树的训练还和一般的不同。要有放回地抽样,有随机的特征候选集
在论文里特征候选集m=3,也就是在8个特征里随机挑3个,构造决策树,然后多个决策树一起构成随机森林分类。
4.原始数据集的获取
调用api接口(微博现在有好多限制)和爬虫,人工划分机器学习用户和普通用户
感觉好麻烦啊= =
2.文中提出了8个点来识别是否为机器用户
条件信息熵
内容相似度
互关的比例
发私信率等等
比较难实现的应该是第一个点,条件信息熵,大概是如果发微博的比较规律,那么就可能是机器用户。
内容相似度指用户发布的微博与其他用户微博的相似程度,因为机器用户会伪装(那我的微博全部都是hhhhh 哈哈哈哈 66666 岂不是被识别成机器用户了?)
3.随机森林分类
文章列了很多随机森林分类的优点,比如每个指标只需要包含少量区分信息就可以了,对相关性不是特别敏感,对离散点不敏感等等。
如果不知道什么是随机森林分类,可以先学学决策树。
我决策树是在《机器学习实战》里学的,觉得讲得特别好。
随机森林分类就是很多决策树。
这里决策树的训练还和一般的不同。要有放回地抽样,有随机的特征候选集
在论文里特征候选集m=3,也就是在8个特征里随机挑3个,构造决策树,然后多个决策树一起构成随机森林分类。
4.原始数据集的获取
调用api接口(微博现在有好多限制)和爬虫,人工划分机器学习用户和普通用户
感觉好麻烦啊= =
相关文章推荐
- 九、机器学习系统设计笔记之分类III:音乐体裁分类
- 【day 16】python编程:从入门到实践学习笔记-基于Django框架的Web开发-用户账户(三)
- 机器学习-学习笔记 Caffe安装-MNIST(手写体数字识别)
- 网络编程学习笔记二(实现一个基于简单TCP的用户注册程序)
- 《信用风险评分卡研究——基于SAS的开发与实施》学习笔记(2)
- Django框架学习笔记(10.基于ORM实现简单的用户登录)
- 自动车牌识别(ANPR)练习项目学习笔记2(基于opencv)
- 【产品经理】交互设计学习笔记之《如何进行用户研究》
- 斯坦福CS20SI:基于Tensorflow的深度学习研究课程笔记,Lecture note2:TensorFlow Ops
- 用户研究:基于用户尺度评价的人物角色分类方法与实践
- 《基于Web访问信息的用户兴趣迁移模式的研究》笔记
- 二、机器学习系统设计笔记之对真实样本分类
- 基于新浪开放平台的企业微博影响力分析应用的学习笔记。
- 机器学习一:基于logistic回归来做分类预测
- 机器学习实践笔记3(树和随机森林)
- 交互设计学习笔记之《如何进行用户研究》【交互设计】
- 【day 14】python编程:从入门到实践学习笔记-基于Django框架的Web开发-用户账户(一)
- 【AAAI2018】阿里提出基于注意力机制的用户行为建模框架 论文学习笔记
- Matlab图像识别/检索系列(6)-10行代码完成深度学习网络之基于CNN的图像分类
- 基于qt和opencv3实现机器学习之:利用svm(支持向量机)分类