python数据挖掘入门与实践---作者归属问题
2018-03-25 23:46
1086 查看
问题:通过对文本中的信息分析,找到文章对应的作者
用到的算法模型:SVM,支持向量机。
SVM可以简单看着一种二类分类器(画一条线,使两边类别的点到线的距离最大化),扩展后可以是多类分类 器,但实际也是A类和非A类的二类分类,只是进行多次,将A B C D....类分别分出来。
解决问题两种思路:
1、功能词。
功能词(如the,which,that...)是指本身含义很少,但却是组成句子必不可少的成分。一般认为功能词的使用通常不是由文档的内容决定而是有作者的习惯决定。因此通过统计文档的功能词分布可以关联到作者的归属信息。
sklearn相关模块:slearn.svm用来通过功能词分布分类作者
2、字符N元语法。
与单词N元语法相对应,字符N元语法以单个字符为单位(N通常2~6)
思路和上面功能词一样,通过统计字符N元语法然后通过其分布和SVN分类相应的作者
用到的算法模型:SVM,支持向量机。
SVM可以简单看着一种二类分类器(画一条线,使两边类别的点到线的距离最大化),扩展后可以是多类分类 器,但实际也是A类和非A类的二类分类,只是进行多次,将A B C D....类分别分出来。
解决问题两种思路:
1、功能词。
功能词(如the,which,that...)是指本身含义很少,但却是组成句子必不可少的成分。一般认为功能词的使用通常不是由文档的内容决定而是有作者的习惯决定。因此通过统计文档的功能词分布可以关联到作者的归属信息。
sklearn相关模块:slearn.svm用来通过功能词分布分类作者
2、字符N元语法。
与单词N元语法相对应,字符N元语法以单个字符为单位(N通常2~6)
思路和上面功能词一样,通过统计字符N元语法然后通过其分布和SVN分类相应的作者
相关文章推荐
- 支持度与置信度(基本示例)--《python数据挖掘入门与实践》
- 《Python数据挖掘入门与实践》高清中文版+高清英文版+源代码
- Python数据挖掘入门与实践(四)——亲和性分析
- 《python数据挖掘入门与实践》笔记2
- 《python数据挖掘入门与实践》笔记1
- 支持度与置信度(找出所有规则)--《python数据挖掘入门与实践》
- Python数据挖掘入门与实践(二)——scikit-learn数据的预处理转换器以及流水线
- Python数据挖掘入门与实践(一)——亲和性分析
- python_tweets.json (python数据挖掘入门与实践数据集下载)
- Python数据挖掘入门与实践一:计算支持度和置信度
- 《python数据挖掘入门与实践》“电影推荐” 笔记3
- Python数据挖掘入门与实践pdf
- python数据挖掘入门与实践---用图挖掘找到感兴趣的人
- python数据挖掘入门与实践
- Python数据挖掘入门与实践(二)——用scikit-learn估计器分类
- Learning Data Mining with Python-《Python数据挖掘入门与实践》学习后的分享
- 【python】《Python数据挖掘入门与实践》实验环境搭建
- 《python数据挖掘入门与实践》决策树预测nba数据集
- Python数据挖掘入门与实践 彩图 pdf
- 分享《Python数据挖掘入门与实践》高清中文版+高清英文版+源代码