web数据挖掘(学习笔记)-观点挖掘
2011-03-04 16:39
274 查看
观点挖掘
1.主要挖掘非结构化的文本,涉及自然语言处理技术
2.网络已经显著改变人们表达观点的方式,用户生成的内容已经成为媒体的一种形式
3.主要研究三方面的观点挖掘的任务:意见分类;基于特征观点挖掘和摘要;比较句子和比较关系挖掘
4.意见分类:文档层次上分类,将评价分类到正面,或者负面。当前大多研究是文档层次上的分类。
5.基于特征的观点挖掘和摘要:句子层次上分类,对于对象某个具体特征,将特征的评价分类到正面,或者负面
6.比较句子和比较关系挖掘:抽取比较句子,然后,抽取比较关系
7.主要研究两方面观点挖掘任务:观点搜索;观点欺诈
8.观点搜索:关于任何对象的观点
9.观点欺诈:推销自己,诋毁对手的不实信息
10.意见分类:文档集合每一个文档,标记为正面评价或者负面评价。和文本主题分类相似,但是关注词汇不同。主题分类关注主题
词汇,意见分类关注意见词汇。可以分为正面,负面,中立三类。
11.意见分类三种方法:基于意见短语分类;文本分类方法分类;基于评分函数分类
12.基于意见短语分类:使用词性标注自然语言技术。通常使用宾州树库词性标注集。分三部完成,首先,词性标注,抽取符合预定
模式的短语;其次,算短语的互信息,即左词先出现时,右词紧跟出现的条件概率;最后,统计所有短语的语义倾向的平均值。为
正,就是正面评价,负数就是负面评价。
13.文本分类方法分类:KNN,贝叶斯,SVM文档分类方法都可以。
14.基于评分函数分类:提出一个表明次对文档集合倾向性的评分函数。为实验全面,还需要测试不同数据集,取词干,过滤常见词
,各种分类技术对比,换评分函数,语言学改进等。
15.基于文档分类的优点:体现对象,主题的一般看法
16.基于文档分类的缺点:只能体现大体看法,不能提供对细节特征方面的倾向;非评审类的但是包含意见的文本不能是不用本方法
挖掘,因为还需要定位意见句子。上面都是基于学习的方法,也有一些人工的方法。比如:随时间变化的意见生成系统,需要领域
相关的词典。
参考文献:《Web数据挖掘》 BingLiu著 P296-300
1.主要挖掘非结构化的文本,涉及自然语言处理技术
2.网络已经显著改变人们表达观点的方式,用户生成的内容已经成为媒体的一种形式
3.主要研究三方面的观点挖掘的任务:意见分类;基于特征观点挖掘和摘要;比较句子和比较关系挖掘
4.意见分类:文档层次上分类,将评价分类到正面,或者负面。当前大多研究是文档层次上的分类。
5.基于特征的观点挖掘和摘要:句子层次上分类,对于对象某个具体特征,将特征的评价分类到正面,或者负面
6.比较句子和比较关系挖掘:抽取比较句子,然后,抽取比较关系
7.主要研究两方面观点挖掘任务:观点搜索;观点欺诈
8.观点搜索:关于任何对象的观点
9.观点欺诈:推销自己,诋毁对手的不实信息
10.意见分类:文档集合每一个文档,标记为正面评价或者负面评价。和文本主题分类相似,但是关注词汇不同。主题分类关注主题
词汇,意见分类关注意见词汇。可以分为正面,负面,中立三类。
11.意见分类三种方法:基于意见短语分类;文本分类方法分类;基于评分函数分类
12.基于意见短语分类:使用词性标注自然语言技术。通常使用宾州树库词性标注集。分三部完成,首先,词性标注,抽取符合预定
模式的短语;其次,算短语的互信息,即左词先出现时,右词紧跟出现的条件概率;最后,统计所有短语的语义倾向的平均值。为
正,就是正面评价,负数就是负面评价。
13.文本分类方法分类:KNN,贝叶斯,SVM文档分类方法都可以。
14.基于评分函数分类:提出一个表明次对文档集合倾向性的评分函数。为实验全面,还需要测试不同数据集,取词干,过滤常见词
,各种分类技术对比,换评分函数,语言学改进等。
15.基于文档分类的优点:体现对象,主题的一般看法
16.基于文档分类的缺点:只能体现大体看法,不能提供对细节特征方面的倾向;非评审类的但是包含意见的文本不能是不用本方法
挖掘,因为还需要定位意见句子。上面都是基于学习的方法,也有一些人工的方法。比如:随时间变化的意见生成系统,需要领域
相关的词典。
参考文献:《Web数据挖掘》 BingLiu著 P296-300
相关文章推荐
- 数据挖掘学习笔记--AdaBoost算法(一)
- python数据挖掘学习笔记】十四.Scipy调用curve_fit实现曲线拟合
- SQL SERVER 2005 数据挖掘与商业智能完全解决方案---学习笔记(三)
- 数据挖掘学习笔记之人工神经网络(一)
- 数据挖掘-关联规则挖掘理论和算法学习笔记
- 数据挖掘 学习笔记(一)
- 【数据挖掘概念与技术】学习笔记3-数据预处理
- <学习笔记5>数据挖掘原理与运用-sql server2008 数据库
- JasperReport学习笔记5-其它数据生成动态的报表(WEB)
- 数据挖掘学习笔记-入门基础篇
- Web数据挖掘 第十一章 观点挖掘和情感分析的读书笔记
- 大数据学习笔记之三十七 数据挖掘算法之关联分析
- <学习笔记2>数据挖掘原理与运用-sql server2008 数据库
- 【数据挖掘】【笔记】阅读之机器学习竞赛进阶
- 数据挖掘、机器学习、人工智能学习笔记
- <学习笔记4>数据挖掘原理与运用-sql server2008 数据库
- 数据挖掘学习笔记二
- 斯坦福大学数据挖掘公开课学习笔记____Lesson1
- SQL SERVER 2005 数据挖掘与商业智能完全解决方案---学习笔记(三)
- 数据挖掘学习笔记(一)