您的位置:首页 > 其它

web数据挖掘(学习笔记)-观点挖掘

2011-03-04 16:39 274 查看
观点挖掘

1.主要挖掘非结构化的文本,涉及自然语言处理技术

2.网络已经显著改变人们表达观点的方式,用户生成的内容已经成为媒体的一种形式

3.主要研究三方面的观点挖掘的任务:意见分类;基于特征观点挖掘和摘要;比较句子和比较关系挖掘

4.意见分类:文档层次上分类,将评价分类到正面,或者负面。当前大多研究是文档层次上的分类。

5.基于特征的观点挖掘和摘要:句子层次上分类,对于对象某个具体特征,将特征的评价分类到正面,或者负面

6.比较句子和比较关系挖掘:抽取比较句子,然后,抽取比较关系

7.主要研究两方面观点挖掘任务:观点搜索;观点欺诈

8.观点搜索:关于任何对象的观点

9.观点欺诈:推销自己,诋毁对手的不实信息

10.意见分类:文档集合每一个文档,标记为正面评价或者负面评价。和文本主题分类相似,但是关注词汇不同。主题分类关注主题

词汇,意见分类关注意见词汇。可以分为正面,负面,中立三类。

11.意见分类三种方法:基于意见短语分类;文本分类方法分类;基于评分函数分类

12.基于意见短语分类:使用词性标注自然语言技术。通常使用宾州树库词性标注集。分三部完成,首先,词性标注,抽取符合预定

模式的短语;其次,算短语的互信息,即左词先出现时,右词紧跟出现的条件概率;最后,统计所有短语的语义倾向的平均值。为

正,就是正面评价,负数就是负面评价。

13.文本分类方法分类:KNN,贝叶斯,SVM文档分类方法都可以。

14.基于评分函数分类:提出一个表明次对文档集合倾向性的评分函数。为实验全面,还需要测试不同数据集,取词干,过滤常见词

,各种分类技术对比,换评分函数,语言学改进等。

15.基于文档分类的优点:体现对象,主题的一般看法

16.基于文档分类的缺点:只能体现大体看法,不能提供对细节特征方面的倾向;非评审类的但是包含意见的文本不能是不用本方法

挖掘,因为还需要定位意见句子。上面都是基于学习的方法,也有一些人工的方法。比如:随时间变化的意见生成系统,需要领域

相关的词典。

参考文献:《Web数据挖掘》 BingLiu著 P296-300
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: