您的位置:首页 > 其它

中文情感倾向性分析(IEEE2010)

2015-08-20 11:22 267 查看
Chinese Sentiment Orientation Analysis

中文情感倾向性分析(IEEE2010)
文章提出了一个新方法分析、划分商品评论的情感倾向性为3类:中立,积极和消极。目前的方法对于中立态度的句子不能得到好的划分结果。文章首先采用分治策略划分文本为2类:中立和极性文本,然后极性文本分为积极部分和消极部分(两层分类系统)。在第一步中,使用TSVM(直推式SVM)工具实现划分。

词典修订和规则集生成

多层情感词典:由于词典规模大,因此要修订词典,期望减少低置信度词的消极影响。首先,重新评估每个情感词的置信度,然后,高置信度的词添加到相对小的词典D1,剩下的词用来形成一个更大的词典D2:根据域关联训练语料和域独立训练语料重新计算情感值分别为v和v’,最终的情感值word_sentival=λv+λ’v’(λ+λ’=1)。如果词w的word_sentival大等于阈值keypos_val,将词w分到D1的积极子词典;如果在0和keypos_val之间,将词w分到D2的积极子词典;如果在阈值keyneg_val和0之间,将w分到D2的消极子词典;如果等于0,并且w在原词典中属于积极子词典(消极子词典),将w分到D2的积极子词典(消极子词典)。

规则集:之前的实验表明单单使用情感词来识别倾向性可以得到高准确率,但是召回率相对较低,一个实用的算法是考虑词为基本元,在每个句子中抽取所有词的可能结合作为规则。该算法复杂度是指数型的,规则的使用率低。考虑折衷方案,首先,选择4种词的类型:消极副词,转折连接词,情感词和程度副词作为影响分类的关键因子,然后,手动构成以上词类型除了情感词的词典,再者,标记所有句子中的上类词,构成规则,选择超过阈值的规则。

倾向性分析和分类算法

中立和极性分类系统:直推式SVM工具用于实现中立和极性分类,卡方值作为特征向量,选择按降序排序的前n个向量。训练语料来自网络论坛,话题包括手机,汽车和数字相机。在训练语料中,积极语料和消极语料大小相似,中立语料小。因此,极性语料被分为n个(奇数)部分。每次用极性语料n部分中的一部分和整个中立语料构建TSVM分类器。最终获得n个分类器,每个导出测试语料的一个分类,采用投票机制计算最终结果。

积极和消极分类系统:采用多层分类系统完成。首先,需要处理语料。找到和标记测试语料中的每个情感词,并通过查找情感词典计算对应的情感值,同时考虑副词和连接词的影响。然后,处理过的语料给多层分类系统,识别倾向性。具体步骤:(1)基于小词典的分类系统(SC):用带有高置信度的小词典计算每个句子的情感得分,如果得分比积极阈值Val_p高,句子被标记为积极,如果比消极阈值低,句子被标记为消极,如果在二者之间,该层不能识别句子倾向性,需要推给下一层。(2)基于大词典的分类系统(LC):首先,用带有低置信度的大词典计算积极得分,消极得分和它们的和。然后,如果情感得分高于阈值Val_pp,句子标记为积极,如果低于阈值Val_nn,句子标记为消极。再者,如果得分在二者之间,验证消极得分是否低于一个给定的阈值,如果是,句子标记为消极,如果不是则推给下一层(当人们表扬某些东西时,他们倾向于直接,当他们有消极情感时,他们含蓄)。(3)基于规则的分类系统(RC):对每个句子,在规则集中找到它的完全匹配。如果存在,对应的情感值累加给该句子。最终得分高于给定阈值,标记为积极,低于给定阈值,标记为消极。得分在二者之间推给下一层。(4)TSVM分类系统(TSVM):剩下的未分类句子用TSVM分类系统处理,以卡方值为特征向量,选择降序排列的前1000个向量。

实验结果表明,投票机制在F值上有一些提高,分类器的数量对分类结果没有明显的影响。中立语料和极性语料的不一致以及TSVM对于语料规模的宽厚需求,降低了分类器数目的影响。

未来工作:(1)从训练集中自动计算阈值。文章中人为规定阈值有很大的主观性。(2)怎样结合基于训练集领域相关的动态情感词来产生规则集。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: