您的位置：首页 > 其它

中文情感倾向性分析（IEEE2010）

2015-08-20 11:22 267 查看

Chinese Sentiment Orientation Analysis

中文情感倾向性分析（IEEE2010）
文章提出了一个新方法分析、划分商品评论的情感倾向性为3类：中立，积极和消极。目前的方法对于中立态度的句子不能得到好的划分结果。文章首先采用分治策略划分文本为2类：中立和极性文本，然后极性文本分为积极部分和消极部分（两层分类系统）。在第一步中，使用TSVM（直推式SVM）工具实现划分。

词典修订和规则集生成

多层情感词典：由于词典规模大，因此要修订词典，期望减少低置信度词的消极影响。首先，重新评估每个情感词的置信度，然后，高置信度的词添加到相对小的词典D1，剩下的词用来形成一个更大的词典D2：根据域关联训练语料和域独立训练语料重新计算情感值分别为v和v’，最终的情感值word_sentival=λv+λ’v’（λ+λ’=1）。如果词w的word_sentival大等于阈值keypos_val，将词w分到D1的积极子词典；如果在0和keypos_val之间，将词w分到D2的积极子词典；如果在阈值keyneg_val和0之间，将w分到D2的消极子词典；如果等于0，并且w在原词典中属于积极子词典（消极子词典），将w分到D2的积极子词典（消极子词典）。

规则集：之前的实验表明单单使用情感词来识别倾向性可以得到高准确率，但是召回率相对较低，一个实用的算法是考虑词为基本元，在每个句子中抽取所有词的可能结合作为规则。该算法复杂度是指数型的，规则的使用率低。考虑折衷方案，首先，选择4种词的类型：消极副词，转折连接词，情感词和程度副词作为影响分类的关键因子，然后，手动构成以上词类型除了情感词的词典，再者，标记所有句子中的上类词，构成规则，选择超过阈值的规则。

倾向性分析和分类算法

中立和极性分类系统：直推式SVM工具用于实现中立和极性分类，卡方值作为特征向量，选择按降序排序的前n个向量。训练语料来自网络论坛，话题包括手机，汽车和数字相机。在训练语料中，积极语料和消极语料大小相似，中立语料小。因此，极性语料被分为n个（奇数）部分。每次用极性语料n部分中的一部分和整个中立语料构建TSVM分类器。最终获得n个分类器，每个导出测试语料的一个分类，采用投票机制计算最终结果。

积极和消极分类系统：采用多层分类系统完成。首先，需要处理语料。找到和标记测试语料中的每个情感词，并通过查找情感词典计算对应的情感值，同时考虑副词和连接词的影响。然后，处理过的语料给多层分类系统，识别倾向性。具体步骤：（1）基于小词典的分类系统（SC）：用带有高置信度的小词典计算每个句子的情感得分，如果得分比积极阈值Val_p高，句子被标记为积极，如果比消极阈值低，句子被标记为消极，如果在二者之间，该层不能识别句子倾向性，需要推给下一层。（2）基于大词典的分类系统（LC）：首先，用带有低置信度的大词典计算积极得分，消极得分和它们的和。然后，如果情感得分高于阈值Val_pp，句子标记为积极，如果低于阈值Val_nn，句子标记为消极。再者，如果得分在二者之间，验证消极得分是否低于一个给定的阈值，如果是，句子标记为消极，如果不是则推给下一层（当人们表扬某些东西时，他们倾向于直接，当他们有消极情感时，他们含蓄）。（3）基于规则的分类系统（RC）：对每个句子，在规则集中找到它的完全匹配。如果存在，对应的情感值累加给该句子。最终得分高于给定阈值，标记为积极，低于给定阈值，标记为消极。得分在二者之间推给下一层。（4）TSVM分类系统（TSVM）：剩下的未分类句子用TSVM分类系统处理，以卡方值为特征向量，选择降序排列的前1000个向量。

实验结果表明，投票机制在F值上有一些提高，分类器的数量对分类结果没有明显的影响。中立语料和极性语料的不一致以及TSVM对于语料规模的宽厚需求，降低了分类器数目的影响。

未来工作：（1）从训练集中自动计算阈值。文章中人为规定阈值有很大的主观性。（2）怎样结合基于训练集领域相关的动态情感词来产生规则集。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航