NLP情感分析监督学习样本打标
2016-11-30 11:16
483 查看
1). 情感打标
a). 全句
b). 全文本
c)分词
具体参见大连理工情感词汇文本库
情感分类按照论文《情感词汇本体的构造》所述,情感分为7大类21小类。情感强度分为1,3,5,7,9五档,9表示强度最大,1为强度最小。
情感词汇本体中的词性种类一共分为7类,分别是名词(noun),动词(verb),形容词(adj),副词(adv),网络词语(nw),成语(idiom),介词短语(prep)。
每个词在每一类情感下都对应了一个极性。其中,0代表中性,1代表褒义,2代表贬义,3代表兼有褒贬两性。
2). 分词纠正
a). 合并分词
麻辣,香锅 --> 麻辣香锅, n
棒棒,哒 --> 棒棒哒, a
百岁,山大瓶 --> 百岁山, n
大瓶, n
注:n,a为词性,分别指名词和形容词
b). 删除错误分词
甜口会,好吃 --> 甜口会
吃,出筋 --> 出筋
a). 全句
单句 | 标签 |
---|---|
好吃是好吃 | pos |
真材实料 | pos |
不过感觉一人份的量就有点小贵 | neg |
点的是肥牛米线 | neu |
文本 | 标签 |
---|---|
分量足,味道不错,味道也不错 | pos |
汤内有小强,实在无语 | neg |
具体参见大连理工情感词汇文本库
词语 | 词汇种类 | 情感分类 | 强度 | 极性 |
---|---|---|---|---|
棒棒哒 | adj | PH | 7 | 1 |
你怎么不上天 | nw | NN | 9 | 2 |
给力 | adj | PH | 7 | 1 |
涨价 | verb | NJ | 3 | 2 |
情感词汇本体中的词性种类一共分为7类,分别是名词(noun),动词(verb),形容词(adj),副词(adv),网络词语(nw),成语(idiom),介词短语(prep)。
每个词在每一类情感下都对应了一个极性。其中,0代表中性,1代表褒义,2代表贬义,3代表兼有褒贬两性。
2). 分词纠正
a). 合并分词
麻辣,香锅 --> 麻辣香锅, n
棒棒,哒 --> 棒棒哒, a
百岁,山大瓶 --> 百岁山, n
大瓶, n
注:n,a为词性,分别指名词和形容词
b). 删除错误分词
甜口会,好吃 --> 甜口会
吃,出筋 --> 出筋
相关文章推荐
- Word2vec之情感语义分析实战(part3)--利用分布式词向量完成监督学习任务
- Stanford NLP学习笔记:7. 情感分析(Sentiment)
- Deep Learning论文笔记之(三)单层非监督学习网络分析
- 基于机器学习的NLP情感分析(二)---- 分类问题
- 唐宇迪之tensorflow学习笔记项目实战(LSTM情感分析)
- Deep Learning论文笔记之(三)单层非监督学习网络分析
- 【Scikit-Learn 中文文档】线性和二次判别分析 - 监督学习 - 用户指南 | ApacheCN
- 【深度学习与Theano】LSTM网络-情感分析
- 深度学习笔记——情感分析
- 深度学习---情感分析(Rnn,LSTM)
- 【Scikit-Learn 中文文档】4 线性和二次判别分析 - 监督学习 - 用户指南 | ApacheCN
- 自然语言处理NLP——情感分析(Sentiment Analysis)简述
- 单层网络模型下对无监督特征学习算法的分析
- 【Scikit-Learn 中文文档】线性和二次判别分析 - 监督学习 - 用户指南 | ApacheCN
- 【Scikit-Learn 中文文档】线性和二次判别分析 - 监督学习 - 用户指南 | ApacheCN
- scikit-learn 中文文档-线性和二次判别分析-监督学习|ApacheCN
- Deep learning:二十(无监督特征学习中关于单层网络的分析)
- 【学习笔记】NLP之影评情感分类
- Deep Learning论文笔记之(三)单层非监督学习网络分析