NLP专业术语
2016-11-10 22:22
225 查看
hyper-parameters:在训练模型时,有些参数是需要手动设置的,每个参数有一个可选的范围或者列表可供训练,可以调用sklearn的GridSearchCV函数来自动统计搜索。http://blog.csdn.net/u010454729/article/details/50754460
development set:在paper中也简写成dev。一般在训练模型时需要用到交叉验证,这部分用来交叉验证训练的样本成为dev set
交叉验证:在统计模型的预测准确率时,一般将样本分成10份,其中一份用作测试集合,另外9份作为训练集合;这样的组合有10种,每一种组合都对应一个准确率,最终的准确率是10个准确率的平均值。也可通过sklearn的GridSearchCV函数实现。传入一个CV值就代表将数据分为几份。
evaluation set:训练完后,用来验证模型的样本集合。
BIO scheme:在aspect-extract里“B-TERM”indicates thestart of an aspect term, “I-TERM” indicates the continuation of an aspect term, and “O”indicates not an aspect term.
向量的距离:两个向量A,B的距离为|A-B|,向量的长度为向量里的每个元素平方和开根号。
The Brown Clustering
可用的工具为https://github.com/percyliang/brown-cluster/
假设我们现在有一个分类器,可以把每个词分配到一个类里面,一共有k个类:
这里w1到wT为输入文本中的词序列,V是所有词组成的列表.第一个概率公式中使用到了
p(w2|w1)=e(c2|c1)×p(w2|c2)
后面两个量在一次分类结束后可以从文本中统计得出.如何评价一个分类结果的优越是通过最大化下面的式子:
这里p(c,c′)是指两个连续的词相应的类别,这些量都是可以从结果中统计出来的。分别如下:
分母n(c,c′)表示所有两个连着的词的数量。
算法操作流程如下:输入为一个文本,输出为文本中每个词的bit string. 假如取bit string中的前N位,则只考虑2的N次方个分类。
假如分类总数为m,比如m=1000,我们按照词汇出现的频率对其进行排序然后把频率最高的m个词各自分到一个类中,对于剩下的|V|-m个词进行如下循环:
1.找出剩下词中频率最高的一个词作为第m+1个词,
2.从这m+1个类中选择最好的两个词合并为一个类,合并要能最大程度增加Quality(C)。下面会具体讲到Quality(C)的含义。
最后我们剩下m个类,然后我们再做m-1词合并,这样就得到了一颗完整的树。
Class Imbalance Problem:
参考http://www.chioka.in/class-imbalance-problem/
就是在训练集合中,不同类别的数量相差很大。
semantic role labeling: 又称浅层语义分析(Shallow Semantic Parsing),指的是分析句子的论元结构,即标记出句子中某个动词的所有论元,属于语义分析任务。参考
http://wenku.baidu.com/link?url=f-wVGU9MxnkC2Zbrx-EDwzKa-DEkUo-sC8BCerLYMb3emNQHKeUn9e5rkFAHxHa_FaKO13KT8I-yHQ8jVO4dzMnpvU1bO1X_a94lqN5uzRy
随机梯度下降(Stochastic gradient descent)和 批量梯度下降(Batch gradient descent )的公式对比、实现对比
http://blog.csdn.net/lilyth_lilyth/article/details/8973972
词干提取(stemming)和词形还原(lemmatization):
1、词形还原(lemmatization),是把衍生词汇还原为一般形式(能表达完整语义)
2、而词干提取(stemming)是抽取词的词干或词根形式(不一定能够表达完整语义)。
development set:在paper中也简写成dev。一般在训练模型时需要用到交叉验证,这部分用来交叉验证训练的样本成为dev set
交叉验证:在统计模型的预测准确率时,一般将样本分成10份,其中一份用作测试集合,另外9份作为训练集合;这样的组合有10种,每一种组合都对应一个准确率,最终的准确率是10个准确率的平均值。也可通过sklearn的GridSearchCV函数实现。传入一个CV值就代表将数据分为几份。
evaluation set:训练完后,用来验证模型的样本集合。
BIO scheme:在aspect-extract里“B-TERM”indicates thestart of an aspect term, “I-TERM” indicates the continuation of an aspect term, and “O”indicates not an aspect term.
向量的距离:两个向量A,B的距离为|A-B|,向量的长度为向量里的每个元素平方和开根号。
The Brown Clustering
可用的工具为https://github.com/percyliang/brown-cluster/
假设我们现在有一个分类器,可以把每个词分配到一个类里面,一共有k个类:
这里w1到wT为输入文本中的词序列,V是所有词组成的列表.第一个概率公式中使用到了
p(w2|w1)=e(c2|c1)×p(w2|c2)
后面两个量在一次分类结束后可以从文本中统计得出.如何评价一个分类结果的优越是通过最大化下面的式子:
这里p(c,c′)是指两个连续的词相应的类别,这些量都是可以从结果中统计出来的。分别如下:
分母n(c,c′)表示所有两个连着的词的数量。
算法操作流程如下:输入为一个文本,输出为文本中每个词的bit string. 假如取bit string中的前N位,则只考虑2的N次方个分类。
假如分类总数为m,比如m=1000,我们按照词汇出现的频率对其进行排序然后把频率最高的m个词各自分到一个类中,对于剩下的|V|-m个词进行如下循环:
1.找出剩下词中频率最高的一个词作为第m+1个词,
2.从这m+1个类中选择最好的两个词合并为一个类,合并要能最大程度增加Quality(C)。下面会具体讲到Quality(C)的含义。
最后我们剩下m个类,然后我们再做m-1词合并,这样就得到了一颗完整的树。
Class Imbalance Problem:
参考http://www.chioka.in/class-imbalance-problem/
就是在训练集合中,不同类别的数量相差很大。
semantic role labeling: 又称浅层语义分析(Shallow Semantic Parsing),指的是分析句子的论元结构,即标记出句子中某个动词的所有论元,属于语义分析任务。参考
http://wenku.baidu.com/link?url=f-wVGU9MxnkC2Zbrx-EDwzKa-DEkUo-sC8BCerLYMb3emNQHKeUn9e5rkFAHxHa_FaKO13KT8I-yHQ8jVO4dzMnpvU1bO1X_a94lqN5uzRy
随机梯度下降(Stochastic gradient descent)和 批量梯度下降(Batch gradient descent )的公式对比、实现对比
http://blog.csdn.net/lilyth_lilyth/article/details/8973972
词干提取(stemming)和词形还原(lemmatization):
1、词形还原(lemmatization),是把衍生词汇还原为一般形式(能表达完整语义)
2、而词干提取(stemming)是抽取词的词干或词根形式(不一定能够表达完整语义)。
相关文章推荐
- 存储方面一些专业术语解释,个人整理(不断更新)
- 电子电路 专业术语表 英汉对照
- RocketMQ特性、专业术语(Producer,Producer Group,Consumer Group,Topic,Message,Tag,Broker,Name Server)等
- 互联网教育专业术语
- [转]手游研发数据专业术语科普 游戏热度跟啥有关
- GRE数学考试专业术语介绍
- [管理]ERP 专业术语(英文缩写)
- 显卡专业术语汇总 ,教你玩转显卡
- 构建股票交易平台专业术语
- 专业术语:显示参数和隐式参数
- 核电PSA--sdp、rm系统中专业术语解释
- 网络工程师必懂的专业术语!
- 网络工程师必须懂的十四大专业术语
- 数字电视专业术语
- VR虚拟现实小白入门:18个VR专业术语解析!
- 信息无障碍专业术语---信息无障碍
- 专业术语/Java专有名词
- Spring初学者,快速理解Spring中的专业术语
- IT专业术语-----> RC