您的位置：首页 > 其它

NLP专业术语

2016-11-10 22:22 225 查看

hyper-parameters：在训练模型时，有些参数是需要手动设置的，每个参数有一个可选的范围或者列表可供训练，可以调用sklearn的GridSearchCV函数来自动统计搜索。http://blog.csdn.net/u010454729/article/details/50754460

development set：在paper中也简写成dev。一般在训练模型时需要用到交叉验证，这部分用来交叉验证训练的样本成为dev set

交叉验证：在统计模型的预测准确率时，一般将样本分成10份，其中一份用作测试集合，另外9份作为训练集合；这样的组合有10种，每一种组合都对应一个准确率，最终的准确率是10个准确率的平均值。也可通过sklearn的GridSearchCV函数实现。传入一个CV值就代表将数据分为几份。

evaluation set：训练完后，用来验证模型的样本集合。

BIO scheme：在aspect-extract里“B-TERM”indicates thestart of an aspect term, “I-TERM” indicates the continuation of an aspect term, and “O”indicates not an aspect term.

向量的距离：两个向量A,B的距离为|A-B|,向量的长度为向量里的每个元素平方和开根号。

The Brown Clustering

可用的工具为https://github.com/percyliang/brown-cluster/

假设我们现在有一个分类器，可以把每个词分配到一个类里面，一共有k个类：

这里w1到wT为输入文本中的词序列，V是所有词组成的列表.第一个概率公式中使用到了

p(w2|w1)=e(c2|c1)×p(w2|c2)

后面两个量在一次分类结束后可以从文本中统计得出.如何评价一个分类结果的优越是通过最大化下面的式子：

这里p(c,c′)是指两个连续的词相应的类别，这些量都是可以从结果中统计出来的。分别如下：

分母n(c,c′)表示所有两个连着的词的数量。

算法操作流程如下：输入为一个文本，输出为文本中每个词的bit string. 假如取bit string中的前N位，则只考虑2的N次方个分类。

假如分类总数为m，比如m=1000，我们按照词汇出现的频率对其进行排序然后把频率最高的m个词各自分到一个类中，对于剩下的|V|-m个词进行如下循环：

1.找出剩下词中频率最高的一个词作为第m+1个词，

2.从这m+1个类中选择最好的两个词合并为一个类，合并要能最大程度增加Quality(C)。下面会具体讲到Quality(C)的含义。

最后我们剩下m个类，然后我们再做m-1词合并，这样就得到了一颗完整的树。

Class Imbalance Problem:

参考http://www.chioka.in/class-imbalance-problem/

就是在训练集合中，不同类别的数量相差很大。

semantic role labeling: 又称浅层语义分析(Shallow Semantic Parsing),指的是分析句子的论元结构,即标记出句子中某个动词的所有论元,属于语义分析任务。参考

http://wenku.baidu.com/link?url=f-wVGU9MxnkC2Zbrx-EDwzKa-DEkUo-sC8BCerLYMb3emNQHKeUn9e5rkFAHxHa_FaKO13KT8I-yHQ8jVO4dzMnpvU1bO1X_a94lqN5uzRy

随机梯度下降（Stochastic gradient descent）和批量梯度下降（Batch gradient descent ）的公式对比、实现对比

http://blog.csdn.net/lilyth_lilyth/article/details/8973972

词干提取（stemming）和词形还原（lemmatization）:

1、词形还原（lemmatization），是把衍生词汇还原为一般形式（能表达完整语义）

2、而词干提取（stemming）是抽取词的词干或词根形式（不一定能够表达完整语义）。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 机器学习

相关文章推荐

新的分享

章节导航