您的位置:首页 > 其它

NLP专业术语

2016-11-10 22:22 225 查看
hyper-parameters:在训练模型时,有些参数是需要手动设置的,每个参数有一个可选的范围或者列表可供训练,可以调用sklearn的GridSearchCV函数来自动统计搜索。http://blog.csdn.net/u010454729/article/details/50754460

development set:在paper中也简写成dev。一般在训练模型时需要用到交叉验证,这部分用来交叉验证训练的样本成为dev set

交叉验证:在统计模型的预测准确率时,一般将样本分成10份,其中一份用作测试集合,另外9份作为训练集合;这样的组合有10种,每一种组合都对应一个准确率,最终的准确率是10个准确率的平均值。也可通过sklearn的GridSearchCV函数实现。传入一个CV值就代表将数据分为几份。

evaluation set:训练完后,用来验证模型的样本集合。

BIO scheme:在aspect-extract里“B-TERM”indicates thestart of an aspect term, “I-TERM” indicates the continuation of an aspect term, and “O”indicates not an aspect term.

向量的距离:两个向量A,B的距离为|A-B|,向量的长度为向量里的每个元素平方和开根号。

The Brown Clustering

可用的工具为https://github.com/percyliang/brown-cluster/

假设我们现在有一个分类器,可以把每个词分配到一个类里面,一共有k个类:



这里w1到wT为输入文本中的词序列,V是所有词组成的列表.第一个概率公式中使用到了

p(w2|w1)=e(c2|c1)×p(w2|c2)

后面两个量在一次分类结束后可以从文本中统计得出.如何评价一个分类结果的优越是通过最大化下面的式子:



这里p(c,c′)是指两个连续的词相应的类别,这些量都是可以从结果中统计出来的。分别如下:



分母n(c,c′)表示所有两个连着的词的数量。

算法操作流程如下:输入为一个文本,输出为文本中每个词的bit string. 假如取bit string中的前N位,则只考虑2的N次方个分类。

假如分类总数为m,比如m=1000,我们按照词汇出现的频率对其进行排序然后把频率最高的m个词各自分到一个类中,对于剩下的|V|-m个词进行如下循环:

1.找出剩下词中频率最高的一个词作为第m+1个词,

2.从这m+1个类中选择最好的两个词合并为一个类,合并要能最大程度增加Quality(C)。下面会具体讲到Quality(C)的含义。

最后我们剩下m个类,然后我们再做m-1词合并,这样就得到了一颗完整的树。

Class Imbalance Problem:

参考http://www.chioka.in/class-imbalance-problem/

就是在训练集合中,不同类别的数量相差很大。

semantic role labeling: 又称浅层语义分析(Shallow Semantic Parsing),指的是分析句子的论元结构,即标记出句子中某个动词的所有论元,属于语义分析任务。参考

http://wenku.baidu.com/link?url=f-wVGU9MxnkC2Zbrx-EDwzKa-DEkUo-sC8BCerLYMb3emNQHKeUn9e5rkFAHxHa_FaKO13KT8I-yHQ8jVO4dzMnpvU1bO1X_a94lqN5uzRy

随机梯度下降(Stochastic gradient descent)和 批量梯度下降(Batch gradient descent )的公式对比、实现对比

http://blog.csdn.net/lilyth_lilyth/article/details/8973972

词干提取(stemming)和词形还原(lemmatization):

1、词形还原(lemmatization),是把衍生词汇还原为一般形式(能表达完整语义)

2、而词干提取(stemming)是抽取词的词干或词根形式(不一定能够表达完整语义)。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  机器学习