您的位置:首页 > 其它

条件随机场简介(CRF)(一)

2017-09-16 21:28 302 查看
转载请注明出处,谢谢。

质量不佳,请多包涵。

Conditional random field(CRF)(条件随机场) 简介(一)

1. 标注序列数据

给序列数据进行标签是很多领域的重要任务,比如生物信息学、计算语言学、语音识别。例如,资源语言处理中的词性标注,一个句子中的每个分词将被标注一个词性(POS)标签。



这样的任务对更高级的自然语言处理任务往往是有帮助的,因为词性标签表明了该分词在句子中一些结构作用。

进行序列标注或序列分割的最常用的方法是用隐马尔可夫模型(hidden Markov models)(HMMs)或者有限概率自动机(probabilistic finite-state automata )去估计给定句子的情况下,最大可能的标签序列。隐马尔可夫模型是一种生成模型,拟合的是联合概率分布p(X, Y),其中X和Y是多个随机变量,分别代表观测序列(译者:比如句子)和相应的标签序列。为了得到这样的联合概率分布(一种本质的,生成模型),我们必须要能便利所有可能的观测序列,而这在很多领域很多时候是不可能的。在数据较为简单的情况下,我们可以合理地假设,某一时刻,观测序列的取值是和之前时刻序列的取值是独立的,但是,在实际的数据之中,观测序列之间都会有着大范围的相关关系。

显然,我们需要一个可以对此建模求解的模型,但我们也不能过于极端地引入无法成立的独立性假设。其中一个解决的办法是,我们在给定某一个观测序列的情况下,对条件概率p(Y |x)进行建模。我们不关心X的概率分布,而是关心在给定观测序列的情况下,如何找到一个最优的y,使得p(Y=y |x)取得最大。如果需要,人们可以自己对X给出概率分布的假设。

Conditional random fields (CRFs) (条件随机场)便是基于以上的思想,解决序列标注分割任务的一个概率框架。CRFs优于HMMs的地方在于它不需要对观测序列有严格的独立性假设。此外,CRFs避免了标注的有偏问题(bias),而maximum entropy Markov models(MEMMs)(最大熵马尔科夫模型)和其他条件马尔科夫模型则有这一问题。

Conditional random field(CRF)(条件随机场) 简介(二):http://blog.csdn.net/jiaqiang_ruan/article/details/78006910

翻译:https://people.cs.umass.edu/~wallach/technical_reports/wallach04conditional.pdf

作者:jiaqiang_ruan

转载请注明出处,谢谢。

质量不佳,请多包涵。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息