您的位置:首页 > 理论基础 > 计算机网络

谈谈CRF++的特征选取(http://nzinfo.spaces.live.com/blog/cns!67694E0B61E3E8D2!182.entry)

2008-11-17 09:47 260 查看

在CRF++中,存在特征模板的概念,通过定义模板文件中的特征模板来提取特征,进行CRF模型计算。
其特征分以下三个阶段:
1 特征模板:定义从训练集中提取特征的方法
2 特征F:使用特征模板从训练集中提取到的特征字符串,在CRF++中,这些特征都是二值函数
3 活动特征AF: 具体某个特征在某个Tag下出现的情况,af(f,tag)。
在CRF的解码过程,实际上是通过已知的F,展开成AF,并求出最可能的Tag的序列;
因为CRF++只需要写一个特征模板,使用简单。因此在NLP领域得到了广泛的应用。但是,简单的使用界面是有副作用的。
1、通过特征模板,产生了大量的无效特征,上述特征在提高计算精度上贡献有限,但是仍然占用了大量的计算时间
2、通过特征模板,难于表达复杂的特征提取逻辑。

我认为一种理想的情况是,由CRF的用户手工写程序进行特征的提取,交由CRF计算模块进行模型的评估计算。

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐