您的位置：首页 > 其它

自动构建文本分类标注语料的方法

2016-10-14 15:59 232 查看

自动构建文本分类标注语料的方法

基于搜索引擎构建

初始化类别关键词库，人工补充部分关键词

对于类别关键词库，利用搜索引擎系统，搜索各个关键词的相关网页，提取内容

清洗网页内容，并计算类别的关键词，人工check后，加入到类别关键词中

重复执行2,3，直到获得相应的语料库

最后，人工check语料库

基于相关网站构建

针对类目，人工找到相关网站和相关板块

直接爬取相关板块的网页，提取内容，作为标注语料

最后，人工check语料库

基于Text Embedding技术（Word2vec）

初始化类目关键词库，人工补充部分关键词

通过大规模开放料，如Wikipedia，训练词向量

通过相似度计算，直接查询类目关键词的相关词，补充关键词库

人工check 类目关键词库，并将类目词库的词向量，采用max-pooling，获得类目的词向量

对于生语料中的文档，提取文本特征后，查询相应的词向量，采用max-pooling，获得文档的词向量

文档词向量与类目词向量计算相似度，将相似度最大的作为此文档的标注语料

最后人工check语料库

对于步骤4，也可以选取类目的top10(top100)个词向量作为类目的向量集合

那么步骤5，在计算相似度时，文档词向量与类目的top10(top100)分别计算，再对10（或者100）个相似度取最大值或者均值。

基于聚类和Text Embedding技术

初始化类目关键词，人工补充部分关键词

通过大规模开放语料，如Wikipedia，训练词向量

选取类目的top10(top10)个词向量，作为类目的向量集合

对大规模语料进行聚类，K取类目数量的2倍

对聚类的每个类目(记为

c_

)，选取top100个关键词，与类目(记为

)进行相似度计算，生成一个相似度二维矩阵

对于每个

c_

，计算相似度方差，选取方差大的

c_

,标记为相应的

，即

c_

的文档属于类目

对于每个

，计算相似度方差，如果方差很小，说明此类在语料集上可分性差，应考虑修改类目体系，或者补充语料

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 自动构建文本分类标注语料

相关文章推荐

新的分享

章节导航

自动构建文本分类标注语料的方法