您的位置:首页 > 其它

自动构建文本分类标注语料的方法

2016-10-14 15:59 232 查看

自动构建文本分类标注语料的方法

基于搜索引擎构建

初始化 类别关键词库,人工补充部分关键词

对于 类别关键词库,利用搜索引擎系统,搜索各个关键词的相关网页,提取内容

清洗网页内容,并计算类别的关键词,人工check后,加入到 类别关键词 中

重复 执行2,3,直到获得相应的语料库

最后,人工check语料库

基于相关网站构建

针对类目,人工找到相关网站和相关板块

直接爬取相关板块的网页,提取内容,作为标注语料

最后,人工check语料库

基于Text Embedding技术 (Word2vec)

初始化 类目关键词库,人工补充部分关键词

通过大规模开放料,如Wikipedia,训练词向量

通过相似度计算,直接查询 类目关键词 的相关词,补充 关键词库

人工check 类目关键词库,并将类目词库的词向量,采用max-pooling,获得类目的词向量

对于生语料中的文档,提取文本特征后,查询 相应的词向量,采用max-pooling,获得文档的词向量

文档词向量 与 类目词向量 计算相似度,将相似度最大的作为此文档的标注语料

最后人工check语料库

对于步骤4,也可以选取类目的top10(top100)个词向量 作为类目的向量集合

那么步骤5,在计算相似度时,文档词向量 与类目的top10(top100)分别计算,再对10(或者100)个相似度取最大值或者均值。

基于聚类和Text Embedding技术

初始化 类目关键词,人工补充部分关键词

通过大规模开放语料,如Wikipedia,训练词向量

选取类目的top10(top10)个词向量,作为类目的向量集合

对大规模语料进行聚类,K取类目数量的2倍

对聚类的每个类目(记为
c_
),选取top100个关键词,与类目(记为
c
)进行相似度计算,生成一个相似度二维矩阵

对于每个
c_
,计算相似度方差,选取方差大的
c_
,标记为相应的
c
,即
c_
的文档属于类目
c


对于每个
c
,计算相似度方差,如果方差很小,说明此类在语料集上可分性差,应考虑修改类目体系,或者补充语料
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息