自动构建文本分类标注语料的方法
2016-10-14 15:59
232 查看
自动构建文本分类标注语料的方法
基于搜索引擎构建
初始化 类别关键词库,人工补充部分关键词对于 类别关键词库,利用搜索引擎系统,搜索各个关键词的相关网页,提取内容
清洗网页内容,并计算类别的关键词,人工check后,加入到 类别关键词 中
重复 执行2,3,直到获得相应的语料库
最后,人工check语料库
基于相关网站构建
针对类目,人工找到相关网站和相关板块直接爬取相关板块的网页,提取内容,作为标注语料
最后,人工check语料库
基于Text Embedding技术 (Word2vec)
初始化 类目关键词库,人工补充部分关键词通过大规模开放料,如Wikipedia,训练词向量
通过相似度计算,直接查询 类目关键词 的相关词,补充 关键词库
人工check 类目关键词库,并将类目词库的词向量,采用max-pooling,获得类目的词向量
对于生语料中的文档,提取文本特征后,查询 相应的词向量,采用max-pooling,获得文档的词向量
文档词向量 与 类目词向量 计算相似度,将相似度最大的作为此文档的标注语料
最后人工check语料库
对于步骤4,也可以选取类目的top10(top100)个词向量 作为类目的向量集合
那么步骤5,在计算相似度时,文档词向量 与类目的top10(top100)分别计算,再对10(或者100)个相似度取最大值或者均值。
基于聚类和Text Embedding技术
初始化 类目关键词,人工补充部分关键词通过大规模开放语料,如Wikipedia,训练词向量
选取类目的top10(top10)个词向量,作为类目的向量集合
对大规模语料进行聚类,K取类目数量的2倍
对聚类的每个类目(记为
c_),选取top100个关键词,与类目(记为
c)进行相似度计算,生成一个相似度二维矩阵
对于每个
c_,计算相似度方差,选取方差大的
c_,标记为相应的
c,即
c_的文档属于类目
c
对于每个
c,计算相似度方差,如果方差很小,说明此类在语料集上可分性差,应考虑修改类目体系,或者补充语料
相关文章推荐
- 文本数据的机器学习自动分类方法(上)
- 通过主动学习的方法进行自动语料标注
- 文本数据的机器学习自动分类方法
- 文本自动分类方法介绍
- 实现文本自动分类的基础----Term频率计算方法
- 文本数据的机器学习自动分类方法(上)
- 通过主动学习的方法进行自动语料标注
- 贝叶斯分类方法学习三 python+jieba+mongodb实现朴素贝叶斯新闻文本自动分类
- 实现文本自动分类的基础--Term频率计算方法
- NLTK学习之三:文本分类与构建基于分类的词性标注器
- 文本数据的机器学习自动分类方法(下)
- 文本数据的机器学习自动分类方法(下)
- 达观数据:文本大数据的机器学习自动分类方法
- 文本数据的机器学习自动分类方法
- 实现文本自动分类的基础-Term频率计算方法
- 文本数据的机器学习自动分类方法(转)
- 自动文本分类方法
- 实现文本自动分类的基础----Term频率计算方法
- 达观数据:文本大数据的机器学习自动分类方法