基于Python结巴分词(调用自定义词库已经去除停用词)
2017-08-08 15:45
471 查看
# -*- coding: utf-8 -*- import time import jieba import jieba.posseg as pseg#用于词性标注 #分词 #停用词过滤 def stop_word(fid1,fid2,fid3): stopword=[] for j in fid2.readlines(): stopword.append(j.strip().decode("utf-8"))#储存停用词表 #print j for i in fid1.readlines(): data_line=i.strip() wordList = jieba.cut(data_line.decode("utf-8"))#wordlist是一个生成器 outStr='' for word in wordList: if word not in stopword: outStr+=word outStr+=' ' fid3.write(outStr.strip().encode('utf-8') + '\n') #主文件 def main(): jieba.enable_parallel() # 加入自定义词库 jieba.load_userdict("/Users/zhuxinquan/Desktop/mykeyword.txt") t1 = time.time() fid1=open('/Users/zhuxinquan/Desktop/合并3.txt','r')#读取文件 fid2=open('/Users/zhuxinquan/Desktop/stopword.txt','r')#读取停用词表 fid3=open('/Users/zhuxinquan/Desktop/文本检索语料库5.txt','w')#将要写入的文件 stop_word(fid1,fid2,fid3)#停用词过滤 fid1.close() fid2.close() fid3.close() t2 = time.time() tm_cost = t2-t1 print tm_cost main()
相关文章推荐
- python调用jieba(结巴)分词 加入自定义词典和去停用词功能
- python调用jieba(结巴)分词 加入自定义词典和去停用词功能
- Python 结巴分词停止词及自定义词库
- python 去除停用词 结巴分词
- python去除停用词(结巴分词下)
- python27使用jieba分词,去除停用词
- python中文语音识别后-结巴分词以及停用词过滤时遇到的转码问题
- 结巴分词 0.14 版发布,Python 中文分词库
- python结巴分词、jieba加载停用词表
- Python 05 自定义函数的创建、调用和函数
- jieba(结巴)—— Python 中文分词
- 【Lucene3.6.2入门系列】第05节_自定义停用词分词器和同义词分词器
- “结巴”中文分词:做最好的 Python 中文分词组件
- 基于XML-RPC的远程调用(Python,Java)
- 基于vue前端框架/scrapy爬虫框架/结巴分词实现的小型搜索引擎
- 基于python的分词算法的实现(2) - 字典的选择
- [置顶] python—结巴分词的原理理解,Hmm中的转移概率矩阵和混淆矩阵。
- “结巴”分词:做最好的Python分词组件
- python jieba 分词自定义字典
- Python分词:结巴分词的安装使用