对一批文件进行中文分词,分词后输出字符串,示例代码
2019-04-15 21:35
99 查看
简介
学习需要记录一下自己调通的代码,所以简要记录一下。
数据介绍
输入文本为一段话分别为一个文件,eg:neg.0.txt,neg.29.txt。
输出结果示例:酒店,门面,很小,不像,三星级,酒店,入住率,好像,反正,房间,大小,标准,光线,网络,奇差,无比,连不上,服务,
代码
# -*- coding:utf-8 -*- import codecs import os import shutil import jieba import jieba.analyse #Read file and cut def read_file_cut(file_path, num_recs): #create path respath = "C:\\Users\\Administrator\\PycharmProjects\\M_H_Attention\\neg0_99\\result_test" if os.path.isdir(respath): shutil.rmtree(respath, True) os.makedirs(respath) # jieba.load_userdict('THUOCL_food.txt')#导入用户自定义词典 num = 0 while num< num_recs: name = "%d" % num print(name) fileName = file_path + str(name) + ".txt" resName = respath + str(name) + ".txt" source = codecs.open(fileName, 'r',encoding='UTF-8') if os.path.exists(resName): os.remove(resName) result = codecs.open(resName, 'w', encoding='utf-8') line = source.readline() line = line.rstrip('\n') stopwords = {}.fromkeys([line.strip() for line in codecs.open('chinese_stopwords.txt', encoding='UTF-8')] ) # 停用词表 while line!="": seglist = jieba.cut(line,cut_all=False) #精确模式 output=''#现定义一个list,(定义一个空字符串用'') for segs in seglist: seg=segs.lower() #英文字母小写 if seg not in stopwords: #去停用词 if len(seg)>1: #去掉分词为1个字的结果 output += seg output +=',' print (output) result.write(output+'\r\n') line = source.readline() else: print ('End file: ' + str(num) ) source.close() result.close() num = num + 1 else: print ('End All') if __name__ == '__main__': file_path = "C:\\Users\\Administrator\\PycharmProjects\\M_H_Attention\\neg0_99\\neg." num_res=100 read_file_cut(file_path,num_res)
相关文章推荐
- 【C++】如何进行简单的文件输入、输出?(基本操作及代码示例)(编程习惯)
- 自己动手写中文分词解析器完整教程,并对出现的问题进行探讨和解决(附完整c#代码和相关dll文件、txt文件下载)
- 自己动手写中文分词解析器完整教程,并对出现的问题进行探讨和解决(附完整c#代码和相关dll文件、txt文件下载)
- Shell脚本对文件中的行、单词、字符进行迭代输出示例
- 系统多种资源文件代码示例(例如一个系统同时具有中文简体,中文繁体,英文,日文等不同资源文件)(示例代码下载)
- ios操作文件和字符串的示例代码
- js对图片base64编码字符串进行解码并输出图像示例
- java输出/输出——文件读写示例代码总结
- ios用AFN进行文件上传的示例代码
- 系统多种资源文件代码示例(例如一个系统同时具有中文简体,中文繁体,英文,日文等不同资源文件)(示例代码下载)
- python3.4学习笔记(二十六) Python 输出json到文件,让json.dumps输出中文 实例代码
- 基于Koa(nodejs框架)对json文件进行增删改查的示例代码
- pinyin4j 中文字符串转换成拼音简略输出 - 代码共享
- js对图片base64编码字符串进行解码并输出图像示例
- 系统多种资源文件代码示例(例如一个系统同时具有中文简体,中文繁体,英文,日文等不同资源文件)(示例代码下载)
- 在一个JS文件中包含中文字符串,通过innerHTML输出后中文乱码?
- (1)写一个程序,用于分析一个字符串中各个单词出现的频率,并将单词和它出现的频率输出显示。(单词之间用空格隔开,如“Hello World My First Unit Test”); (2)编写单元测试进行测试; (3)用ElcEmma查看代码覆盖率,要求覆盖率达到100%。
- VC调试--输出调试字符串(含示例代码)
- Java对xls文件进行读写操作示例代码
- mysql导出文件不输出表头,同时只导出指定字段,并且进行某个字段中的某个字符串查询