手把手教你:解决pynlpir在ubuntu下不能分词的问题
2015-06-23 21:44
344 查看
引子:最近做的项目用到了pynlpir进行分词,但是发现在ubuntu环境下,对带有中文路径的文件不能进行分词
原因:直接调用pynlpir的分词文件函数:nlpir.FileProcess(sSrcFileName, sDstFileName, False)失败,应该是pynlpir在ubuntu环境下对中文路径的解析发生问题。
下面是我自己封装的一个函数,当然这个代码在windows环境下是可以对带有中文路径的文件分词成功的
解决方法:
既然我们直接调用它的分词文件函数不能成功,不妨换一个思路。我们自己循环读取文件每一行,对每一行分词,并将分词的结果写入到输出文件,基于这个思路,自己实现了如下的分词文件函数,在windows和ubuntu环境下对带有中文路径的文件分词进行测试,均成功。
本着王道论坛的:赠人玫瑰,收留余香的精神
我决定把这个困扰我一个多星期问题的解决代码贡献出来:
原因:直接调用pynlpir的分词文件函数:nlpir.FileProcess(sSrcFileName, sDstFileName, False)失败,应该是pynlpir在ubuntu环境下对中文路径的解析发生问题。
下面是我自己封装的一个函数,当然这个代码在windows环境下是可以对带有中文路径的文件分词成功的
from pynlpir import *
import codecs def splitFile(sSrcFileName, sDstFileName): if not nlpir.Init(nlpir.PACKAGE_DIR, nlpir.UTF8_CODE, None): logging.INFO("初始化分词器失败") return False if isinstance(sSrcFileName , unicode): sSrcFileName = sSrcFileName.encode("utf-8") if isinstance(sDstFileName , unicode): sDstFileName = sDstFileName.encode("utf-8") nlpir.FileProcess(sSrcFileName, sDstFileName, False) nlpir.Exit() return True
解决方法:
既然我们直接调用它的分词文件函数不能成功,不妨换一个思路。我们自己循环读取文件每一行,对每一行分词,并将分词的结果写入到输出文件,基于这个思路,自己实现了如下的分词文件函数,在windows和ubuntu环境下对带有中文路径的文件分词进行测试,均成功。
本着王道论坛的:赠人玫瑰,收留余香的精神
我决定把这个困扰我一个多星期问题的解决代码贡献出来:
<pre name="code" class="python">from pynlpir import *
import codecs # 自己封装的对文件进行分词的函数:循环读取文件每一行,对每一行的分词结果写入文件 def splitFile_bySentence(sSrcFileName, sDstFileName): if not nlpir.Init(nlpir.PACKAGE_DIR, nlpir.UTF8_CODE, None): logging.INFO("初始化分词器失败") return False #如果路径是unicode字符串,需要转换为由utf-8编码的普通字符串 ''' if isinstance(sSrcFileName , unicode): sSrcFileName = sSrcFileName.encode("utf-8") if isinstance(sDstFileName , unicode): sDstFileName = sDstFileName.encode("utf-8") ''' #循环读取输入文件的每一行内容并进行分词,不要指定编码格式,否则发生错误 #fr = codecs.open(sSrcFileName, "r", "utf-8") fr = codecs.open(sSrcFileName, "r") result = "" flag = True lines = fr.readlines() for line in lines: line = line.strip("\n").strip("\r") print "line:%s" % line if line: sResult = nlpir.ParagraphProcess(line, False) result += sResult + "\n" fr.close() if result != "": #outFile = codecs.open(sDstFileName, "w", "gbk") outFile = codecs.open(sDstFileName, "w") outFile.write(result) outFile.close() else: sErrorInfo = "对文件:%s 分词失败" % sSrcFileName print sErrorInfo logging.critical(sErrorInfo) flag = False nlpir.Exit() return flag
需要注意的一个问题:打开输入文件和输出文件时均不要指定编码方式,否则会发生错误
<pre name="code" class="python">fr = codecs.open(sSrcFileName, "r")
outFile = codecs.open(sDstFileName, "w")
相关文章推荐
- CLion注册码算法逆向分析实录
- Google《Android性能优化》学习笔记
- python使用post登陆电子科大信息门户并保存登陆后页面
- select、poll、epoll
- C/C++语言字符串操作总结大全(超详细)
- 几天前的梦语
- C/C++语言字符串操作总结大全(超详细)
- Leetcode 02 Add Two Numbers
- 巧克力爱好者匿名顺序图——提供者
- 什么是Unicorn
- 微信的接口网页授权获取用户基本信息不是只有认证服务号才有
- html5新增及删除标签
- Leetcode 01 Two Sum
- 杭电ACM----------1003 Max Num
- hdoj 1004 Let the Balloon Rise 【STL or 暴力】
- 信用卡专业筛选站点
- .Net——实现IConfigurationSectionHandler接口定义处理程序处理自定义节点
- .Net——实现IConfigurationSectionHandler接口定义处理程序处理自定义节点
- 面对工业4.0,我国工业企业的挑战与对策
- 二路插入排序