您的位置:首页 > 编程语言 > Python开发

利用python对一段英文文本进行分词,分句

2017-10-27 15:29 736 查看
  这两天一直在学习用python进行自然语言处理这本书,当然开始的开始就是要学习python这门脚本语言,遇到了利用自己的语言对一段英文文本进行分词这个问题,找了好多资料都没有找到具体的解答,自己修修改改终于解决了,分享出来,大家共勉,如果有更好的代码或者算法,大家也可以共同的交流一下。也是希望以后在学习的童鞋们可以有个参考,不至于像我一样摸不着头脑。  利用python对一段英文文本进行分词:
# coding:gbk
txt=open("XXXXX")#括号里面的是是你的txt文本的具体路径
readl=txt.readline()#一行一行的读文本
while readl:
ff=str(readl)#强制类型转换,因为readline()函数读出来的是list类型的,要用split()函数就要是string类型
print(ff.split(' '))
readl = txt.readline()
txt.close()
运行出来的结果就是一个一个单词用单引号括起来的单词了,包括空格和标点符号。
利用python对一段英文文本进行分句:
import codecstxt=open("XXXXX")lis=""#建立一个空的列表存储读取的字符串for line in txt:li=line.strip("\n")lis=lis+lilis=lis+''    #在每个读取出来的字符后面加空格,分开每个单词lis.strip('')liss=lis.split(".")for h in liss:if h == '':continue<4000strong>    [/b]h.strip('')h=h+'.' #在读出的每个句子的最后加上英文句号print(h)

                                            
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: