利用python对一段英文文本进行分词,分句
2017-10-27 15:29
736 查看
这两天一直在学习用python进行自然语言处理这本书,当然开始的开始就是要学习python这门脚本语言,遇到了利用自己的语言对一段英文文本进行分词这个问题,找了好多资料都没有找到具体的解答,自己修修改改终于解决了,分享出来,大家共勉,如果有更好的代码或者算法,大家也可以共同的交流一下。也是希望以后在学习的童鞋们可以有个参考,不至于像我一样摸不着头脑。 利用python对一段英文文本进行分词:
# coding:gbk txt=open("XXXXX")#括号里面的是是你的txt文本的具体路径 readl=txt.readline()#一行一行的读文本 while readl: ff=str(readl)#强制类型转换,因为readline()函数读出来的是list类型的,要用split()函数就要是string类型
print(ff.split(' ')) readl = txt.readline() txt.close()
运行出来的结果就是一个一个单词用单引号括起来的单词了,包括空格和标点符号。
利用python对一段英文文本进行分句:
import codecstxt=open("XXXXX")lis=""#建立一个空的列表存储读取的字符串for line in txt:li=line.strip("\n")lis=lis+lilis=lis+'' #在每个读取出来的字符后面加空格,分开每个单词lis.strip('')liss=lis.split(".")for h in liss:if h == '':continue<4000strong> [/b]h.strip('')h=h+'.' #在读出的每个句子的最后加上英文句号print(h)
相关文章推荐
- 利用python的sklearn开源包进行文本挖掘
- Python进行文本预处理(文本分词,过滤停用词,词频统计,特征选择,文本表示)
- Python使用jieba分词并用weka进行文本分类
- Python:通过gensim和jieba分词进行文本相似度分析
- Python--利用结巴进行分词
- 如何利用深度学习写诗歌(使用Python进行文本生成)
- 利用NLTK进行分句分词
- 利用jieba对多个中文txt文本进行分词
- 利用NLTK进行分句分词
- 利用python对新浪微博用户标签进行分词并推荐相关用户
- Python利用结巴分词进行中文分词
- 如何利用Python对中文进行分词处理
- 利用python对中文文本数据进行LDA训练、计算概率距离
- NLTK进行英文分句和分词
- 如何利用python中的langid,对文本语种进行分类
- 使用最大逆向法,利用python进行简易中文分词
- 使用python对中文文本进行分词
- 利用python对新浪微博用户标签进行分词并推荐相关用户
- 用python进行数据预处理,过滤特殊符号,英文和数字。(适用于中文分词)
- Python调用NLPIR/ICTCLAS进行文本分词