python3.4.3实现txt文本指定字符提取
2017-09-01 14:56
375 查看
TXT文档中提取指定文本
在每天上班的路上,都会在地铁上看看高晓松的《鱼羊野史》。很有意思的一本书,口头语言记录成册,来自《晓松奇谈》。每天都会按着日期看,今天是哪一天就翻到哪一天,看看历史上的今天发生了什么事,大千世界,天文地理,古今中外,体育娱乐,历史趣闻,明星轶事,无所不包,无所不有。总有一款你喜欢的。内容斑杂却生动有趣,今天批评历史罪人,痛骂汉奸走狗,明日歌颂名族英雄,赞美时代伟人,好不趣味连连。书中涉及到很多电影和书籍。发现都是用书名号“《》”包含起来的,于是心血来潮,试了试用新学的python将所有电影和书籍名提取出来。1.提取文本思路
step 1: 首先读取文件step 2: 读取出的str转换为list
step 3: 查询字符“《”,当查到时,在当前索引号index后30个字符范围内查找“》”,并将这段字符用list的append()方法添加进一个新的list,插入“》”后插入换行符号”\n“
step 4: 新生成的的list转换为str
step 5: 生成新文档
2.demo
#!/bin/python3 TXTtemp = open("fishandsheephistory.txt","r+") txtbuffer=TXTtemp.read() #i=0 oldlist=[''] newlist=[''] #for txtchar in txtbuffer: # oldlist.append(txtchar) # i=i+1 oldlist=list(txtbuffer) for index in range(len(txtbuffer)): if oldlist[index]=="《": for j in range(30): if oldlist[index+j]=="》": newlist.append("》") newlist.append("\n") j=0 break newlist.append(oldlist[index+j]) print(newlist) strlist= a62a "".join(newlist) txtnew=open("newtxt.txt","w") txtnew.write(strlist) txtnew.close() TXTtemp.close()
3.结果与改进思路
简单的一段小demo,涉及Python3文件读写,open(),write()方法的使用,list与str的转换。不过主要思维逻辑还是采用C的数组操作思想,理想的用法应该是导入re模块,采用正则表达式才是最优的,奈何自己正则没学好,以后会尝试改进。而且提取出来会存在很多重复,下一步就要去重。
贴一个资源网站:
超详细python项目收集
相关文章推荐
- 正则提取关键字符-python代码实现
- python实现根据指定字符截取对应的行的内容方法
- 关于Excel操作编写的一个软件设计构思案例[连载] --如何实现从字符串中提取需要的字符并赋值给指定单元格内
- Python 实现字符串中指定位置插入一个字符
- python实现根据指定字符截取对应的行的内容
- 【Javascript】提取指定数目的字符substr()
- python基于BeautifulSoup实现抓取网页指定内容的方法
- Python实现提取谷歌音乐搜索结果的方法
- Python 实现在对一个目录下所有文件,指定某一行之后添加内容(批处理脚本)
- Python使用logging模块实现打印log到指定文件的方法
- Python3实现从指定路径查找文件的方法
- Python实现字符串匹配算法代码示例
- php 在字符串指定位置插入新字符的简单实现
- python实现网页链接提取的方法分享
- 自己实现的一个字符串分割截取函数,以及查找指定字符
- python处理文本文件实现生成指定格式文件的方法
- js替换字符串中所有指定的字符(实现代码)
- c++实现删除字符串前后指定字符
- Python使用time模块实现指定时间触发器示例
- python实现验证码的非连接字符的分割算法