[Python]HTML转换为TXT的脚本
2007-01-04 20:10
441 查看
朋友给我发了一些文章,是HTML格式的。但是我的A1200手机只适合看txt格式的书,所以写了一个脚本,把某个目录下的所有.htm文件转换成txt,并放到txt目录下。
1 from formatter import AbstractFormatter, NullWriter 2 from htmllib import HTMLParser 3 4 def _(str, in_encoder="gbk", out_encoder="utf8"): 5 return unicode(str, in_encoder).encode(out_encoder) 6 7 8 class myWriter(NullWriter): 9 def __init__(self): 10 NullWriter.__init__(self) 11 self._bodyText = [] 12 13 def send_flowing_data(self, str): 14 self._bodyText.append(str) 15 16 def _get_bodyText(self): 17 return '/n'.join(self._bodyText) 18 19 bodyText = property(_get_bodyText, None, None, 'plain text from body') 20 21 class myHTMLParser(HTMLParser): 22 def do_meta(self, attrs): 23 self.metas = attrs 24 25 def convertFile(filename): 26 mywriter = myWriter() 27 absformatter = AbstractFormatter(mywriter) 28 parser = myHTMLParser(absformatter) 29 parser.feed(open(filename).read()) 30 return ( _(parser.title), parser.formatter.writer.bodyText ) 31 32 import os 33 import os.path 34 35 OUTPUTDIR = "./txt" 36 INPUTDIR = "." 37 if __name__ == "__main__": 38 if not os.path.exists(OUTPUTDIR): 39 os.mkdir(OUTPUTDIR) 40 41 for file in os.listdir(INPUTDIR): 42 if file[-4:] == '.htm': 43 print "Coverting", file, 44 outfilename, text = convertFile(file) 45 outfilename = outfilename + '.txt' 46 outfullname = os.path.join(OUTPUTDIR, outfilename) 47 open(outfullname, "wt").write(text) 48 print "Done!" 49 BTW:以上这段代码是用vim的 :TOhtml 命令转换而成。
相关文章推荐
- [Python]HTML转换为TXT的脚本
- [Python]HTML转换为TXT的脚本
- 基于python实现的改变HTML、txt文件编码脚本
- Python 将HTML转换为TXT
- 把txt文件转换为tsv文件的python脚本
- 【脚本语言系列】关于Python结构化文本文件处理HTML,你需要知道的事
- python小脚本 删除含有特定字符的txt,并重命名
- 用Python将word文件转换成html(转)
- 用于windbg转换十六进制字符串的python脚本
- 使用python写自动执行脚本并将结果返回到html中
- 使用python转换markdown to html
- 利用python脚本抓取AC的代码[爬虫+HTMLParser+handle_entityref+正则表达式+模拟登陆+文件操作]
- python将txt转换为csv
- Python实例之抓取HTML中的数据并保存为TXT
- Python实现dict转换成HTML表格
- 将word、excel、ppt、html、txt转换成图片
- shell 实现txt转换成html
- Ubuntu(Linux) PyQt5 QtUIFile 转换为 PythonModule (pyuic.py/pyuic脚本)
- python csv/txt转换成excel
- Python实现读取txt文件并转换为excel的方法示例