抽取python 标准库页面生成 mobi 离线文件
2014-08-05 09:57
225 查看
前段时间买了个 kindle ,所以就不想老是开电脑 看 书了。而在学习python 时,看到python 主要的还是熟悉一些库的功能。
所以就想着把标准库给捉下来看。
python 标准库:https://docs.python.org/2/library/
下面是一段用来练手的 python 捉取html 内容的代码:
捉完后,使用了 [ calibre - E-book management ] 把html 转换成mobi 格式的文件。
mobi 下载链接:
http://f.dataguru.cn/forum.php?mod=attachment&aid=MTQ5OTQzfDc1Y2MyMDk5fDE0MDgxNzEzNTB8NDQxMTd8MzM3NjMy
所以就想着把标准库给捉下来看。
python 标准库:https://docs.python.org/2/library/
下面是一段用来练手的 python 捉取html 内容的代码:
import urllib2 import os import re #打开并保存hmtl def save_html(urlname): main_url=r'https://docs.python.org/2/library/' main_dir=r'E:BOOKpythonpython_library' url=main_url+urlname+'.html' file_name=main_dir+'\' +urlname+'.html' try: req=urllib2.urlopen(url) urlfile=open(file_name,'w') urlfile.write(req.read()) except: print url finally: urlfile.close() #保存主页 save_html('index') #正则表达式查找链接并保存对应文件 req=urllib2.urlopen(r'https://docs.python.org/2/library/index.html') p=re.compile(r'''<li class="toctree-.+?"><a class="reference internal" href="(.+?).html">.+?</a></li>''') matchs=p.findall(req.read()) for row in matchs: save_html(row)
捉完后,使用了 [ calibre - E-book management ] 把html 转换成mobi 格式的文件。
mobi 下载链接:
http://f.dataguru.cn/forum.php?mod=attachment&aid=MTQ5OTQzfDc1Y2MyMDk5fDE0MDgxNzEzNTB8NDQxMTd8MzM3NjMy
相关文章推荐
- 遍历指定文件夹下所有的xml文件并动态生成HTML页面
- 遍历指定文件夹下所有的xml文件并动态生成HTML页面!
- 遍历指定文件夹下所有的xml文件并动态生成HTML页面
- [python]生成cscope符号索引文件的脚本
- python 实现生成目录树及显示文件大小
- 摆脱CodeSmith,使用页面生成.CS文件
- 【原】Asp.net生成Excel文件并下载(更新:解决使用迅雷下载页面而不是文件的问题)
- Python给文件生成MD5码
- python 生成目录树及显示文件大小的代码
- 动态创建服务器控件,获取HTML输出(用于生成静态文件,简化页面,简化编程等)
- Url地址重写,利用HttpHander手工编译页面并按需生成静态HTML文件
- 遍历指定文件夹下所有的xml文件并动态生成HTML页面!
- 【原】Asp.net生成Excel文件并下载(更新:解决使用迅雷下载页面而不是文件的问题)
- ASP UTF-8页面乱码+GB2312转UTF-8 +生成UTF-8格式的文件(编码)第1/2页
- 遍历指定文件夹下所有的xml文件并动态生成HTML页面!
- 动态创建服务器控件,获取HTML输出(用于生成静态文件,简化页面,简化编程等)
- Asp.Net 上传大文件专题(2)--页面生成流程
- Url地址重写,利用HttpHander手工编译页面并按需生成静态HTML文件
- python中生成可执行文件的最好的办法是什么
- Python MD5文件生成码