从小说网站爬小说
2017-01-11 23:03
155 查看
最近在看《重生之神级学霸》,但是好几个app都要付费,只能看其他网站上的网页版,由于闲的蛋疼,就像试试怎么把网页上的书转化成txt格式的。
第一步我直接打开http://www.biqudao.com/bqge1081/2544018.html这个页面保存成html文件
就是这个东西model.html
接下来就是把
content的里面的东西给单独提取出来、
from bs4 import BeautifulSoup
import re
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
soup = BeautifulSoup(open('model.html'))
f = open('model.txt','w')
for k in soup.find('div',id="content"):
# pattern1 = re.sub("<br/>",'',k)
# print(pattern1)
f.write(str(k.string))
我用了这段代码
刚开始直接写入不行,发现忘了write接收值有问题得强制转化
现在小说已经保存在model.txt中了
但是有个问题,就是每段后面都有个None,这是因为它本身是</br>,所以得把None换成换行,
fin_old = open('model.txt')
fin_new = open('model2.txt','w')
fin_new.write(fin_old.read().replace("None",'\n'))
fin_old.close()
fin_new.close()
我用的上面这段代码,
确实是成功了,但是有个问题,这种转化方式非得再新建一个txt文档,暂时还不知道怎么在原来txt中改,有没有大神教教我
第一步我直接打开http://www.biqudao.com/bqge1081/2544018.html这个页面保存成html文件
就是这个东西model.html
接下来就是把
content的里面的东西给单独提取出来、
from bs4 import BeautifulSoup
import re
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
soup = BeautifulSoup(open('model.html'))
f = open('model.txt','w')
for k in soup.find('div',id="content"):
# pattern1 = re.sub("<br/>",'',k)
# print(pattern1)
f.write(str(k.string))
我用了这段代码
刚开始直接写入不行,发现忘了write接收值有问题得强制转化
现在小说已经保存在model.txt中了
但是有个问题,就是每段后面都有个None,这是因为它本身是</br>,所以得把None换成换行,
fin_old = open('model.txt')
fin_new = open('model2.txt','w')
fin_new.write(fin_old.read().replace("None",'\n'))
fin_old.close()
fin_new.close()
我用的上面这段代码,
确实是成功了,但是有个问题,这种转化方式非得再新建一个txt文档,暂时还不知道怎么在原来txt中改,有没有大神教教我
相关文章推荐
- python 网站爬虫 下载在线盗墓笔记小说到本地的脚本
- 实战项目-小说网站开发过程中难点记录(1)
- 这些年做小说网站的一些经验
- python 网站爬虫 下载在线盗墓笔记小说到本地的脚本
- 批量下载小说网站上的小说(python爬虫)
- [置顶] 网站unicode字符乱码问题一扫空解决方案 -- 带demo 简单的小说应用
- [转载]国内十大当红网络小说网站排名
- 我做的小说网站:北风小说网 www.bfxsw.com 大家有爱看小说的快来看吧。
- 网址导航、小说系统网站建设、下载系统源码
- JAVAWEB学习制作自己的小说管理网站-day02
- 小说阅读网站的‘作者’为何不用实名制?
- 奇幻小说网站大全
- 爬取小说网站小说信息以及内容
- python学习(二)爬虫——爬取网站小说并保存为txt文件(二)
- 使用Scrapy爬取顶点小说整个网站的小说,入库Mysql!
- 简单的小说网站爬虫--爬小说
- [推荐]黄s小说网站网络时代的犯罪地管辖
- 在线小说网站的设计与实现(附源码)
- Python爬取小说网站页面制作电子书
- 小说520网站遭关停