您的位置:首页 > 运维架构 > 网站架构

从小说网站爬小说

2017-01-11 23:03 155 查看
最近在看《重生之神级学霸》,但是好几个app都要付费,只能看其他网站上的网页版,由于闲的蛋疼,就像试试怎么把网页上的书转化成txt格式的。

第一步我直接打开http://www.biqudao.com/bqge1081/2544018.html这个页面保存成html文件

就是这个东西model.html

接下来就是把

content的里面的东西给单独提取出来、

from bs4 import BeautifulSoup

import re

import sys

reload(sys)

sys.setdefaultencoding("utf-8")

soup = BeautifulSoup(open('model.html'))

f = open('model.txt','w')

for k in soup.find('div',id="content"):

# pattern1 = re.sub("<br/>",'',k)

# print(pattern1)
f.write(str(k.string))

我用了这段代码

刚开始直接写入不行,发现忘了write接收值有问题得强制转化

现在小说已经保存在model.txt中了

但是有个问题,就是每段后面都有个None,这是因为它本身是</br>,所以得把None换成换行,

fin_old = open('model.txt')

fin_new = open('model2.txt','w')

fin_new.write(fin_old.read().replace("None",'\n'))

fin_old.close()

fin_new.close()

我用的上面这段代码,

确实是成功了,但是有个问题,这种转化方式非得再新建一个txt文档,暂时还不知道怎么在原来txt中改,有没有大神教教我
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: