您的位置：首页 > 运维架构 > 网站架构

从小说网站爬小说

2017-01-11 23:03 155 查看

最近在看《重生之神级学霸》，但是好几个app都要付费，只能看其他网站上的网页版，由于闲的蛋疼，就像试试怎么把网页上的书转化成txt格式的。

第一步我直接打开http://www.biqudao.com/bqge1081/2544018.html这个页面保存成html文件

就是这个东西model.html

接下来就是把

content的里面的东西给单独提取出来、

from bs4 import BeautifulSoup

import re

import sys

reload(sys)

sys.setdefaultencoding("utf-8")

soup = BeautifulSoup(open('model.html'))

f = open('model.txt','w')

for k in soup.find('div',id="content"):

# pattern1 = re.sub("<br/>",'',k)

# print(pattern1)
f.write(str(k.string))

我用了这段代码

刚开始直接写入不行，发现忘了write接收值有问题得强制转化

现在小说已经保存在model.txt中了

但是有个问题，就是每段后面都有个None，这是因为它本身是</br>，所以得把None换成换行，

fin_old = open('model.txt')

fin_new = open('model2.txt','w')

fin_new.write(fin_old.read().replace("None",'\n'))

fin_old.close()

fin_new.close()

我用的上面这段代码，

确实是成功了，但是有个问题，这种转化方式非得再新建一个txt文档，暂时还不知道怎么在原来txt中改，有没有大神教教我

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航