您的位置：首页 > 编程语言 > Python开发

Python几行代码，简单爬取豆瓣出版社信息，并保存输出txt文件

2019-04-02 11:28 489 查看

Python简单爬取豆瓣出版社信息，并打印输出TXT文件

之前自己跟着崔大神教程学习，都是从一些基础插件的安装，再到安装是否成功，及其测试使用，有点枯燥，现在换了其他教程学习，边实战边学习，每节课不长，还算可以。

如图所示：

1.Python 脚本
2.结果图

3.以下代码是自己用Python直接编写，脚本运行的实例

豆瓣出版社：https://read.douban.com/provider/all

#2019.4.2  爬取豆瓣出版社并打印出来
import urllib.request             #抓取网页必导入
import re                         #使用正则表达式必导入
data = urllib.request.urlopen("https://read.douban.com/provider/all").read().decode("utf-8") #decode()函数是设置读取编码格式，原来的网页格式抓取是二进制，不转换会报错。
#可以用len(data)，查看是否爬取成功，如果字节比较大，则成功，否则是失败的。

pat='<div class="name">(.*?)</div>'     #懒惰模式    里面有双引号，外面就换成单引号，否则报错      .*可以匹配任意字符     有()，只返回括号里内容，否则返回正则表达式格式的内容
rst = re.compile(pat).findall(data)     #进行抓取

fh=open("F:/pythonlianxi/文本4.2.txt","w")     #关于路径，\\或者/       open即为打开创建新的文本
for i in range(0,len(rst)):                    #使用循环，也可以实现打印输出，像print一样    len代表长度
fh.write(rst[i]+"\n")                      #回车换行输出   \n
fh.close()                                     #关闭才能报存

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航