您的位置：首页 > 编程语言 > Python开发

Python学习爬虫（7）——爬取豆瓣书名（入门实战）以及 SSLError错误解决

2019-04-09 18:00 309 查看

作者：IT小样
实例：爬取豆瓣书名
URL： https://book.douban.com/tag/漫画
目的：爬取当前页面的所有的书名。
首先放上该网页所需爬取信息的网页源码图：

从网页源码可以得知，找到父节点后，遍历’ li '子节点，可以在子节点中获取书名；首先放上最简单的实现代码：

import requests
from bs4 import BeautifulSoup

url = "https://book.douban.com/tag/%E6%BC%AB%E7%94%BB"
response = requests.get(url,verify=False)
soup = BeautifulSoup(response.text,"lxml")
book_div = soup.find(attrs={"class":"subject-list"})

book_a = book_div.find_all('li',attrs={"class":"subject-item"})

for book in book_a:
print (book.find('h2').get_text().replace('  ','').replace('\n',''))

这段代码实现的很简单，找到信息后，直接打印出来，没有对数据进行保存，在实现过程中，也没有对函数进行封装。之后会出更深阶的实战示例。

注意事项：在发起requests请求之中，如果出现SSLError，SSL：CERTIFICATION_VERIFY_FAILED错我，详细报错见下图：

解决方法为：在requests请求中，加上参数：verify=False，加上改参数后，会跳过对SSL证书的验证。

上一篇：Python学习爬虫（6）–BeautifulSoup搜索文档树：find_all(),find()

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航