您的位置:首页 > 编程语言 > Python开发

Python学习爬虫(7)——爬取豆瓣书名(入门实战)以及 SSLError错误解决

2019-04-09 18:00 309 查看

作者:IT小样
实例:爬取豆瓣书名
URL: https://book.douban.com/tag/漫画
目的:爬取当前页面的所有的书名。
首先放上该网页所需爬取信息的网页源码图:

从网页源码可以得知,找到父节点后,遍历’ li '子节点,可以在子节点中获取书名;首先放上最简单的实现代码:

import requests
from bs4 import BeautifulSoup

url = "https://book.douban.com/tag/%E6%BC%AB%E7%94%BB"
response = requests.get(url,verify=False)
soup = BeautifulSoup(response.text,"lxml")
book_div = soup.find(attrs={"class":"subject-list"})

book_a = book_div.find_all('li',attrs={"class":"subject-item"})

for book in book_a:
print (book.find('h2').get_text().replace('  ','').replace('\n',''))

这段代码实现的很简单,找到信息后,直接打印出来,没有对数据进行保存,在实现过程中,也没有对函数进行封装。之后会出更深阶的实战示例。

注意事项:在发起requests请求之中,如果出现SSLError,SSL:CERTIFICATION_VERIFY_FAILED错我,详细报错见下图:

解决方法为:在requests请求中,加上参数:verify=False,加上改参数后,会跳过对SSL证书的验证。

上一篇:Python学习爬虫(6)–BeautifulSoup搜索文档树:find_all(),find()

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐