简单的python爬虫,爬取网页内容并保存到指定文件(实例源码加注释)
2020-02-29 19:15
906 查看
python爬虫,爬取网页内容并保存到指定文件(实例)
python爬虫,爬出豆瓣书摊的书籍列表以及图片,还有连接。当然还可以将相关代码封装成函数,使用递归调用就可以无限爬下去。
#导包,requets可以福爬取网页,BeautifulSoup4可以解析requests爬下来的网页,解析为html文档 import requests from bs4 import BeautifulSoup #打开对应地址的文件,将爬取下来的结果保存进去,注意下面的语句全部都要缩进一个 with open('C:/Users/A/Desktop/hehe.txt', 'r+', encoding='utf-8') as f: #创建要访问的网页链接 url = "https://movie.douban.com/" #设置请求头的UA用于身份伪装 headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36" } #使用requests.get的方法去爬取页面 res = requests.get(url, headers=headers) #设置已经爬下来的页面的编码格式 res.encoding = "utf-8" #使用BeautifulSoup4解析html文档 soup = BeautifulSoup(res.text, 'xml') #使用find方法找到里面标签为a标签,文本内容为读书的标签(注意这里是完全匹配) tags = soup.find(name='a', text='读书') #使用get方法获取里面的href链接 url = tags.get('href') rep = requests.get(url, headers=headers) soup2 = BeautifulSoup(rep.text, 'lxml') #使用select CSS 选择器选择carousel 这个class内容,并且是里面a标签的内容,注意是一个列表内容 for i in soup2.select(".carousel a"): #print(i) #使用select选择img标签 if i.select("img"): #使用get获取里面的title,href内容,以及img里面的第一个元素的src内容 print(i.get('title'), "-------", i.get('href'), "-------", i.select("img")[0].get('src')) #使用write将这些爬取下来的内容一行一行的写入文件中 f.write("{} {} {} {} {}\n".format(i.get('title'), "-------", i.get('href'), "-------", i.select("img")[0].get('src')))
- 点赞 1
- 收藏
- 分享
- 文章举报
相关文章推荐
- [python]简单获取网页文件指定内容方法
- 第一个爬虫实例-简单抓取网页内容
- Python3学习(34)--简单网页内容抓取(爬虫入门一)
- Python MOOC简单获取网页内容并以html格式保存在本地
- Python爬虫学习之获取指定网页源码
- python下载文件(图片)源码,包含爬网内容(爬url),可保存cookie
- 用python写一个简单的爬虫保存在json文件中
- JAVA爬虫网站内容保存指定文件
- 简单的python爬取网页字符串内容并保存
- Python获取网页源码并保存为文件Demo
- Python——网页内容读取与网页爬虫 + 文件操作
- 第三百四十一节,Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容—meta属性返回指定值给回调函数—Scrapy内置图片下载器
- python爬虫由浅入深1-从网页中爬取文件并保存至本地
- 简单的C# 保存内容到指定路径下的XML文件中方法
- Python 实例一 统计指定文件的行数或读取指定文件指定行数的内容
- Python简单爬虫导出CSV文件的实例讲解
- Python修改文件往指定行插入内容的实例
- js print打印网页指定区域内容的简单实例
- JAVA爬虫网站内容保存指定文件
- Python3简单爬虫抓取网页图片代码实例