python爬取动漫网站的动漫
2020-06-01 05:25
881 查看
最近学了一下爬虫,就写段代码来试一下成果如何.(目的是爬取某动漫网站上的一部动漫darling in the franxx)
版本是python3.7
import requests import re from selenium import webdriver import os headers={ 'user-agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36' } url="http://www.imomoe.in/view/7288.html" response = requests.get(url,params=headers) html=response.text step1_name=re.findall("/player/7288-0-.*?.html",html) if not os.path.exists("DarlingInTheFranxx"): os.mkdir("DarlingInTheFranxx") for i in range(24): file_name = "DITF" + str(i + 1) if not os.path.exists("DarlingInTheFranxx" + '/' + file_name + '.mp4'): url='http://imomoe.in'+step1_name[i] response=requests.get(url,headers=headers) //这里实在是找不到什么好的方法来获取iframe的源代码 browser=webdriver.Chrome() browser.get(url) browser.switch_to.frame("play2") temp=browser.page_source browser.quit() // video_url=re.findall("https://.*?.mp4",temp) with open("DarlingInTheFranxx"+'/'+file_name+'.mp4','wb') as fuck: response = requests.get(video_url[0], stream=True) print("正在下载第" + str(i + 1) + "集") for chunk in response.iter_content(chunk_size=1024): if chunk: fuck.write(chunk) print("已下载第"+str(i+1)+"集") else: print("第"+str(i+1)+'集已经存在')
运行测试结果如下:
相关文章推荐
- python 常用网站
- Python实现网站表单提交和模板
- python django 学习(一)数据库 目的根据已有BBS建立新的网站步骤
- 『Python』Python 调用 ZoomEye API 批量获取目标网站IP
- python 学习网站
- 一个学习Python的网站
- python抓取dblp网站的arXiv论文,下载保存成pdf
- 将IIS中网站日志批量导入到mysql【python】
- Python识别验证码!学会这步,百分之60的网站你基本都能识别了!
- Python基础学习网站
- Apache+CGI+python网站构建学习资源集
- Python基于Django框架二手物品购物网站设计
- python模拟浏览器webdriver登陆网站后抓取页面并输出
- python\c交互学习网站手机
- 用python来爬某电影网站的下载地址
- python -- 常用网站
- 在 Windows Azure 网站上使用 Django、Python 和 MySQL:创建博客应用程序
- python学习 二 04 爬一个图片网站-解析文件,获得所有图片链接
- 学习python的相关网站
- python、C++、机器学习、深度学习-------资源、代码练习的常用网站大全