Python爬虫实战(八):爬取电影天堂的电影下载链接
2017-10-29 18:15
639 查看
#coding=utf-8 import re import requests import xlsxwriter from bs4 import BeautifulSoup def getHtml(url): headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:56.0) Gecko/20100101 Firefox/56.0'} try: page = requests.get(url,headers = headers) page.encoding = 'gbk' html = page.text return html except: return "" def getMovie(html): allmovie = [] movieurl = [] ftpurl = [] soup = BeautifulSoup(html, 'html.parser') url_info = soup.find_all('a',class_="ulink") for url in url_info: movie = url.get_text() movie = movie.split('《')[1] movie = movie.split('》')[0] allmovie.append(movie) reurl = 'http://www.dytt8.net' + url.get('href') movieurl.append(reurl) for url in movieurl: try: html = getHtml(url) reg = r'href="(ftp:.+?)">' imgre = re.compile(reg) imglist,*_ = re.findall(imgre,html) ftpurl.append(imglist) except: print('访问异常,无法获取下载地址') ftpurl.append('') return allmovie,ftpurl if __name__=='__main__': workbook = xlsxwriter.Workbook('电影资源.xlsx') worksheet = workbook.add_worksheet() row = 0 for i in range(166): print('正在访问第{}页'.format(i+1)) url = 'http://www.dytt8.net/html/gndy/dyzz/list_23_' + str(i+1) + '.html' html = getHtml(url) if not html: print('访问异常,跳过') continue movie,ftp = getMovie(html) for item in zip(movie,ftp): worksheet.write(row,0,item[0]) worksheet.write(row,4,item[1]) row = row+1 workbook.close() print ("OK!DownLoad ALL!")
相关文章推荐
- python爬虫实现下载电影天堂电影
- Python多线程爬虫获取电影下载链接
- Java爬虫实战(二):抓取一个视频网站上2015年所有电影的下载链接
- java爬虫框架——jsoup的简单使用(爬取电影天堂的所有电影的信息,包括下载的链接)
- Java爬虫实战(二):抓取一个视频网站上2015年所有电影的下载链接
- 用python做一个可以下载电影天堂最新电影的爬虫
- Python爬虫实战(五) :下载百度贴吧帖子里的所有图片
- Python 爬虫实战(1):分析豆瓣中最新电影的影评并制作词云
- python3--爬虫实战一:爬取豆瓣电影250
- Python 网络爬虫 009 (编程) 通过正则表达式来获取一个网页中的所有的URL链接,并下载这些URL链接的源代码
- Python爬虫判断url链接的是下载文件还是html文件
- 使用Python多线程爬虫爬取电影天堂资源
- Python 爬虫 —— 豆瓣电影爬虫实战
- 使用Python多线程爬虫爬取电影天堂资源
- Python自动化(二)使用Beautifu Soup爬取电影下载链接
- python3[爬虫基础入门实战] 爬取豆瓣电影排行top250
- Python爬虫实战(1):抓取毒舌电影最新推送
- Python爬虫获取电影链接(续)