python 爬虫初学项目一(80s电影网)
2017-10-22 09:58
561 查看
python 爬虫初学项目一(80s电影网)
初学python爬虫,第一篇博客,以后会不断更新。爬取80s网站的电视剧的部分
爬取每个电视剧中每集的下载链接
做简单的输出打印
代码如下:
代码块
代码块语法遵循标准markdown代码,例如:import requests from bs4 import BeautifulSoup def url_open(url): res = requests.get(url) res.encoding = 'utf-8' soup = BeautifulSoup(res.text, 'html.parser') return soup def search_80s(number, first_url='http://www.80s.tw/ju/list/----0--p'): name = [] page = [] url = [] for i in range(1,number+1): url.append(first_url+str(i)) for i in range(len(url)): soup = url_open(url[i]) name_list = soup.select('h3 a')[:25] for line in name_list: name.append(line.text.strip()) page.append('http://www.80s.tw'+line['href']) return name,page def get_download_url(page): name = [] url = [] soup = url_open(page) every_name = soup.select('span a ') for line in every_name: name.append(line.text.strip()) url.append(line['href']) str1 = '豆瓣短评' if str1 in name: tmp_index = name.index('豆瓣短评') name = name[tmp_index+1:-6] url = url[tmp_index+1:-6] return name,url name, page = search_80s(1) for i in range(len(name)): print(name[i],page[i]) dl_name, dl_url = get_download_url(page[i]) for j in range(len(dl_name)): print(dl_name[j], dl_url[j])
小弟初学python,写的爬虫代码可能的不太好,希望大家给点建议。
相关文章推荐
- 初学python,爬虫小项目
- Python爬虫初学(1)
- Python3 大型网络爬虫实战 002 --- scrapy 爬虫项目的创建及爬虫的创建 --- 实例:爬取百度标题和CSDN博客
- 【实战\聚焦Python分布式爬虫必学框架Scrapy 打造搜索引擎项目笔记】第1章 课程介绍
- 不用Python,怎么实现大数据爬虫项目?
- Python 爬虫进公司必会项目
- python爬虫项目- 爬取厦门航空官网机票价格 selenium 多进程爬取
- 第三百七十二节,Python分布式爬虫打造搜索引擎Scrapy精讲—scrapyd部署scrapy项目
- 32个Python爬虫项目让你一次吃到撑
- Python爬虫入门项目
- Python即时网络爬虫项目: 内容提取器的定义(Python2.7版本)
- python爬虫实例项目大全
- Python即时网络爬虫项目启动说明
- Python爬虫小项目(1):抓取转转网西安二手商品的详细信息并导入mongo,绘制图表,慢更
- 初学python爬虫
- Python3 大型网络爬虫实战 — 给 scrapy 爬虫项目设置为防反爬
- Win7 Eclipse 运行 Python Scrapy爬虫项目
- Python 即时网络爬虫项目: 内容提取器的定义
- Python爬虫初学(4)登陆武汉理工大学教务处并转到成绩管理
- python之Scrapyd部署爬虫项目(使用虚拟环境)