python爬取猫眼top100
2019-05-06 13:20
369 查看
用Xpath和requests爬取猫眼上的top100电影,爬取豆瓣top250也可以用相同的方法
import requests from lxml import etree def url_open(url): header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0'} response = requests.get(url,headers=header) return response def get_data(response): dom = etree.HTML(response.text) for i in dom.xpath('//div[@id="app"]//dl//dd'): #用.来进行二次提取//表示任意,用@来查找需要搜索的属性 print(i.xpath('.//p[@class="name"]//a/@title')[0]) print(i.xpath('.//p[@class="star"]/text()')[0].strip()) print(i.xpath('.//p[@class="releasetime"]/text()')[0]) print("".join(i.xpath('.//p[@class="score"]//i/text()'))) def next_url(url): x = 0 while x != 100: next_url = url + '?offset=' +str(x) get_data(url_open(next_url)) x += 10 if __name__ == '__main__': url = 'https://maoyan.com/board/4' next_url(url)
相关文章推荐
- python3 爬取猫眼榜单top100(requests+beautifulsoup)
- Python 爬取 猫眼 top100 电影例子
- python 爬虫项目-爬取猫眼top100电影
- python实战---猫眼榜单:TOP100榜
- Python爬取猫眼top100排行榜数据【含多线程】
- python爬取猫眼top100时,发现运行结果是两个中括号【 】
- python爬虫之猫眼视频Top100
- 【Python爬虫】爬取猫眼电影TOP100榜
- Re+Selenium新手爬取猫眼Top 100
- python爬虫之猫眼电影Top100榜
- Python爬虫,用于抓取豆瓣电影Top前100的电影的名称
- 使用xpath匹配猫眼top100标题名(萌新简化版)
- Python利用selenium+PhantomJS爬取猫眼电影Top100
- python之爬取猫眼电影TOP100
- python爬虫2:利用Requests和 XPATH爬取猫眼电影TOP100榜单
- Python爬虫-爬取猫眼电影Top100榜单
- 爬取猫眼TOP100
- python 爬虫抓取猫眼电影 top100 源码
- python爬虫爬取猫眼电影top100
- Python学习记录-爬取猫眼电影top100榜单