您的位置:首页 > 运维架构

爬取豆瓣top500电影:自媒体的福音

2020-06-29 04:46 1311 查看

前几天刷抖音,刷到的赚钱方法是剪辑电影发到某些平台,赚取流量费。在此,为朋友们推荐一些小编常用的电影下载和在线播放网站,比那些播放器要钱的良心很多。

在百度搜索80s电影网,电影天堂,6v电影网,人人影视这些关键词,就可以下载或者看高清的电影,这些网站更新快,质量高,用迅雷下载,通过剪辑软件剪辑,发布到今日头条,抖音,爱奇艺有播放就可以赚钱了。

那小伙伴就要问了,有了片源,不知道发什么电影怎么办?这就是今天要讲的内容。

通过学习,用scrapy框架爬取豆瓣前500部电影,根据推荐度一步一步剪辑,就可以了,先看看爬取字段,电影名字,豆瓣评分,豆瓣链接,豆瓣id,电影导演,电影主角,电影时长,电影类型,电影简介,电影少量热评。

看看爬取结果:

想要提取这份excel的小伙伴,关注公众号,回复:豆瓣,就可以拿到哦

下面看看爬取原理:

爬虫爬取豆瓣

思路:

1.通过专业的分析,在

https://movie.douban.com/j/search_subjects?type=movie&tag=%E8%B1%86%E7%93%A3%E9%AB%98%E5%88%86&sort=recommend&page_limit=500&page_start=0

网址发现了储存电影的JSON文件,通过提取电影名,url,id,等关键信息。

2.通过url进入电影的详细信息。用Xpath提取关键信息,并获得评论链接。

3.获取相关评论。

关键代码

获取jSON文件:

获取关键信息:

存储csv格式:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QYFymXjo-1591938114910)(https://imgkr.cn-bj.ufileos.com/2b4cfe2d-e3b6-4621-a892-6ff884b04963.png)]

存储字段:

本文章为学习使用,勿做商业牟利

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: