您的位置：首页 > 编程语言 > Python开发

Python网络爬虫入门-进阶项目练习题《写出来私我有奖，学习大礼包一份》

2021-01-12 14:08 751 查看

1. urllib 实现京东的页面获取
2. 尝试去对知乎实现首页页面的抓取
3. lagou网的json动态数据提取获取岗位名称公司名称福利待遇薪资
4. 豆瓣的模拟登陆 - requests.session 并且获取首页数据html格式
5. 不是必做: 尝试去采集抖音小视频 (单个)

'''
域名:
https://www.baidu.com/word?input=奥特曼

    http: 超文本传输协议是一种发布和接收HTML页面的方法
    默认端口号:80
    url 统一资源定位符

https: http + ssl(安全套接层) 443

域名: 服务器IP 端口

path => 路径的路径以及参数

GET POST(数据提交 ) HEAD(只能获取报头) delete

豆瓣源:http://pypi.douban.com/simple/
get请求分页 url里面
post 分页 data参数里面

免费代理:https://ip.ihuan.me/

作业: requests 获取百度贴吧的页面保存到本地

作业2: 获取拉钩Python岗位信息: 岗位名称薪资公司名称

'''

下载图片保存到本地 https://www.1000tuku.com/tupiangushi/
备注: 存储图片方式三级文件夹 1. images文件夹 2. 图片故事 3. 系列套图的标题 4. 图片
使用xpath

/html/body/div[4]/ul/li[1]/a/img # 绝对路径
相对路径提取是失败的获取得到了很多我们不想要的数据

在使用相对路径的时候提取到不想要的数据的时候 -> 增加一个父节点

urls = url[:-5] + '_' + str(page) + '.html'
response = requests.get(urls, headers=headers).content.decode('gbk')

学Python的安娴 数据分析 Python 解答小可爱感谢各位大佬们的关注，有问题可私我免费解答，需要学习视频、文档、源码的可以看以下获取方式
哔哩哔哩ID：学Python的安娴
交流扣扣裙组：606115027

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航