python爬虫小练习之二:bs4库以及遇到的问题
2018-02-22 12:03
253 查看
简单爬取猫途鹰旅游网信息
[]https://www.tripadvisor.cn/Attractions-g60763-Activities-New_York_City_New_York.html]
内容就是这样的,爬取标题,图片地址,以及标签
下面代码
代码也没什么好说的,还没有模拟登陆
结果
不要在意细节,但是发现问题了啊,图片的地址都一样!!!
毫无疑问,网站做了反爬机制了
Ctrl + F 搜索源代码,刚才没找到,………
从图片中可以看到,是有真实地址的,但是,看源码
源码中地址全部被存在script中了,js动态调用,根据ID号或者还有其他
这个用正则应该可以找到,毕竟东西都在源代码里,跑不掉的,但是,我还不会正则
这个练习就到这里吧,浅尝辄止
为的是见识更多不一样的页面,去分析他们,每次学点小技巧就OK
继续努力!
[]https://www.tripadvisor.cn/Attractions-g60763-Activities-New_York_City_New_York.html]
内容就是这样的,爬取标题,图片地址,以及标签
下面代码
from bs4 import BeautifulSoup import requests url = 'https://www.tripadvisor.cn/Attractions-g60763-Activities-New_York_City_New_York.html' wb_data = requests.get(url)#返回response 200 #print(wb_data.text) 网页源代码内容 soup = BeautifulSoup(wb_data.text,'lxml')#解析网页 titles = soup.select('div.listing_title > a')#按照定位查找 6啊,直接div加class就能找到了 images = soup.select('img[width="180"]')#按照标签属性查找,其实这个也是挺好用的 cates = soup.select('div.p13n_reasoning_v2') for title,img,cate in zip(titles,images,cates): data = { 'title':title.get_text(), 'img':img.get('src'), 'cate':list(cate.stripped_strings)#这个要背下! } print(data)
代码也没什么好说的,还没有模拟登陆
结果
不要在意细节,但是发现问题了啊,图片的地址都一样!!!
毫无疑问,网站做了反爬机制了
Ctrl + F 搜索源代码,刚才没找到,………
从图片中可以看到,是有真实地址的,但是,看源码
源码中地址全部被存在script中了,js动态调用,根据ID号或者还有其他
这个用正则应该可以找到,毕竟东西都在源代码里,跑不掉的,但是,我还不会正则
这个练习就到这里吧,浅尝辄止
为的是见识更多不一样的页面,去分析他们,每次学点小技巧就OK
继续努力!
相关文章推荐
- python第一个爬虫小程序以及遇到问题解决(中文乱码)+批量爬取网页并保存至本地
- Python下多线程编程遇到的问题以及解决
- python在设置编码和写csv文件遇到的问题以及解决方案
- 使用python做微博爬虫遇到的问题(1)
- python ——网页爬虫乱码以及转码问题
- bash 脚本工具练习以及遇到的问题。
- 【极客学院】-python学习笔记-3-单线程爬虫 (request安装遇到问题及解决,应用requests提取信息)
- python3.6+beautifulsoup4-4.60的安装以及遇到的问题
- windows下安装python basemap时使用Visual Studio编译geos时遇到的问题以及解决方法
- python爬虫使用Selenium库的过程中遇到的问题
- 记一次编写python爬虫遇到的问题
- 基于python的一个大规模爬虫遇到的一些问题总结
- python爬虫请求网页时遇到问题
- Python 爬虫知识汇总 以及40*问题解决策略
- Python学习爬虫中遇到点问题
- python 处理中文遇到的编码问题总结 以及 字符str的编码如何判断
- Python: 编程遇到的一些问题以及网上解决办法?
- Python爬虫(图片)编写过程中遇到的问题
- 近期面试遇到的问题以及总结(python和openstack)
- Python爬虫练习之二:抓取游民星空搞笑动态图文章链接