Booking网站爬虫,获取酒店评论内容(Python)
2017-12-18 21:41
246 查看
1、爬虫目标
booking旅游网站香港地区酒店的评论内容2、爬虫步骤
(1)gethotelurl.py
从https://www.booking.com/reviews/hk/city/hong-kong.zh-cn.html中爬出香港排名前272家酒店的对应的网页评论地址,存储在hotel_revelant_informs.txt中。(2)booking.py
(注:该代码爬的是英文评论,如若想要中文评论内容,按照注释中的修改90、91行即可)从hotel_revelant_informs.txt中读取相应内容(英文评论落地页、英文文件名、英文评论数),然后爬取对应的评论内容,储存为以‘数字’+‘英文文件名’命名的txt文档中。
(3)merge.py
将爬出来的200多家酒店的英文评论合并成一个total_en.txt文件。(要将中文评论合并成一个只需将相关的en改成zn即可)3、注意事项
gethotelurl.py和booking.py中headers = {‘User-Agent’: ‘换成自己的User—Agent(详见使用说明)’}
User-Agent来源(以Google Chorme浏览器为例):
(1)进入网页,鼠标右键检查
(2)找到User-Agent
注:若第3步没出现,随便点击网站内任意链接即可
4、代码链接
http://download.csdn.net/download/weixin_40638517/10163668相关文章推荐
- Python获取网页指定内容(BeautifulSoup工具的使用方法)
- python通过urllib2获取带有中文参数url内容的方法
- python获取docx文档的内容(文本)
- Python3 获取ajax 返回内容
- python写入并获取剪切板内容的实例
- Python网页抓取:获取页面中某段内容的xpath
- python selenium 获取标签的属性值、内容、状态方法
- python获取状态码200的页面内容
- Python进阶_2.通过URL获取HTMl内容
- 评论抓取:Python爬取微信在APPStore上的评论内容及星级
- Python爬虫实战入门五:获取JS动态内容—爬取今日头条
- assert 用法及获取IP 分类: python基础学习 2013-07-24 16:54 344人阅读 评论(0) 收藏
- Python3获取网页内容
- python 读取文件,获取文件最后一行内容
- python获取完整网页内容(即包括js动态加载的):selenium+phantomjs
- 如何使用python自动登录路由器且获取页面内容
- fileinput模块获取文件的总行数 分类: python 小练习 python Module 2013-12-04 18:19 304人阅读 评论(0) 收藏
- Python 获取 网易云音乐热门评论
- Python PhatomJS 和Selenium动态加载页面 获取图片内容
- Python爬虫,抓取淘宝商品评论内容