您的位置:首页 > 编程语言 > Python开发

Booking网站爬虫,获取酒店评论内容(Python)

2017-12-18 21:41 246 查看

1、爬虫目标

booking旅游网站香港地区酒店的评论内容



2、爬虫步骤

(1)gethotelurl.py

https://www.booking.com/reviews/hk/city/hong-kong.zh-cn.html中爬出香港排名前272家酒店的对应的网页评论地址,存储在hotel_revelant_informs.txt中。



(2)booking.py

(注:该代码爬的是英文评论,如若想要中文评论内容,按照注释中的修改90、91行即可)

从hotel_revelant_informs.txt中读取相应内容(英文评论落地页、英文文件名、英文评论数),然后爬取对应的评论内容,储存为以‘数字’+‘英文文件名’命名的txt文档中。



(3)merge.py

将爬出来的200多家酒店的英文评论合并成一个total_en.txt文件。(要将中文评论合并成一个只需将相关的en改成zn即可)

3、注意事项

gethotelurl.py和booking.py中

headers = {‘User-Agent’: ‘换成自己的User—Agent(详见使用说明)’}

User-Agent来源(以Google Chorme浏览器为例):

(1)进入网页,鼠标右键检查



(2)找到User-Agent



注:若第3步没出现,随便点击网站内任意链接即可

4、代码链接

http://download.csdn.net/download/weixin_40638517/10163668
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  python 爬虫