您的位置：首页 > 编程语言 > Python开发

Booking网站爬虫，获取酒店评论内容（Python）

2017-12-18 21:41 246 查看

1、爬虫目标

booking旅游网站香港地区酒店的评论内容

从https://www.booking.com/reviews/hk/city/hong-kong.zh-cn.html中爬出香港排名前272家酒店的对应的网页评论地址，存储在hotel_revelant_informs.txt中。

（注：该代码爬的是英文评论，如若想要中文评论内容，按照注释中的修改90、91行即可）

从hotel_revelant_informs.txt中读取相应内容（英文评论落地页、英文文件名、英文评论数），然后爬取对应的评论内容，储存为以‘数字’+‘英文文件名’命名的txt文档中。

将爬出来的200多家酒店的英文评论合并成一个total_en.txt文件。（要将中文评论合并成一个只需将相关的en改成zn即可）

gethotelurl.py和booking.py中

headers = {‘User-Agent’: ‘换成自己的User—Agent（详见使用说明）’}

User-Agent来源（以Google Chorme浏览器为例）：

（1）进入网页，鼠标右键检查

（2）找到User-Agent

注：若第3步没出现，随便点击网站内任意链接即可

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： python 爬虫

相关文章推荐

新的分享

章节导航