爬豆瓣网分析《敦刻尔克》这部电影值得我们花钱去看吗(2)
2017-09-14 15:20
239 查看
改下代码,观察了下,每页有20个评论,那我们就每次让page自增20,一直循环爬下去,先试试效果吧,小伙伴们
好了,执行完毕,果然有个xls文件了,我们打开看看是不是我们需要的
我靠,只有220个评论,那可是好几万评论呢。。。怎么回事
不要怕,你们先打开网页自己看看,你会发现,原来,我没有登录啊,只能查看这么点评论。。。。淡淡的忧伤,看来爬虫真离不开cookie这玩意了,好吧,下一章我们继续走起,怎么把登录搞进去,然后就可以欢畅的爬啊爬
increase = 0 result = [] while 1: page = 0 + increase increase += 20 try: url = 'https://movie.douban.com/subject/'+movie_id+'/comments?start='+str(page)+'&limit=20&sort=new_score&status=P' comment_web = urllib2.Request(url) comment_response = urllib2.urlopen(comment_web) comment_data = comment_response.read() comment_soup = bs(comment_data, 'html.parser') comment_list = comment_soup.find_all('div', class_='comment') for i in range(len(comment_list)): result.append((comment_list[i].find_all('p'))[0].text) except Exception, e: print e break wbk = xlwt.Workbook() sheet = wbk.add_sheet(u'评论集合') sheet.write(0, 0, u'id') sheet.write(0, 1, u'评价') for i in range(len(result)): sheet.write(i+1, 0, i+1) sheet.write(i+1, 1, result[i]) wbk.save('result.xls')
好了,执行完毕,果然有个xls文件了,我们打开看看是不是我们需要的
我靠,只有220个评论,那可是好几万评论呢。。。怎么回事
不要怕,你们先打开网页自己看看,你会发现,原来,我没有登录啊,只能查看这么点评论。。。。淡淡的忧伤,看来爬虫真离不开cookie这玩意了,好吧,下一章我们继续走起,怎么把登录搞进去,然后就可以欢畅的爬啊爬
相关文章推荐
- 爬豆瓣网分析《敦刻尔克》这部电影值得我们花钱去看吗(1)
- sizzle源码分析 (4)sizzle 技术总结及值得我们学习的地方
- 差评近一半,用 Python 分析胡歌的《猎场》到底值不值得看?
- 用YSlow分析我们页面
- SQL Server 存储过程的几种常见写法分析,我们该用那种写法
- 一、update_binary的执行过程分析 上一篇幅中的子进程所执行的程序binary实际上就是update.zip包中的update-binary。我们在上文中也说过,Recover
- 我们应当怎样做需求分析【转】
- 学以致用——微博文章内容统计分析之二——我的电影(Excel+Spotfire)
- 分析:新建短信,当我们接受人RecipientsEditor中输入+86的时候,系统会自动在+86后加入空格
- 我们应当怎样做需求分析:业务流程分析(上)(10)
- 系统分析之一(我们需要系统分析吗?) ---这样理解系统分析
- ios 开发值得我们学习的人
- 分析一天1000万北京地铁客流,我们发现...
- 值得珍藏一生的经典电影台词
- 为什么在人工智能火爆的现在,我们还在做数据分析
- 00003 不思议迷宫.0008:分析了半天我们能干什么?
- 【转】人生最不值得你去做的30件事(是程序员的我们值得一看)
- 一、我们应当怎样做需求分析
- 九、我们应当怎样做需求分析:功能角色分析与用例图
- 我们应当怎样做需求分析