python抓取几大票房统计系统数据的之艺恩电影数据
2017-09-27 14:09
513 查看
# coding=utf-8 import re import urllib2 import chardet class Yiendianyingzhiku_01: dataT = [] def downloadHtml(self,url): response_1 = urllib2.urlopen(url).read() # 解决乱码问题 mychar = chardet.detect(response_1) bianma = mychar['encoding'] print bianma if bianma == 'utf-8' or bianma == 'UTF-8': response = response_1 print 'xx' else: response = response_1.decode('gb2312', 'ignore').encode('utf-8') self.parse(response) def parse(self,response): h2 = re.findall(r"<td style='width.*?'>[^<img].*</td>", response, re.M) for i in h2: objM = re.match(r"<td style='width.*?'>(.*)</td>",i,re.M) if objM: # print objM.group(1) self.dataT.append(objM.group(1)) self.merge() dataY = [] def merge(self): for i in range(len(self.dataT)-1): if i%6 == 0: if i == 0: dataX = [self.dataT[0], self.dataT[1], self.dataT[2], self.dataT[3], self.dataT[4], self.dataT[5]] else: dataX = [self.dataT[0+i], self.dataT[1+i], self.dataT[2+i], self.dataT[3+i], self.dataT[4+i], self.dataT[5+i]] self.dataY.append(dataX) else: pass if __name__ == '__main__': url = 'http://www.cbooo.cn/' yien = Yiendianyingzhiku_01() yien.downloadHtml(url) for i in yien.dataY: print i[0],i[3]
相关文章推荐
- python抓取几大票房统计系统数据的之猫眼电影
- python抓取几大票房统计系统数据的之专资办票房数据库
- python3抓取到的拉勾数据统计
- python:beautifulSoup抓取电影数据且入库
- [置顶] python开发电影查询系统(一)—python实现后台数据
- 转载—Python抓取豆瓣电影
- Python数据抓取——多线程,异步
- 分享:Python使用cookielib和urllib2模拟登陆新浪微博并抓取数据
- PYTHON抓取当当网商品数据
- UPOP数据统计系统中的批量导入数据功能
- python实现爬虫统计学校BBS男女比例之数据处理(三)
- [Python爬虫] 之二十二:Selenium +phantomjs 利用 pyquery抓取界面网站数据
- [Python爬虫] 之二十五:Selenium +phantomjs 利用 pyquery抓取今日头条网数据
- [Python爬虫] 之十六:Selenium +phantomjs 利用 pyquery抓取一点咨询数据
- 通过抓取淘宝评论为例讲解Python爬取ajax动态生成的数据(经典)
- 2018年贺岁档电影票房大数据报告!国产电影的黄金时代已经到来?
- python使用threading.Thread和Queue通过urllib2.urlopen抓取数据
- python抓取动态数据 A股上市公司基本信息
- Python实例之抓取网易云课堂搜索数据(post方式json型数据)并保存到数据库
- Python数据抓取(抓图片)