python模拟翻页+提取相关信息
2016-08-24 16:33
423 查看
代码不全
# coding=utf-8 import urllib,urllib2 import re class QSBK: #初始化函数 def _init_(self): self.pageIndex = 1 self.user_agent = '' self.headers = {'User-Agent':self.user_agent self.stories = [] #获取网页代码 def getpage(self,pageIndex): try: url='http://www.qiushibaike.com/hot/page/'+str(pageIndex) request = urllib2.Request(url,headers=self.headers) respons = urllib2.urlopen(request) return respons.read() except Exception,e: print e def getpageItems(self,pageIndex): pagecode = self.getpage(pageIndex) if not pagecode: print '页面加载失败' return None pattern = re.compile(,re.S) items = re.findall(pattern, pagecode) pageStories = [] for item in items: pageStories.append(item[0],item[1],item[2],item[3]) print '作者:',item[0] print '内容:',item[1] print '阅读:',item[2] print '评论:',item[3] return pageStories def loadpage(self): if spider = QSBK() spider.getpage(1)
相关文章推荐
- python---pexpect的pxssh进行模拟ssh登陆返回相关命令信息
- 菜鸟练习C#htmlparser----C#正则加htmlDOM进行网页解析腾讯新闻帖子列表相关信息提取
- Dev系列控件之XtraChart高级应用(模拟flash鼠标移动,点击实现相关信息提示)
- python-按日志提取文件并创建相关目录
- python——博客园首页信息提取与分析
- python——博客园首页信息提取与分析
- 收集整理的Python 相关的书籍信息
- python+lxml+xpath提取nature网站中的article基本信息【初级版】
- python word 2003:如何获得Selection对象(Range对象)的相关信息?
- 硬件信息、键盘模拟及钩子、鼠标模拟及钩子等设备相关
- 在EXCEL中提取身份证号码里的出生年月日、性别等,相关信息
- 菜鸟练习C#htmlparser----C#正则加htmlDOM进行网页解析腾讯新闻帖子列表相关信息提取
- lmth1 一个用Python编写的便捷网页信息提取工具 - _Luc_ - 博客园
- lmth1 一个用Python编写的便捷网页信息提取工具
- lmth1 一个用Python编写的便捷网页信息提取工具 - _Luc_ - 博客园
- python解析51cto博客用户的相关信息
- 厚积薄发,丰富的公用类库积累,助你高效进行系统开发(7)-----声音播放、硬件信息、键盘模拟及钩子、鼠标模拟及钩子等设备相关
- Python模拟Web Fetion给好友发送信息(数据库编程模块)
- python实现手机号归属地相关信息查询
- 手把手教你使用python写提取快捷酒店房间信息的采集程序