Python第一个程序小爬虫
2015-04-29 20:11
253 查看
最近想上手Python。快速入门一门语言的方法就是写个小Demo。Python Demo必须是爬虫了。第一个小爬虫程序有些简陋,高手勿喷。
关于爬虫主要分为三个部分:根据队列中的URL爬取界面、获取内容、保存结果。
程序是以百度网站大全为种子URL,抓取页面中URL依次放入队列中,爬虫从URL队列依次取得新URL继续向外爬取。
关于爬虫主要分为三个部分:根据队列中的URL爬取界面、获取内容、保存结果。
程序是以百度网站大全为种子URL,抓取页面中URL依次放入队列中,爬虫从URL队列依次取得新URL继续向外爬取。
# -*- coding: utf-8 -*- import urllib2 import re import thread import time class HTML_Spider: def __init__(self): self.url = [] #根据队列中的URL爬取界面 def GetPage(self,url): try: myResponce = urllib2.urlopen(url) myPage = myResponce.read() myUrl = re.findall('href="(.*?)"',myPage,re.S) self.url.extend(myUrl); except: print u'当前URL不合法' myPage = ' ' return myPage #以HTML的形式保存界面 def SavePage(self,page): if page != ' ': #以时间戳的形式为文件命名 f = open(time.strftime(str(time.time()),time.localtime(time.time()))+'.html','w+')#解决pagenama问题,最好采用保存时间命名 f.write(page) f.close() #保持URL队列 def StartSpider(self): i = 1 while 1: if i == 1: url = u'http://site.baidu.com/' else: url = self.url[i] i += 1 print url page = self.GetPage(url) self.SavePage(page) #程序main函数 print u'开始爬取页面:' raw_input(" ") mySpider = HTML_Spider() mySpider.StartSpider()
相关文章推荐
- 我的第一个python爬虫程序
- 我的第一个爬虫程序:利用Python抓取网页上的信息
- 我的第一个小爬虫程序-python
- python:第一个简单爬虫程序
- 我的第一个python爬虫程序(从百度贴吧自动下载图片)
- 使用Python写的第一个网络爬虫程序
- python第一个爬虫小程序以及遇到问题解决(中文乱码)+批量爬取网页并保存至本地
- 第一个Python3.0 爬虫程序, 爬取百度贴吧图片
- 第一个python程序,小爬虫--抓取网页图片
- Python学习札记(二) python3.5安装 + (假装是)第一个Python程序
- Python网络爬虫——我的第一个爬虫(爬取郑州未来一周天气预报)
- 第一个Python程序
- 第一个Python爬虫
- [置顶] Pycharm+Django搭建第一个Python Web程序
- 04 Python正则表达式 爬虫程序 变量的引用,浅拷贝,深拷贝 多线程 进程锁 数据库模块
- 为编写网络爬虫程序安装Python3.5
- 我的第一个Python程序--99乘法口诀
- 编辑第一个Python程序
- 一个简单的爬虫程序(爬取百度百科关于python的一千个页面)
- Python 写的第一个算法程序,果然很强大