Python学习笔记之简单爬虫
2017-07-15 07:56
627 查看
所谓的爬虫就是通过代码的方式,抓取网站上的你想要的任何信息,
比如你在网上看见很多有意思的图片,如果不会爬虫的话,我是不是的一张张另存下来,如果会了爬虫,就能悄无声息 的吧图片下载下来,慢慢欣赏。
现阶段我们利用urllib模块,去做最简单的爬虫,因为比较简单,所以直接看代码就行。主要知识就是通过urllib模块的各个函数加上正则表达式去完成。
比如你在网上看见很多有意思的图片,如果不会爬虫的话,我是不是的一张张另存下来,如果会了爬虫,就能悄无声息 的吧图片下载下来,慢慢欣赏。
现阶段我们利用urllib模块,去做最简单的爬虫,因为比较简单,所以直接看代码就行。主要知识就是通过urllib模块的各个函数加上正则表达式去完成。
#encoding:utf-8 import re import urllib #利用urllib的urlopen()函数打开一个url地址 #并读取所有的html代码, def gethtml(url): content=urllib.urlopen(url) html=content.read() return html #根据正则表达式去匹配符合规则的内容 def geturls(html): r=r'data-src="(http://.*?)"' alllist=re.findall(r,html) return alllist #利用urlretrieve()下载文件 def download(list): x=0 for li in list: x=x+1 urllib.urlretrieve(li,"%s.jpg"%x) if __name__ == '__main__': #内涵段子 url = "http://neihanshequ.com/pic/" #获取网页源码 html = gethtml(url) #根据一定规则过滤出想要的内容 list = geturls(html) #下载图片 download(list) print list
相关文章推荐
- python初学者学习笔记(一)简单的爬虫
- Python的Scrapy爬虫框架简单学习笔记
- Python的学习笔记(五)(简单的爬虫)
- Python开发简单爬虫--学习笔记
- python学习笔记:"爬虫+有道词典"实现一个简单的英译汉程序
- ”Python开发简单爬虫“慕课网课程学习笔记1
- Python爬虫学习笔记一:简单网页图片抓取
- Python学习笔记(四) -- 简单的爬虫
- Python开发简单爬虫学习笔记(1)
- Python简单爬虫开发的学习笔记整理(爬取百度百科词条)
- Python 开发简单爬虫 学习笔记1
- Python的Scrapy爬虫框架简单学习笔记
- ”Python开发简单爬虫“慕课网课程学习笔记1
- Python开发简单爬虫学习笔记(2)
- Python3爬虫学习笔记(5.Selenium简单操作介绍)
- Python爬虫学习笔记(1):简单的图片爬取
- Python3.x学习笔记[1]:2种简单爬虫获取京东价格
- Python学习笔记24:Django搭建简单的博客网站(二)
- Python学习笔记(二)网络编程的简单示例
- Python学习笔记之socket编程——简单聊天器的雏形(client端)