您的位置：首页 > 编程语言 > Python开发

python3 爬虫技术入门

2017-08-08 15:05 197 查看

python3

1. 根据网址获取网页内容

语法：

import urllib.request

page = urllib.request.urlopen(url)

html = page.read()

2. 根据正则表达式筛选网页

reg = r'.*+?\'

imgre = re.compile(reg)

imglist = re.findall(imgre,html)

3. 把筛选的内容保存下来

x = 0

for imgurl in imglist:

urllib.urlretrieve(imgurl,'%s.jpg' % x)

x += 1

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

Python爬虫笔记----爬虫技术入门（1）
Python爬虫（入门+进阶）学习笔记 1-4 使用Xpath解析豆瓣短评
Python爬虫（入门+进阶）学习笔记 1-5 使用pandas保存豆瓣短评数据
Python爬虫PyQuery库基本用法入门教程
python爬虫入门教程(一)：开始爬虫前的准备工作
转 Python爬虫入门二之爬虫基础了解
Python爬虫入门之Urllib库的基本使用 (三)
Python爬虫入门（6）：Cookie的使用
Python爬虫入门实战系列（一）--爬取网络小说并存放至txt文件
Python爬虫入门笔记：urllib库的使用2
Python爬虫入门：URLError异常处理
Python 爬虫入门（二）—— IP代理使用 - 不剃头的一休哥 - 博客园
python爬虫技术实现图片提取
Python爬虫入门七之正则表达式
Python爬虫教程——入门一之综述
Python 爬虫入门3种方法
Python爬虫实战入门六：提高爬虫效率—并发爬取智联招聘
Python爬虫入门四之Urllib库的高级用法
Python爬虫入门五之URLError异常处理
Python3爬虫之入门和正则表达式

新的分享

#新闻拍一拍# 微软推出 Pylance，改善 VS Code 中的 Python 体验
跟我学Python图像处理丨5种图像阈值化处理及算法对比
基于Python设计一个具有基本功能的通讯录
liunx上升级python2至python3
es的查询、排序查询、分页查询、布尔查询、查询结果过滤、高亮查询、聚合函数、python操作es
python常用标准库（时间模块time和datetime）
python之logging日志
python之configparser类的使用
Python常用标准库（pickle序列化和JSON序列化）
MySQL（12） - Python+MySQL读取写入图片
MySQL（11） - Python+MySQL开发新闻管理系统
Python 什么是flask框架？快速入门(flask安装，登录，新手三件套，登录认证装饰器，配置文件，路由系统，CBV)

章节导航