Python爬虫学习笔记(一)
2017-04-17 21:26
274 查看
python爬虫学习
因参加2017年软件杯比赛,选择分布式爬虫赛题,为此写下学习笔记。一、网络爬虫
(1)是什么:是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。(2)为什么:为了解决搜索引擎的局限性。
(3)怎么做:通过学习去解决怎么做,正是写下此笔记的缘由。
二、开发环境
操作系统:linux(ubuntu)开发语言:python
编辑器:vim
IDLE(集成开发环境):pycharm(方便快速编写代码)
三、知识体系
(1)python:本人使用的为python2.7进行开发,因2.7和3.0版本的pythhon语法变化很大,只做python2.7作参考学习。(2)网页基本知识:HTML语言知识,网站的发包和收包,JS动态网页知识
(3)分析语言:XPATH和正则表达式(RE)
(4)python爬虫基本思想和原理
(5) Scrapy(爬虫框架)
(6)BloomFilters:去重工具
(7)Redis:存储的数据库
(8)分布式爬虫原理
(9)RQ(Redis Queue)+scrapy
相关文章推荐
- Python3.x学习笔记[1]:2种简单爬虫获取京东价格
- Python爬虫框架Scrapy 学习笔记 1 ----- 环境搭建
- python爬虫学习笔记(一)
- python2.7爬虫学习笔记(一)---Urllib库的使用
- Python学习笔记之网络爬虫
- Python学习笔记(四) -- 简单的爬虫
- 【Python爬虫学习笔记(1)】urllib2库相关知识点总结
- python学习笔记之爬虫之爬取百度贴吧某一帖子
- 【Python爬虫学习笔记(2)】正则表达式(re模块)相关知识点总结
- Python爬虫框架Scrapy 学习笔记 4 ------- 第二个Scrapy项目
- python爬虫框架scrapy学习笔记
- python爬虫框架scrapy学习笔记
- Python爬虫框架Scrapy 学习笔记 8----Spider
- python学习笔记:"爬虫+有道词典"实现一个简单的英译汉程序
- Python爬虫框架Scrapy 学习笔记 9 ----selenium
- Python爬虫框架Scrapy 学习笔记 10.2 -------【实战】 抓取天猫某网店所有宝贝详情
- Python爬虫框架Scrapy 学习笔记 10.3 -------【实战】 抓取天猫某网店所有宝贝详情
- 【python学习笔记】网络爬虫的完整源代码
- python 爬虫学习笔记2
- python3.4学习笔记(十四) 网络爬虫实例代码,抓取新浪爱彩双色球开奖数据实例