您的位置：首页 > 编程语言 > Python开发

Python爬虫学习笔记（一）

2017-04-17 21:26 274 查看

python爬虫学习

因参加2017年软件杯比赛，选择分布式爬虫赛题，为此写下学习笔记。

一、网络爬虫

（1）是什么：是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。
（2）为什么：为了解决搜索引擎的局限性。
（3）怎么做：通过学习去解决怎么做，正是写下此笔记的缘由。

二、开发环境

操作系统：linux（ubuntu）
开发语言：python
编辑器：vim
IDLE(集成开发环境):pycharm（方便快速编写代码）

三、知识体系

（1）python：本人使用的为python2.7进行开发，因2.7和3.0版本的pythhon语法变化很大，只做python2.7作参考学习。
（2）网页基本知识:HTML语言知识，网站的发包和收包，JS动态网页知识
（3）分析语言：XPATH和正则表达式（RE）
（4）python爬虫基本思想和原理
（5） Scrapy(爬虫框架)
（6）BloomFilters：去重工具
（7）Redis：存储的数据库
（8）分布式爬虫原理
（9）RQ（Redis Queue）+scrapy

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 网络爬虫 python 分布式

相关文章推荐

新的分享

章节导航