基于scrapy的分布式爬虫(1):环境配置
2018-03-09 15:50
375 查看
概述与环境配置
本节主要内容包括:简述 “数据用途”
Pycharm的安装
MySQL与Navicat安装
virtualenv和virtualenvwrapper的使用
1. 数据用途
2. Pycharm的安装
Windows 系统Linux 系统
2.1 Windows 系统步骤
搜索、下载 Pycharm - Professional 版本;搜索 license server,完成破解。
注:本人在 win10 - 32位 系统下无法启动 Pycharm,原因未知。因此使用 sublime进行替代。
2.2 Linux 系统步骤
下载并解压 Pycharm 压缩包;终端键入命令:
cd pycharm/bin;
执行
./pycharm.sh的shell文件进行启动。
附:快速启动方法
进入
bin文件夹;
终端键入命令:
vim ~/.bashrc,进入
vim 编辑器,按
shift + g进入最底端;
编辑
alias pycharm后的 Pycharm 启动路径;
退出
vim 编辑器,运行
source使配置文件生效;
直接运行
pycharm命令,即可启动 Pycharm。
3. MySQL 与 navicat 的安装
MySQL的安装Navicat的安装
注: windows 下的操作较为简单,此处仅介绍 Linux 系统。
3.1 MySQL 的安装及配置
终端下键入命令:sudo apt-get install mysql-server;
键入命令:
ps aux|grep mysqld完成启动;
键入命令:
mysql -uroot -p设置密码;
键入命令:
show databases;查看数据库;
键入命令:
exit;退出数据库。
3.2 Navicat 的安装及使用
搜索 “navicat for windows” 进行下载安装;点击 “连接”,进行配置;
新建数据库,字符集 选择
utf8--UTF-8 Unicode,排序规则 选择
utf8_general_ci;
进行 新建表、查询-新建查询 等数据库操作;
数据传输,可以快速同步多个数据库之间的文件。
4. virtualenv 和 virtualenv wrapper 的安装及使用
virtualenv 的安装及使用virtualenv wrapper 的安装及使用
注1: 使用 virtualenv 可以将开发环境相互隔离,不互相影响。
注2: virtualenv wrapper 是 virtualenv 的管理工具。
4.1 virtualenv 的安装和使用(针对 windows 系统)
cmd 下键入命令:pip install virtualenv(附:卸载方法
pip uninstall virtualenv);
使用豆瓣源加速下载方法:
pip install -i https://pypi.doubanio.com/simple/ --trusted-host pypi.doubanio.com virtualenv;
具体使用可参考博客 pip使用豆瓣的镜像源。
键入命令:
virtualenv scrapytest (此为虚拟环境名称,可修改),创建虚拟环境;
键入命令:
cd scrapytest,进入目录;
键入命令:
dir,查看目录下包含内容;
键入命令:
cd Scripts,进入启动目录;
键入命令:
activate.bat,启动虚拟环境;
键入命令:
deactivate.bat,退出虚拟环境;
可以使用:
virtualenv -p 路径名 (以python.exe结尾) scrapytest (虚拟环境名称)来创建不同
Python版本的虚拟环境;
可以使用
pip来安装依赖库,使用
pip list查看已安装的库。
4.2 virtualenvwrapper 的安装和使用 (针对 windows 系统)
注: virtualenvwrapper 主要是用来解决 virtualenv 使用时过于繁琐的问题。cmd 下键入命令:
pip install virtualenvwrapper-win,安装 virtualenvwrapper;
键入命令:
workon查看已安装的虚拟环境(仅可查看使用 virtualenvwrapper 创建的虚拟环境 );
键入命令:
mkvirtualenv scrapytest (此为虚拟环境名称,可修改),创建虚拟环境;
键入命令:
workon scrapytest,进入虚拟环境;
键入命令:
deactivate,退出虚拟环境;
键入命令:
rmvirtualenv scrapytest,删除虚拟环境。
这里有几点需要大家格外注意:
不建议使用添加环境变量的方式修改
virtualenvwrapper的默认路径,因为在修改完后会出现多个路径并存的情况,造成安装虚拟环境位置的混乱。
在虚拟环境中使用
pip install scrapy或
pip install -i https://pypi.douban.com/simple scrapy安装库时会出现有的库无法安装的情况(我自己是
twisted库无法安装)。
解决方法:
进入 windows 下的 Python 依赖库下载网站。
按键盘
F3键,查找缺失库名称,进入后选择对应版本进行下载。
如上图所示,如果是 windows 32 位系统,则选择对应的 python 版本,下载 win32;如果是 windows 64 位系统 ,则选择 win_amd64。
下载完毕后,cmd 下进入该目录,然后键入命令:
workon scarpytest,进入虚拟环境;
键入命令:
pip install Twisted-17.9.0-cp35-cp35m-win32.whl (此为文件名),完成安装;
接下来,重新安装 scrapy 库即可完成。
写到这里,基本上已经完成了前期准备工作,但是为了大家能够方便工作,还是有一个小技巧想要分享给大家—如何在某一位置快速打开 cmd ?
新建一个文本文档(这里的文本文档一定要以 ANSI 编码,常用 notepad 的默认编码方式是 utf-8,需要自行修改);
将如下内容复制进文本文档
Windows Registry Editor Version 5.00 [HKEY_LOCAL_MACHINE\SOFTWARE\Classes\Directory\background\shell\cmd_here] @="在此处打开命令行" "Icon"="cmd.exe" [HKEY_LOCAL_MACHINE\SOFTWARE\Classes\Directory\background\shell\cmd_here\comma 4000 nd] @="\"C:\\Windows\\System32\\cmd.exe\"" [HKEY_LOCAL_MACHINE\SOFTWARE\Classes\Folder\shell\cmdPrompt] @="在此处打开命令行" [HKEY_LOCAL_MACHINE\SOFTWARE\Classes\Folder\shell\cmdPrompt\command] @="\"C:\\Windows\\System32\\cmd.exe\" \"cd %1\"" [HKEY_LOCAL_MACHINE\SOFTWARE\Classes\Directory\shell\cmd_here] @="在此处打开命令行" "Icon"="cmd.exe" [HKEY_LOCAL_MACHINE\SOFTWARE\Classes\Directory\shell\cmd_here\command] @="\"C:\\Windows\\System32\\cmd.exe\""
将该文本文档另存为 OpenCMD.reg,然后双击运行;
在需要打开 cmd 的位置,鼠标右键,选择–“在此处打开命令行”,即可。
相关文章推荐
- 基于scrapy和redis的分布式爬虫环境搭建
- 基于scrapy的分布式爬虫(2):sublime下配置virtualenv
- Python配置爬虫环境Scrapy
- 基于scrapy的分布式爬虫抓取新浪微博个人信息和微博内容存入MySQL
- 基于scrapy的分布式爬虫(4):python 中的编码问题
- 基于Scrapy分布式爬虫的开发与设计
- 【实战\聚焦Python分布式爬虫必学框架Scrapy 打造搜索引擎项目笔记】第2章 windows下搭建开发环境
- 实战:使用Docker配置ubuntu下的scrapy爬虫环境
- 基于scrapy的分布式爬虫抓取新浪微博个人信息和微博内容存入MySQL
- python3+Scrapy环境配置外送两个小爬虫
- 基于Scrapy分布式爬虫的开发与设计
- 基于Python,scrapy,redis的分布式爬虫实现框架
- python+Scrapy爬虫编程环境配置的资料整理
- 基于Python,scrapy,redis的分布式爬虫实现框架
- Python爬虫框架Scrapy学习二记——Scrapy开发环境配置
- Wiki——Windows下python2.7 爬虫框架Scrapy环境配置
- 基于Python+scrapy+redis的分布式爬虫实现框架
- 基于scrapy的分布式爬虫(3):正则表达式
- (5)分布式下的爬虫Scrapy应该如何做-windows下的redis的安装与配置