您的位置:首页 > 其它

基于scrapy的分布式爬虫(1):环境配置

2018-03-09 15:50 375 查看

概述与环境配置

本节主要内容包括:

简述 “数据用途”

Pycharm的安装

MySQL与Navicat安装

virtualenv和virtualenvwrapper的使用

1. 数据用途



2. Pycharm的安装

Windows 系统

Linux 系统

2.1 Windows 系统步骤

搜索、下载 Pycharm - Professional 版本;

搜索 license server,完成破解。

注:本人在 win10 - 32位 系统下无法启动 Pycharm,原因未知。因此使用 sublime进行替代。

2.2 Linux 系统步骤

下载并解压 Pycharm 压缩包;

终端键入命令:
cd pycharm/bin


执行
./pycharm.sh
的shell文件进行启动。

附:快速启动方法

进入
bin
文件夹;

终端键入命令:
vim ~/.bashrc
,进入
vim 编辑器
,按
shift + g
进入最底端;

编辑
alias pycharm
后的 Pycharm 启动路径;

退出
vim 编辑器
,运行
source
使配置文件生效;

直接运行
pycharm
命令,即可启动 Pycharm。

3. MySQL 与 navicat 的安装

MySQL的安装

Navicat的安装

注: windows 下的操作较为简单,此处仅介绍 Linux 系统。

3.1 MySQL 的安装及配置

终端下键入命令:
sudo apt-get install mysql-server


键入命令:
ps aux|grep mysqld
完成启动;

键入命令:
mysql -uroot -p
设置密码;

键入命令:
show databases;
查看数据库;

键入命令:
exit;
退出数据库。

3.2 Navicat 的安装及使用

搜索 “navicat for windows” 进行下载安装;

点击 “连接”,进行配置;

新建数据库,字符集 选择
utf8--UTF-8 Unicode
排序规则 选择
utf8_general_ci


进行 新建表、查询-新建查询 等数据库操作;

数据传输,可以快速同步多个数据库之间的文件。

4. virtualenv 和 virtualenv wrapper 的安装及使用

virtualenv 的安装及使用

virtualenv wrapper 的安装及使用

注1: 使用 virtualenv 可以将开发环境相互隔离,不互相影响。

注2: virtualenv wrapper 是 virtualenv 的管理工具。

4.1 virtualenv 的安装和使用(针对 windows 系统)

cmd 下键入命令:
pip install virtualenv
(附:卸载方法
pip uninstall virtualenv
);

使用豆瓣源加速下载方法:
pip install -i https://pypi.doubanio.com/simple/  --trusted-host pypi.doubanio.com virtualenv


具体使用可参考博客 pip使用豆瓣的镜像源

键入命令:
virtualenv scrapytest (此为虚拟环境名称,可修改)
,创建虚拟环境;

键入命令:
cd scrapytest
,进入目录;

键入命令:
dir
,查看目录下包含内容;

键入命令:
cd Scripts
,进入启动目录;

键入命令:
activate.bat
,启动虚拟环境;

键入命令:
deactivate.bat
,退出虚拟环境;

可以使用:
virtualenv -p 路径名 (以python.exe结尾) scrapytest (虚拟环境名称)
来创建不同
Python
版本的虚拟环境;

可以使用
pip
来安装依赖库,使用
pip list
查看已安装的库。

4.2 virtualenvwrapper 的安装和使用 (针对 windows 系统)

注: virtualenvwrapper 主要是用来解决 virtualenv 使用时过于繁琐的问题。

cmd 下键入命令:
pip install virtualenvwrapper-win
,安装 virtualenvwrapper;

键入命令:
workon
查看已安装的虚拟环境(仅可查看使用 virtualenvwrapper 创建的虚拟环境 );

键入命令:
mkvirtualenv scrapytest (此为虚拟环境名称,可修改)
,创建虚拟环境;

键入命令:
workon scrapytest
,进入虚拟环境;

键入命令:
deactivate
,退出虚拟环境;

键入命令:
rmvirtualenv scrapytest
,删除虚拟环境。

这里有几点需要大家格外注意:

不建议使用添加环境变量的方式修改
virtualenvwrapper
的默认路径,因为在修改完后会出现多个路径并存的情况,造成安装虚拟环境位置的混乱。

在虚拟环境中使用
pip install scrapy
pip install -i https://pypi.douban.com/simple scrapy
安装库时会出现有的库无法安装的情况(我自己是
twisted
库无法安装)。

解决方法:

进入 windows 下的 Python 依赖库下载网站

按键盘
F3
键,查找缺失库名称,进入后选择对应版本进行下载。



如上图所示,如果是 windows 32 位系统,则选择对应的 python 版本,下载 win32;如果是 windows 64 位系统 ,则选择 win_amd64。

下载完毕后,cmd 下进入该目录,然后键入命令:
workon scarpytest
,进入虚拟环境;

键入命令:
pip install Twisted-17.9.0-cp35-cp35m-win32.whl (此为文件名)
,完成安装;

接下来,重新安装 scrapy 库即可完成。

写到这里,基本上已经完成了前期准备工作,但是为了大家能够方便工作,还是有一个小技巧想要分享给大家—如何在某一位置快速打开 cmd ?

新建一个文本文档(这里的文本文档一定要以 ANSI 编码,常用 notepad 的默认编码方式是 utf-8,需要自行修改);

将如下内容复制进文本文档

Windows Registry Editor Version 5.00

[HKEY_LOCAL_MACHINE\SOFTWARE\Classes\Directory\background\shell\cmd_here]

@="在此处打开命令行"
"Icon"="cmd.exe"

[HKEY_LOCAL_MACHINE\SOFTWARE\Classes\Directory\background\shell\cmd_here\comma
4000
nd]

@="\"C:\\Windows\\System32\\cmd.exe\""

[HKEY_LOCAL_MACHINE\SOFTWARE\Classes\Folder\shell\cmdPrompt]

@="在此处打开命令行"

[HKEY_LOCAL_MACHINE\SOFTWARE\Classes\Folder\shell\cmdPrompt\command]

@="\"C:\\Windows\\System32\\cmd.exe\" \"cd %1\""

[HKEY_LOCAL_MACHINE\SOFTWARE\Classes\Directory\shell\cmd_here]

@="在此处打开命令行"
"Icon"="cmd.exe"

[HKEY_LOCAL_MACHINE\SOFTWARE\Classes\Directory\shell\cmd_here\command]

@="\"C:\\Windows\\System32\\cmd.exe\""


将该文本文档另存为 OpenCMD.reg,然后双击运行;

在需要打开 cmd 的位置,鼠标右键,选择–“在此处打开命令行”,即可。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: