您的位置:首页 > 理论基础 > 计算机网络

ubuntu下,django结合网络爬虫环境的搭建

2016-06-08 13:44 471 查看
后台环境搭建总结
一、安装scrapy
1.安装scrapy,在这个网站下载https://pypi.python.org/pypi/Scrapy/0.16.0(安装0.16版本,python不支持高版本)
2.下载的Scrapy-0.16.0.tar.gz还是一个压缩包,因此要解压,单击右键”提取到此处”,可直接将其解压提取到此处。
3.cd到Scrapy-0.16.0,再运行下面这句话:sudopython
setup.py install来进行安装(Ctrl+Alt+T,在终端中运行,下面的命令都
在终端中运行)。

二、安装Django.1.5.5ubuntu没有自带django)
1.下载Django.1.5.5还是在https://pypi.python.org/pypi/Scrapy/0.16.0网站中找到Django.1.5.5进行下载
2.对Django.1.5.5进行如上的解压,然后cd到此文件夹,运行下面这句话进行安装:sudopython
setup.py install
3.安装pip:sudoapt-get
install python-pip
4.安装DDS:sudopip
install django-dynamic-scraper (默认安装的是django-dynamic-scraper-0.3.5)
5.安装diango-celery:
sudo pip install django-celery (它自动安装的是celery-3.1.5)
(参考网站http://my.oschina.net/rc6688/blog/175508,是一中文安装文档)
Python中文分词组件jieba,下载解压安装sudopython
setup.py install
http://www.oschina.net/p/jieba

.安装south0.8.4
1.下载South-0.8(下载步骤如上)
2.安装,步骤如上,然后在终端运行sudopython
setup.py install命令进行安装

安装总结:运行sudopython
setup.py install是安装命令
pip安装的卸载sudopip
uninstall
easy_install安装的卸载sudoeasy_install
-m

四、在软件中心下载mysql(client\server\emma)python-jswebkitpython-webkit这三个软件。
安装mysql
打开"终端窗口",输入"sudoapt-get
install mysql-servermysql-client"-->回车-->输入"y"-->回车-->在"软件包设置对话框"中输入mysql中"root"用户的密码-->回车-->再输一次密码-->回车,安装完成。
配置MySQL

注意,在Ubuntu下MySQL缺省是只允许本地访问的,如果你要其他机器也能够访问的话,那么需要改变/etc/mysql/my.cnf配置文件了!
下面我们一步步地来:

默认的MySQL安装之后根用户是没有密码的,所以首先用根用户进入:

$mysql-u root

在这里之所以用-uroot是因为我现在是一般用户(firehare),如果不加-uroot的话,mysql会以为是firehare在登录。注意,我在这里没有
进入根用户模式,因为没必要。一般来说,对mysql中的数据库进行操作,根本没必要进入根用户模式,只有在设置时才有这种可
能。

进入mysql之后,最要紧的就是要设置Mysql中的root用户密码了,否则,Mysql服务无安全可言了。

mysql>GRANT ALL PRIVILEGES ON *.* TO root@localhost IDENTIFIED BY"123456";

注意,我这儿用的是123456做为root用户的密码,但是该密码是不安全的,请大家最好使用大小写字母与数字混合的密码,且不少于
8位。这样的话,就设置好了MySQL中的root用户密码了,然后就用root用户建立你所需要的数据库。

五、匹配数据库:(在setting中找到数据库的定义程序,在数据库中创建一个database)
pythonmanage.py syncdb
./manage.pymigrate (sudo python manage.py migrate )
运行DDS时,syncdb的用户名应该与settings里面的一致
运行dds的命令:scrapycrawl
article_spider -a id=1 -a do_action=yes

六、导出dds界面的网页,命令如下:
cd dds/example_project/
pythonmanage.py runserver
绑定本机ip并指定端口号,例如:pythonmanage.py
runserver 172.22.112.70:8000

七、安装过程中可能遇到的问题及解决办法
1. 数据库解决中文支持问题
更改mysql自身配置以支持中文:
(1)在终端输入命令sudogedit
/etc/mysql/my.cnf在打开的文件中
在[client]段下添加:
default-character-set= utf8
在[mysqld_safe]段下添加:
default-character-set= utf8
在[mysqld]段下添加:
character_set_server= utf8
init_connect= 'SET NAMES utf8'
在[mysql]段下添加:
default-character-set= utf8

(2)(为了安全起见这一步最好执行)在终端输入命令mysql-u root -p,提示你输入密码:你的root用户的密码
进入到mysql输入命令setnames
utf8//这里只可以是utf8不可以是utf-8,因为linux下的mysql不认识utf-8。

(3)重启mysql命令以便让你上面的修改生效sudo/etc/init.d/mysql
restart

(4)检查mysql字符集

命令一:showvariables
like 'character%';出现

+--------------------------+----------------------------+

|Variable_name | Value|

+--------------------------+----------------------------+

|character_set_client | utf8 |

| character_set_connection | utf8|

| character_set_database | utf8 |

| character_set_filesystem| binary |

| character_set_results | utf8 |

|character_set_server | utf8 |

| character_set_system | utf8 |

|character_sets_dir | /usr/share/mysql/charsets/|

+--------------------------+----------------------------+

2.解决上外网问题
1.首先连接内网打开终端输入:sudoapt-get
update 更新软件源
2.然后在输入:sudoapt-get
install build-essential 安装库文件。
3.build-essential安装完成有cd命令跳转到openkeeper-cli-1.1所在目录
4.输入:sudotar
-xvf openkeeper-cli-1.1.tar.gz 解压生成openkeeper-cli-1.1文件
5.cdopenkeeper-cli-1.1
6.ls显示openkeeper-cli-1.1内容
7.cd32(如果系统是64位,跳到64文件中)
8.再输入:sudosh
./install.sh 进行安装
9.安装完成:sudook-config设置上网帐号,密码和网卡(网卡是eth0至于为什么是,我也不清出)。10.配置完成:sudook进行拨
号上网。
11.sudookok掉线自动重播。

3.创建数据库
进入数据库:mysql-uroot
-p
创建数据库:mysql>createdatabase
xxx;
展示创建的数据库:mysql>showdatabases;
创建表:mysql>createtable;
展示创建的表:mysql>showtables;
查找表中的内容:mysql>select*
from xxx;

4.数据库改密码
#/etc/init.d/mysql stop
#mysqld_safe --user=mysql --skip-grant-tables --skip-networking
& (提示没有权限时在前面加sudo)
#mysql -u root mysql
mysql>UPDATE user SET Password=PASSWORD('newpassword') where USER='root';
mysql>FLUSH PRIVILEGES;
mysql>quit
#/etc/init.d/mysql restart
#mysql -uroot -p
Enterpassword: <输入新设的密码newpassword>
mysql>

5.Scrapy依赖库的安装遇到的问题
ubuntu12.04下scrapy依赖库的安装,sudo
apt-get install python-scrapy

问题:ImportError:No module named w3lib.http
解决办法:pipinstall
w3lib

问题:ImportError:No module named twisted

解决办法:pipinstall twisted

问题:ImportError:No module named lxml.html

解决办法:pipinstall lxml

问题:error:libxml/xmlversion.h: No such file or directory

解决办法:apt-getinstall libxml2-dev libxslt-dev

apt-get install python-lxml

问题:ImportError:No module named cssselect
解决办法:pipinstall cssselect

问题:ImportError:No module named OpenSSL

解决办法:pipinstall pyOpenSSL 

问题:ImportError:No
module named queuelib
解决办法:在https://pypi.python.org/pypi/queuelib#downloads网站,下载并安装sudo
python setup.py install
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息