Ubuntu下python的BeautifulSoup和rsa安装方法---信息检索project2部分:微博爬取所需python包
2014-10-31 16:27
615 查看
最近因为《信息检索》第二个project,需要爬取微博数据,然后再处理。师兄给了代码,让慢慢爬,但是在ubuntu下,少了很多python软件包。需要安装。
1.首先运行时,说少了python,BeautifulSoup包,用来解析html文件神奇,这么重要的包怎么能缺少呢,百度ubuntu
python BeautifulSoup后,看博客后找到方法:
先安装easy_install工具:
再用easy_install安装:
easy_install BeautifulSoup
若是还没有安装easy_install,在ubuntu下,会自动提示按怎样的命令去安装。
2.继续运行,说是缺少rsa包,想到是师兄在pdf文档里提到用pip安装一些通过pip按张rsa。运行:
安装成功,执行源代码,可行。
3.另外的话,缺少display的话,用来展示验证码的。通过以下命令安装:
若是不能安装display的话,注释掉weibo/crawler/toolkit/accountlib.py第178行变量proc和第182行proc.kill()
但与之相对的,在运行时,需要在文件夹里打开抓取的验证码图片,在终端手动输入验证码。
有一点挺疑惑的是,队友直接没有安装display,直接使用
连验证码都没有输入,直接能够进入爬取部分,而且能够爬取出数据,吓尿。
4.有的时候在抓取文件,但是没有下载,坑爹,没想到这问题,还没解析代码就那么运行着,还以为已经在抓取呢。在自己的笔记本centos6.5下抓取的时候甚是麻烦而且没成功。换了实验室里ubuntu14.04.1LTS版本,改好了一下参数终于在怕去数据了,下一步要分析数据,进行后续任务了。
5.爬取微博的时候,速度可能有些慢,平均下来爬18页/min,要看网速了。不过可以改crawler/config.py参数,
把用户数据降将为一年,但是相应的,在后续分析用户数据时,少了的话,当然也是有一定的影响了。而已经爬取的部分不会再爬取。
转载请认证:http://blog.csdn.net/u010454729/article/details/40656087
1.首先运行时,说少了python,BeautifulSoup包,用来解析html文件神奇,这么重要的包怎么能缺少呢,百度ubuntu
python BeautifulSoup后,看博客后找到方法:
先安装easy_install工具:
再用easy_install安装:
easy_install BeautifulSoup
若是还没有安装easy_install,在ubuntu下,会自动提示按怎样的命令去安装。
2.继续运行,说是缺少rsa包,想到是师兄在pdf文档里提到用pip安装一些通过pip按张rsa。运行:
pip install -r requirements.txt #不行,需要在root权限,换 sudo pip install -r requirements.txt
安装成功,执行源代码,可行。
3.另外的话,缺少display的话,用来展示验证码的。通过以下命令安装:
sudo apt-get install imagemagick
若是不能安装display的话,注释掉weibo/crawler/toolkit/accountlib.py第178行变量proc和第182行proc.kill()
#proc = subprocess.Popen(['display', filename]) #第178行 self.loginpostdata['pcid'] = pcid self.loginpostdata['door'] = raw_input(u'请输入验证码:') os.remove(filename) #proc.kill() #第182行
但与之相对的,在运行时,需要在文件夹里打开抓取的验证码图片,在终端手动输入验证码。
有一点挺疑惑的是,队友直接没有安装display,直接使用
python main.py display
连验证码都没有输入,直接能够进入爬取部分,而且能够爬取出数据,吓尿。
4.有的时候在抓取文件,但是没有下载,坑爹,没想到这问题,还没解析代码就那么运行着,还以为已经在抓取呢。在自己的笔记本centos6.5下抓取的时候甚是麻烦而且没成功。换了实验室里ubuntu14.04.1LTS版本,改好了一下参数终于在怕去数据了,下一步要分析数据,进行后续任务了。
5.爬取微博的时候,速度可能有些慢,平均下来爬18页/min,要看网速了。不过可以改crawler/config.py参数,
begin_time="2012-11-1 00:00:00" end_time="2014-11-1 00:00:00"
把用户数据降将为一年,但是相应的,在后续分析用户数据时,少了的话,当然也是有一定的影响了。而已经爬取的部分不会再爬取。
转载请认证:http://blog.csdn.net/u010454729/article/details/40656087
相关文章推荐
- Ubuntu下一个python的BeautifulSoup和rsa安装方法---信息检索project2部分:微博爬行要求python包裹
- Ubuntu下python的BeautifulSoup和Mechanize安装方法
- 1 ubuntu下编译安装opencv2详细教程以及python调用opencv方法
- [转]ubuntu10.10升级到11.04过程中python2.7升级出错的解决方法(安装wine过程中出错)
- Ubuntu14.04 64位+Python3.4环境下安装Opencv3.0的方法
- Ubuntu系统上Python2和Python3共存时安装BeautifulSoup4
- Ubuntu14.04 64位+Python3.4环境下安装matplotlib的方法
- ubuntu下python安装第三方库(library)的简易方法
- ubuntu下python包(模块)的安装方法
- ubuntu下安装Python多版本的方法及注意事项
- ubuntu下ulipad的安装及无法运行python3程序的解决方法
- ubuntu 16.04下安装Python数据挖掘所需环境
- 64位ubuntu下安装微博客户端的方法
- ubuntu系统下,下载安装Python程序的方法汇总(wget;apt-get;easy_install;pip)
- ubuntu windows 安装opencv的python最简单的方法
- Ubuntu 16.04 LTS中源码安装Python 3.6.0的方法教程
- ubuntu下python2.7 安装 xlrd、xlwt、pip、 第三方库(library)的简易方法、pip 安装 selenium
- Ubuntu安装python-ldap找不到lber.h的解决方法
- ubuntu14.04 server python3 安装matplotlib失败及解决方法
- python学习之--ubuntu下 如何安装第三方库的简要方法