您的位置:首页 > 编程语言 > Python开发

Python之安装pip&beautiful4&使用beautifulsoup4抓取简单网页

2017-01-18 15:45 1016 查看
前期准备环境

python2.7.3 +centos7

首先是安装pip  然后使用pip安装beautifulsoup4、lxml、和html5lib

在命令行中输入:

wget "https://pypi.python.org/packages/source/p/pip/pip-1.5.4.tar.gz#md5=834b2904f92d46aaa333267fb1c922bb" --no-check-certificate


然后会在当前位置下载pip的tar压缩包

解压:

tar xzvf pip****.tar.gz

cd pip***

python setup.py install  安装pip   会在python的安装目录下的site-package包下安装对应的模块包。

--------------------------------------------------安装没问题的进行下面操作------------------------------------------

安装beautiful4

pip install beautifulsoup4

pip install lxml

pip install htnl5lib

pip安装的文件默认在python的site-package文件夹下。

-------------------------------------分割线,下面写一个简单的爬虫脚本-------------------------------------------------

#!/usr/bin/python

#!-*-coding:utf-8 -*-
import urllib2

import sys

from bs4 import BeautifulSoup

url = "http://baike.baidu.com/item/PIP"
html = ""

request = urllib2.Request(url)
request.add_header("User-Agent","Mozilla/5.0")

response2 = urllib2.urlopen(request)

html = response2.read()

soup = BeautifulSoup(html,"html5lib")

for i in soup.findAll("a"):
print i


代码的作用是打印出页面所有的a标签

beautifulsoup4的用法请自行百度 O(∩_∩)O
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: