Python之安装pip&beautiful4&使用beautifulsoup4抓取简单网页
2017-01-18 15:45
1016 查看
前期准备环境
python2.7.3 +centos7
首先是安装pip 然后使用pip安装beautifulsoup4、lxml、和html5lib
在命令行中输入:
然后会在当前位置下载pip的tar压缩包
解压:
tar xzvf pip****.tar.gz
cd pip***
python setup.py install 安装pip 会在python的安装目录下的site-package包下安装对应的模块包。
--------------------------------------------------安装没问题的进行下面操作------------------------------------------
安装beautiful4
pip install beautifulsoup4
pip install lxml
pip install htnl5lib
pip安装的文件默认在python的site-package文件夹下。
-------------------------------------分割线,下面写一个简单的爬虫脚本-------------------------------------------------
代码的作用是打印出页面所有的a标签
beautifulsoup4的用法请自行百度 O(∩_∩)O
python2.7.3 +centos7
首先是安装pip 然后使用pip安装beautifulsoup4、lxml、和html5lib
在命令行中输入:
wget "https://pypi.python.org/packages/source/p/pip/pip-1.5.4.tar.gz#md5=834b2904f92d46aaa333267fb1c922bb" --no-check-certificate
然后会在当前位置下载pip的tar压缩包
解压:
tar xzvf pip****.tar.gz
cd pip***
python setup.py install 安装pip 会在python的安装目录下的site-package包下安装对应的模块包。
--------------------------------------------------安装没问题的进行下面操作------------------------------------------
安装beautiful4
pip install beautifulsoup4
pip install lxml
pip install htnl5lib
pip安装的文件默认在python的site-package文件夹下。
-------------------------------------分割线,下面写一个简单的爬虫脚本-------------------------------------------------
#!/usr/bin/python #!-*-coding:utf-8 -*- import urllib2 import sys from bs4 import BeautifulSoup url = "http://baike.baidu.com/item/PIP" html = "" request = urllib2.Request(url) request.add_header("User-Agent","Mozilla/5.0") response2 = urllib2.urlopen(request) html = response2.read() soup = BeautifulSoup(html,"html5lib") for i in soup.findAll("a"): print i
代码的作用是打印出页面所有的a标签
beautifulsoup4的用法请自行百度 O(∩_∩)O
相关文章推荐
- Ubuntu安装MongoDB,并通过pip安装python pymongo驱动、简单使用
- 使用 Python3 抓取网页的简单范例
- 一个简单的使用python抓取网页中的水文数据的程序
- [Python]Pip的安装以及简单的使用
- 使用python写的如何自动提交和抓取网页
- MongoDB Primary---->简要介绍 和 Linux安装MongoDB 并 简单使用
- 使用PHP简单网页抓取和内容分析
- 使用Python中的urlparse、urllib抓取和解析网页(一)
- window下Linux 的安装和简单使用 & WMware Workstation 9.0中Linux(Red Hat) 的安装
- Python简单抓取新浪某网页新闻链接及标题
- 使用python抓取网页(以人人网新鲜事和团购网信息为例)
- 使用python抓取有道词典的网页并返回结果信息
- TPL使用异步编程模型(APM)实现简单网页抓取
- 使用PHP简单网页抓取和内容分析
- 使用Python抓取网页图片[转载]
- 黄聪:使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies(二)
- 使用Python抓取网页信息
- 使用python开发hadoop streaming程序及hadoop python网页抓取例子
- Python抓取网页&批量下载文件方法初探(正则表达式+BeautifulSoup)
- <python>安装与使用