利用Python和Beautiful Soup抓取网页内容
2012-08-09 00:08
405 查看
Python 3中提供了url打开模块urllib.request和HTML的解析模块html.parser模块。但是html.parser模块的功能比较简单,很难满足现今解析网页内容的需求。Beautiful Soup 4是一个功能非常强大的HTML和XML文件解析Python库。而且它提供了非常完善的文档(http://www.crummy.com/software/BeautifulSoup/bs4/doc/)。
Beautiful Soup 4的安装及相关问题
Beautiful Soup的最新版本是4.1.1可以在此获取(http://www.crummy.com/software/BeautifulSoup/bs4/download/)。我使用的是Mac OSX,在这个平台上安装Beautiful Soup,只需解压安装包并运行setup.py文件即可:
安装过程中如果得到SyntaxError “Invalid syntax” on the line ROOT_TAG_NAME = u'[document]',需要将Python 2的代码转化成Python 3:
URL中的中文编码问题
在URL中经常会见到包含中文的情况,如下面这个在去哪儿网上搜索2012-08-09日从北京到丽江的机票的URL:
http://flight.qunar.com/site/oneway_list.htm?searchDepartureAirport=北京&searchArrivalAirport=丽江&searchDepartureTime=2012-08-09
如果直接将这个URL传给urllib.request.urlopen会导致TypeError。解决方法是构造一个参数名和参数值的元组,并利用urllib.parse.urlencode方法对其编码。示例代码如下:
网页内容抓取:下面的示例代码展示了如何抓取百度搜索关键字“网球”时的网页内容。
Beautiful Soup 4的安装及相关问题
Beautiful Soup的最新版本是4.1.1可以在此获取(http://www.crummy.com/software/BeautifulSoup/bs4/download/)。我使用的是Mac OSX,在这个平台上安装Beautiful Soup,只需解压安装包并运行setup.py文件即可:
$ python3 setup.py install
安装过程中如果得到SyntaxError “Invalid syntax” on the line ROOT_TAG_NAME = u'[document]',需要将Python 2的代码转化成Python 3:
$ 2to3-3.2 -w bs4
URL中的中文编码问题
在URL中经常会见到包含中文的情况,如下面这个在去哪儿网上搜索2012-08-09日从北京到丽江的机票的URL:
http://flight.qunar.com/site/oneway_list.htm?searchDepartureAirport=北京&searchArrivalAirport=丽江&searchDepartureTime=2012-08-09
如果直接将这个URL传给urllib.request.urlopen会导致TypeError。解决方法是构造一个参数名和参数值的元组,并利用urllib.parse.urlencode方法对其编码。示例代码如下:
url ='http://flight.qunar.com/site/oneway_list.htm' values ={'searchDepartureAirport':'北京','searchArrivalAirport':'丽江','searchDepartureTime':'2012-07-25'} encoded_param = urllib.parse.urlencode(values) full_url = url +'?'+ encoded_param
网页内容抓取:下面的示例代码展示了如何抓取百度搜索关键字“网球”时的网页内容。
import urllib.parse import urllib.request from bs4 import BeautifulSoup url ='http://www.baidu.com/s' values ={'wd':'网球'} encoded_param = urllib.parse.urlencode(values) full_url = url +'?'+ encoded_param response = urllib.request.urlopen(full_url) soup =BeautifulSoup(response) soup.find_all('a')
相关文章推荐
- 利用Python和Beautiful Soup抓取网页内容
- 利用python抓取网页各种类型内容(静态、动态)
- [Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容
- [Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容
- [Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容
- [Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容
- [Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容
- [Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容
- [Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容
- [Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容
- [Python3.x]网络爬虫(一):利用urllib通过指定的URL抓取网页内容
- [Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容
- [Python]网络爬虫(二):利用urllib通过指定的URL抓取网页内容
- 利用python3的urllib.request抓取网页内容并显示中文
- [Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容
- [Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容
- [Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容
- 利用python3使用urllib通过指定的URL抓取网页内容
- [Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容
- [Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容