您的位置：首页 > 理论基础 > 计算机网络

python网络爬虫-正则表达式和BeautifulSoup

2017-09-18 13:15 387 查看

在抓取网页时，BeautifulSoup和正则表达式总是配合使用的。其实，大多数支持字符串参数的函数（比如find(id="aTagIdHere")）都可以用正则表达式实现。让我们看几个例子，待抓取的网页时http://www.pythonscaping.com/pages/pages3.html。在爬取之前，我们观察发现网页上有几个商品图片，它们的源码形式如下：

<img src="../img/gifts/img1.jpg"/> 如果我们想抓取所有图片的URL链接，非常直接的做法就是用findAll("img")抓取所有图片。但是有个问题，除了那些明显“多余的”图片，比如（LOGO）之外，新式网站中有一些隐藏图片，用于网页布局留白和元素对齐的空白图片，以及一些不易于察觉的图片标签。总之，你不能仅用商品图片来统计网页上所有的图片。而且网页的布局也可能会变化，或者，因为某些原因，我们不想通过图片在网页中位置来查找标签。那么当你想抓取随机分布在网站里的某个元素或数据时，就会出现问题。例如，一些网页的最上面可能有一张商品图片，但是在另外一些网页上没有。
解决这类问题的办法，就是直接定位那些标签来查找信息。在本例中，我们直接通过商品图片的文件路径来查找：

from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
html=urlopen("http://www.pythonscraping.com/pages/page3.html")
bsObj=BeautifulSoup(html,"html.parser")
images=bsObj.findAll("img",{"src":re.compile("\.\.\/img\/gifts\/img.*\.jpg")})
for image in images:
print(image["src"])执行结果如下：

上述代码会打印出图片的相对路径，都是以../img/gifts/img开头，以.jpg结尾。正则表达式可以作为BeautifulSoup语句的任意一个参数，让你的目标元素查找工作极具灵活性。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： BeautifulSoup 正则表达式 python 网络爬虫

相关文章推荐

新的分享

章节导航