您的位置:首页 > 理论基础 > 计算机网络

Python 网络爬虫与信息获取(二)—— 页面内容提取

2017-07-31 11:21 501 查看

1. 获取超链接

python获取指定网页上所有超链接的方法

links = re.findall(b’”((http|ftp)s?://.*?)”’, html)

links = re.findall(b’href=”(.*?)”’)

html 为 url 返回的 html 内容,可通过以下方式获取

html = urllib.request.urlopen(url).read()

html = requests.get().text

2. 下载指定文件到指定路径

比如我们要爬取
http://courses.cs.vt.edu/~cs2704/fall01/Notes/
链接下的所有 pdf 文件:

#coding: UTF-8
import requests
from urllib import request
import re
import os

url = 'http://courses.cs.vt.edu/~cs2704/fall01/Notes/'
r = requests.get(url)
files = re.findall('href="(.*?)"', r.text)

for file in files[1:]:
request.urlretrieve(os.path.join(url, file), os.path.join('D:/data/', file))
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: