您的位置：首页 > 理论基础 > 计算机网络

Python 网络爬虫与信息获取（二）—— 页面内容提取

2017-07-31 11:21 501 查看

1. 获取超链接

python获取指定网页上所有超链接的方法

links = re.findall(b’”((http|ftp)s?://.*?)”’, html)

links = re.findall(b’href=”(.*?)”’)

html 为 url 返回的 html 内容，可通过以下方式获取

html = urllib.request.urlopen(url).read()

html = requests.get().text

2. 下载指定文件到指定路径

比如我们要爬取

http://courses.cs.vt.edu/~cs2704/fall01/Notes/

链接下的所有 pdf 文件：

#coding: UTF-8
import requests
from urllib import request
import re
import os

url = 'http://courses.cs.vt.edu/~cs2704/fall01/Notes/'
r = requests.get(url)
files = re.findall('href="(.*?)"', r.text)

for file in files[1:]:
request.urlretrieve(os.path.join(url, file), os.path.join('D:/data/', file))

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航