您的位置：首页 > 理论基础 > 计算机网络

Python网络爬虫（1）

2016-06-23 22:28 357 查看

爬虫三步：请求解析存储

import requests #导入requests 库
r=requests.get('http://www.wise.xmu.edu.cn/people/faculty')
html=r.content #获取网页全部内容
print r.status_code,r.encoding #返回请求状态字码形式
from bs4 import BeautifulSoup
#利用bs4进行解析
soup=BeautifulSoup(html,'html.parser')
div_people_list=soup.find('div',attrs={'class':'people_list'})
a_s=div_people_list.find_all('a',attrs={'target':'_blank'})
for a in a_s:
url=a['href']
name=a.get_text()
print name,url
#直接打印出来，就当存储了

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

Xml解析网络数据
Http请求模拟报文返回工具HttpSimulation分享
HttpServletRequest 和 HttpServletResponse对象
思科基础命令大全
Android Https相关完全解析当OkHttp遇到Https
神经网络Trick之DropConnect
子网划分举例
在MVC里使用 HttpContext.Response输出内容
网络编程socket(服务端简单模拟)(OC)
神经网络的Trick之Dropout的理解与实现
Unable to download data from http://ruby.taobao.org/ & don't have write permissions for the /Library/Ruby/Gems/2.0.0 directory.
HTTPS的学习与使用
iOS基础：网络相关
无线Mesh网络总结（新）
HTTP请求方法
神经网络和深度学习简史（四）：深度学习终迎伟大复兴
如何使用mysql(lamp)分离环境搭建dedecms织梦网站及apache服务器常见的403http状态码及其解决方法
fiddler https抓包失败原因解决
神经网络和深度学习简史（三）：强化学习与递归神经网络
基于selenium的portal自动化认证

新的分享

【Java面试】TCP协议为什么要设计三次握手？
深度学习与CV教程(11) | 循环神经网络及视觉应用
又一起 BGP 劫持事件，影响全球 200 多家云服务和 CDN 提供商
深度学习与CV教程(7) | 神经网络训练技巧 (下)
网络协议之:haproxy的Proxy Protocol代理协议
Nginx实现https、重定向https
NLP教程(9) - 句法分析与树形递归神经网络
艾瑞咨询：2020年中国疫情时期网络长视频内容价值回顾及探索
每天一个 HTTP 状态码 206
每天一个 HTTP 状态码 205
每天一个 HTTP 状态码 204
每天一个 HTTP 状态码 203

章节导航