Python网络爬虫(1)
2016-06-23 22:28
357 查看
爬虫三步:请求 解析 存储
import requests #导入requests 库
r=requests.get('http://www.wise.xmu.edu.cn/people/faculty')
html=r.content #获取网页全部内容
print r.status_code,r.encoding #返回请求状态 字码形式
from bs4 import BeautifulSoup
#利用bs4进行解析
soup=BeautifulSoup(html,'html.parser')
div_people_list=soup.find('div',attrs={'class':'people_list'})
a_s=div_people_list.find_all('a',attrs={'target':'_blank'})
for a in a_s:
url=a['href']
name=a.get_text()
print name,url
#直接打印出来,就当存储了
import requests #导入requests 库
r=requests.get('http://www.wise.xmu.edu.cn/people/faculty')
html=r.content #获取网页全部内容
print r.status_code,r.encoding #返回请求状态 字码形式
from bs4 import BeautifulSoup
#利用bs4进行解析
soup=BeautifulSoup(html,'html.parser')
div_people_list=soup.find('div',attrs={'class':'people_list'})
a_s=div_people_list.find_all('a',attrs={'target':'_blank'})
for a in a_s:
url=a['href']
name=a.get_text()
print name,url
#直接打印出来,就当存储了
相关文章推荐
- Xml解析网络数据
- Http请求模拟报文返回工具HttpSimulation分享
- HttpServletRequest 和 HttpServletResponse对象
- 思科基础命令大全
- Android Https相关完全解析 当OkHttp遇到Https
- 神经网络Trick之DropConnect
- 子网划分举例
- 在MVC里使用 HttpContext.Response输出内容
- 网络编程socket(服务端简单模拟)(OC)
- 神经网络的Trick之Dropout的理解与实现
- Unable to download data from http://ruby.taobao.org/ & don't have write permissions for the /Library/Ruby/Gems/2.0.0 directory.
- HTTPS的学习与使用
- iOS基础:网络相关
- 无线Mesh网络总结(新)
- HTTP请求方法
- 神经网络和深度学习简史(四):深度学习终迎伟大复兴
- 如何使用mysql(lamp)分离环境搭建dedecms织梦网站及apache服务器常见的403http状态码及其解决方法
- fiddler https抓包失败原因 解决
- 神经网络和深度学习简史(三):强化学习与递归神经网络
- 基于selenium的portal自动化认证