您的位置:首页 > 理论基础 > 计算机网络

Python网络爬虫(1)

2016-06-23 22:28 357 查看
爬虫三步:请求 解析 存储

import requests   #导入requests 库
r=requests.get('http://www.wise.xmu.edu.cn/people/faculty')
html=r.content    #获取网页全部内容
print r.status_code,r.encoding   #返回请求状态 字码形式
from bs4 import BeautifulSoup
#利用bs4进行解析
soup=BeautifulSoup(html,'html.parser')
div_people_list=soup.find('div',attrs={'class':'people_list'})
a_s=div_people_list.find_all('a',attrs={'target':'_blank'})
for a in a_s:
url=a['href']
name=a.get_text()
print name,url
#直接打印出来,就当存储了
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: