爬虫学习笔记--爬取静态网页
2017-09-27 13:12
225 查看
声明:我这里是学习 唐松老师的《Python网络爬虫从入门到实践》的学习笔记 只是记录我自己学习的过程 详细内容请购买老师正版图书
import requests
r = requests.get('http://www.santostang.com/')
print ("文本状态码:",r.encoding);
print("响应状态码:",r.status_code);
print("字符串响应体:",r.text);
#print("字节响应体:",r.content);
#print("json解码器:",r.json());
#传递URL参数
import requests
key_dic = {'key1':'value1','key2':'value2'}
r = requests.get('http://httpbin.org/get',params=key_dic)
print("URL 编码",r.url)
print("响应体:\n",r.text)
import requests
r = requests.get('http://www.santostang.com/')
print ("文本状态码:",r.encoding);
print("响应状态码:",r.status_code);
print("字符串响应体:",r.text);
#print("字节响应体:",r.content);
#print("json解码器:",r.json());
#传递URL参数
import requests
key_dic = {'key1':'value1','key2':'value2'}
r = requests.get('http://httpbin.org/get',params=key_dic)
print("URL 编码",r.url)
print("响应体:\n",r.text)
#定制请求头 import requests headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36', 'Host': 'www.santosang.com' } r = requests.get("http://www.santosang.com/", headers = headers) print("响应状态码:",r.status_code)
#发送POST请求 import requests key_dic = {"key1":'value1','key2':'value2'} r = requests.post("http://httpbin.org/post",data=key_dic) print(r.text)
#设置超时 import requests link = "http://www.santostang.com/" r = requests.get(link,timeout=20)
#豆瓣Top250 import requests from bs4 import BeautifulSoup def get_movie(): movie_list = [] headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36', 'Host': 'movie.douban.com' } for i in range(0,10): link = 'https://movie.douban.com/top250?start='+str(i*25) r = requests.get(link,headers=headers,timeout=10) print(str(i+1)+"页的响应状态码",r.status_code) soup = BeautifulSoup(r.text,"lxml") div_list = soup.find_all('div',class_='hd') for each in div_list: movie = each.a.span.text.strip() movie_list.append(movie) return movie_list if __name__ == "__main__": a = get_movie() print(a)
相关文章推荐
- Python3.x 爬虫学习笔记——判断网页的编码方式
- 学习笔记之静态、自适应、流式、响应式四种网页布局区别
- Python爬虫学习笔记二:百度贴吧网页图片抓取
- cURL 学习笔记与总结(2)网页爬虫、天气预报
- Python爬虫学习笔记一:简单网页图片抓取
- node.js 学习笔记003 :使用superagent和cheerio实现简单网页爬虫
- JavaWeb学习笔记——访问静态HTML网页
- 新手学习网页爬虫之携程网旅游线路信息过程笔记
- Python爬虫(入门+进阶)学习笔记 1-8 使用自动化神器Selenium爬取动态网页(案例三:爬取淘宝商品)
- 【Python3.6爬虫学习记录】(二)使用BeautifulSoup爬取简单静态网页文章
- 网络爬虫学习笔记———网页源码下载之get方法
- [置顶] 搭建静态网页-day8-个人学习笔记
- Python爬虫学习笔记-网页topN条目爬取
- 【Python3.6爬虫学习记录】(一)爬取简单的静态网页图片
- C#网页爬虫学习笔记(1)
- [Python]网络爬虫1:抓取网页的含义和URL基本构成 笔记
- python学习笔记(八)协程、爬取网页
- Python学习笔记(五十)爬虫的自我修养(三)爬取漂亮妹纸图
- Java学习笔记---Static、静态关键字、详解
- 网页爬虫笔记——淘宝评论信息