Python爬虫系列:判断目标网页编码的几种方法
2018-03-07 00:00
369 查看
在爬取网页内容时,了解目标网站所用编码是非常重要的,本文介绍几种常用的方法,并使用几个网站进行简单测试。
代码运行结果:
从不同国家的几个网站测试结果来看,utf8使用的较多(对于纯英文网站,用什么方式解码没有本质区别)。但方法3和4成功率更高一些,不过速度略慢,比较好的方法是组合使用这几个方法,结合异常处理结构,优先使用方法1或2,实在不行再使用后面的方法。
----------相关阅读----------1900页Python系列PPT分享一:基础知识(106页)
1900页Python系列PPT分享二:Python序列(列表、元组、字典、集合)(154页)
1900页Python系列PPT分享三:选择与循环结构语法及案例(96页)
1900页Python系列PPT分享四:字符串与正则表达式(109页)
1900页Python系列PPT分享五:函数设计与应用(134页)
1900页Python系列PPT分享六:面向对象程序设计(86页)1900页Python系列PPT分享七:文件操作(132页)1900页Python系列PPT分享八:异常处理结构与程序调试、测试(70页)
报告PPT(163页):基于Python语言的课程群建设探讨与实践1000道Python题库系列分享一(17道)1000道Python题库系列分享二(48道)1000道Python题库系列分享三(30道)1000道Python题库系列分享四(40道)
BeautifulSoup解析库select方法实例——获取企业信息Python批量爬取微信公众号文章中的图片Python裸奔也疯狂:批量爬取中国工程院院士信息
Python爬虫扩展库scrapy选择器用法入门(一)Python使用Scrapy爬虫框架爬取天涯社区小说“大宗师”全文Python不使用scrapy框架而编写的网页爬虫程序Python爬虫扩展库BeautifulSoup4用法精要
又一个学期结束了,送给在校大学生几句话淡定!不要因为纳入了高考和二级考试甚至极个别小学课程就盲目夸大Python!
全国计算机等级考试二级Python考试大纲预测和分析
大家都在学Python,你和别人的差距在哪?
大学生们颤抖吧,中学生已经开始学Python了!
祝所有程序员1024节日快乐学会提问,你就成功了一大半!
盘点那些让人上火的提问方式(论如何让交流更高效)
----------喜大普奔----------
1、董付国老师Python系列教材:《Python程序设计基础》(2018年2月第6次印刷)
《Python程序设计(第2版)》(2018年2月第5次印刷)《Python可以这样学》(2018年2月第5次印刷)(本书已被引入台湾发行繁体版)
《Python程序设计开发宝典》(2018年2月第3次印刷)《中学生可以这样学Python》《Python程序设计基础(第2版)》(2018年3月隆重上市)董付国老师6本Python系列图书阅读指南
董付国老师6本Python系列教材被北大、复旦等近百所高校选作教材热烈庆祝《Python可以这样学》在台湾发行繁体版
2、董老师120课免费视频地址: https://pan.baidu.com/s/1jJeAs8Q 密码: px59
3、董老师CSDN学院9套“Python可以这样学”收费视频课程汇总地址:https://edu.csdn.net/search?keywords=%E8%91%A3%E4%BB%98%E5%9B%BD&type=0
代码运行结果:
从不同国家的几个网站测试结果来看,utf8使用的较多(对于纯英文网站,用什么方式解码没有本质区别)。但方法3和4成功率更高一些,不过速度略慢,比较好的方法是组合使用这几个方法,结合异常处理结构,优先使用方法1或2,实在不行再使用后面的方法。
----------相关阅读----------1900页Python系列PPT分享一:基础知识(106页)
1900页Python系列PPT分享二:Python序列(列表、元组、字典、集合)(154页)
1900页Python系列PPT分享三:选择与循环结构语法及案例(96页)
1900页Python系列PPT分享四:字符串与正则表达式(109页)
1900页Python系列PPT分享五:函数设计与应用(134页)
1900页Python系列PPT分享六:面向对象程序设计(86页)1900页Python系列PPT分享七:文件操作(132页)1900页Python系列PPT分享八:异常处理结构与程序调试、测试(70页)
报告PPT(163页):基于Python语言的课程群建设探讨与实践1000道Python题库系列分享一(17道)1000道Python题库系列分享二(48道)1000道Python题库系列分享三(30道)1000道Python题库系列分享四(40道)
BeautifulSoup解析库select方法实例——获取企业信息Python批量爬取微信公众号文章中的图片Python裸奔也疯狂:批量爬取中国工程院院士信息
Python爬虫扩展库scrapy选择器用法入门(一)Python使用Scrapy爬虫框架爬取天涯社区小说“大宗师”全文Python不使用scrapy框架而编写的网页爬虫程序Python爬虫扩展库BeautifulSoup4用法精要
又一个学期结束了,送给在校大学生几句话淡定!不要因为纳入了高考和二级考试甚至极个别小学课程就盲目夸大Python!
全国计算机等级考试二级Python考试大纲预测和分析
大家都在学Python,你和别人的差距在哪?
大学生们颤抖吧,中学生已经开始学Python了!
祝所有程序员1024节日快乐学会提问,你就成功了一大半!
盘点那些让人上火的提问方式(论如何让交流更高效)
----------喜大普奔----------
1、董付国老师Python系列教材:《Python程序设计基础》(2018年2月第6次印刷)
《Python程序设计(第2版)》(2018年2月第5次印刷)《Python可以这样学》(2018年2月第5次印刷)(本书已被引入台湾发行繁体版)
《Python程序设计开发宝典》(2018年2月第3次印刷)《中学生可以这样学Python》《Python程序设计基础(第2版)》(2018年3月隆重上市)董付国老师6本Python系列图书阅读指南
董付国老师6本Python系列教材被北大、复旦等近百所高校选作教材热烈庆祝《Python可以这样学》在台湾发行繁体版
2、董老师120课免费视频地址: https://pan.baidu.com/s/1jJeAs8Q 密码: px59
3、董老师CSDN学院9套“Python可以这样学”收费视频课程汇总地址:https://edu.csdn.net/search?keywords=%E8%91%A3%E4%BB%98%E5%9B%BD&type=0
相关文章推荐
- Python判断一个字符串是否包含子串的几种方法
- python判断一个字符串是否为另一字符串的子串的几种方法
- 两种判断(抓取)网页编码的方法【python版】
- 由于设计页面需要,要把两个并排显示的 div 实现一样高的效果, n 行 n 列布局,每列高度(事先并不能确定哪列的高度)相同,每个设计师追求的目标。方法有以下几种: 1 JS 实现(判断 2 个 d
- 判断网页编码的方法python版
- 两种判断(抓取)网页编码的方法【python版】
- Python判断一个字符串是否包含子串的几种方法
- Python--判断一个字符串是否包含某子串的几种方法
- python中判断数字位数的几种方法
- python脚本判断一个数是否为素数的几种方法
- python爬虫插入MySQL数据库前去除重复数据的几种方法
- python 爬虫系列教程方法总结及推荐
- Python网络爬虫封锁限制的几种方法
- python脚本判断一个数是否为素数的几种方法
- Python反爬虫系列方法
- python 2.7 用chardet解决爬虫获取网页编码的识别判断和转换问题
- Python判断一个字符串是否包含子串的几种方法
- Python3爬虫之五网页下载器的几种方法【Python使用cookie模拟登录CSDN】
- SSE图像算法优化系列十六:经典USM锐化中的分支判断语句SSE实现的几种方法尝试。
- Python爬虫简述系列之一