您的位置:首页 > 编程语言 > Python开发

Python爬虫系列:判断目标网页编码的几种方法

2018-03-07 00:00 369 查看
在爬取网页内容时,了解目标网站所用编码是非常重要的,本文介绍几种常用的方法,并使用几个网站进行简单测试。

代码运行结果:

从不同国家的几个网站测试结果来看,utf8使用的较多(对于纯英文网站,用什么方式解码没有本质区别)。但方法3和4成功率更高一些,不过速度略慢,比较好的方法是组合使用这几个方法,结合异常处理结构,优先使用方法1或2,实在不行再使用后面的方法。
----------相关阅读----------1900页Python系列PPT分享一:基础知识(106页)
1900页Python系列PPT分享二:Python序列(列表、元组、字典、集合)(154页)
1900页Python系列PPT分享三:选择与循环结构语法及案例(96页)
1900页Python系列PPT分享四:字符串与正则表达式(109页)
1900页Python系列PPT分享五:函数设计与应用(134页)
1900页Python系列PPT分享六:面向对象程序设计(86页)1900页Python系列PPT分享七:文件操作(132页)1900页Python系列PPT分享八:异常处理结构与程序调试、测试(70页)
报告PPT(163页):基于Python语言的课程群建设探讨与实践1000道Python题库系列分享一(17道)1000道Python题库系列分享二(48道)1000道Python题库系列分享三(30道)1000道Python题库系列分享四(40道)
BeautifulSoup解析库select方法实例——获取企业信息Python批量爬取微信公众号文章中的图片Python裸奔也疯狂:批量爬取中国工程院院士信息
Python爬虫扩展库scrapy选择器用法入门(一)Python使用Scrapy爬虫框架爬取天涯社区小说“大宗师”全文Python不使用scrapy框架而编写的网页爬虫程序Python爬虫扩展库BeautifulSoup4用法精要
又一个学期结束了,送给在校大学生几句话淡定!不要因为纳入了高考和二级考试甚至极个别小学课程就盲目夸大Python!
全国计算机等级考试二级Python考试大纲预测和分析
大家都在学Python,你和别人的差距在哪?
大学生们颤抖吧,中学生已经开始学Python了!
祝所有程序员1024节日快乐学会提问,你就成功了一大半!
盘点那些让人上火的提问方式(论如何让交流更高效)

----------喜大普奔----------
1、董付国老师Python系列教材:《Python程序设计基础》(2018年2月第6次印刷)
《Python程序设计(第2版)》(2018年2月第5次印刷)《Python可以这样学》(2018年2月第5次印刷)(本书已被引入台湾发行繁体版)
《Python程序设计开发宝典》(2018年2月第3次印刷)《中学生可以这样学Python》《Python程序设计基础(第2版)》(2018年3月隆重上市)董付国老师6本Python系列图书阅读指南
董付国老师6本Python系列教材被北大、复旦等近百所高校选作教材热烈庆祝《Python可以这样学》在台湾发行繁体版
2、董老师120课免费视频地址: https://pan.baidu.com/s/1jJeAs8Q 密码: px59
3、董老师CSDN学院9套“Python可以这样学”收费视频课程汇总地址:https://edu.csdn.net/search?keywords=%E8%91%A3%E4%BB%98%E5%9B%BD&type=0
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: