python第一个爬虫小程序以及遇到问题解决(中文乱码)+批量爬取网页并保存至本地
2017-09-20 16:34
916 查看
今天自己看了一下python试着写了一个爬虫小程序
原始代码:
起初在将爬取得网页保存到本地的时候出现错误:
:UnicodeEncodeError: 'gbk' codec can't encode character '\xbb' in position 0: illegal multibyte seque
应该f的编码格式是GBK的,但是其它的是UTF-8的。所以指定一下编码格式即可。
修改后代码:
批量爬取网页并保存至本地
原始代码:
from urllib import request request.encoding = "utf-8" response = request.urlopen("http://www.baidu.com") # 打开网站 html =str(response.read(),'utf-8') f=open('C:/Users/lenovo/Desktop/11.html','w+') page = f.write(html) f.close()
起初在将爬取得网页保存到本地的时候出现错误:
:UnicodeEncodeError: 'gbk' codec can't encode character '\xbb' in position 0: illegal multibyte seque
应该f的编码格式是GBK的,但是其它的是UTF-8的。所以指定一下编码格式即可。
f=open('C:/Users/lenovo/Desktop/11.html','w+',encoding='utf-8')
修改后代码:
from urllib import request request.encoding = "utf-8" response = request.urlopen("http://www.baidu.com") # 打开网站 html =str(response.read(),'utf-8') f=open('C:/Users/lenovo/Desktop/11.html','w+',encoding='utf-8') page = f.write(html) f.close()
批量爬取网页并保存至本地
from urllib import request request.encoding = "utf-8" fr = open("C:/Users/lenovo/Desktop/url.txt", "r").readlines() count = 0 print(fr) for line0 in fr: line = line0.strip('\n') line = line.strip('\'') print(line+"===========================") response = request.urlopen(line) html = str(response.read(), 'utf-8') fw = open("C:/Users/lenovo/Desktop/%d.html" % count, "w", encoding='utf-8') count+=1 page = fw.write(html) fw.close()
相关文章推荐
- python使用requests爬取网页,遇到中文出现遇到中文出现乱码的编码问题及解决乱码的编码问题及解决
- 解决Python网页爬虫之中文乱码问题
- python使用requests爬取网页,遇到中文出现乱码的编码问题及解决
- Java程序中遇到的乱码问题以及解决方法
- 如何解决本地调试没问题,部署上去网页显示中文乱码的问题
- [Django]我的第一个网页,报错啦~(自己实现过程中遇到问题以及解决办法)
- 黄聪:python访问抓取网页常用命令(保存图片到本地、模拟POST、GET、中文编码问题)
- Java程序中遇到的乱码问题以及解决方法
- python ——网页爬虫乱码以及转码问题
- python 解决抓取网页中的中文显示乱码问题
- Unity 中关于中文乱码以及压缩解压遇到的问题解决方法
- python3写爬虫程序时,遇到的问题及解决方法
- python 网页抓取中的中文乱码问题解决
- 使用MySQL保存中文数据时,经常会遇到乱码问题的解决思路
- Python 网络爬虫 006 (编程) 解决下载(或叫:爬取)到的网页乱码问题
- python 爬虫遇到的网页乱码问题
- Android歌词保存到本地及读取所遇到的字符乱码问题及解决
- python开发工具 Wing IDE 简单配置以及中文乱码问题解决
- Python 网络爬虫 006 (编程) 解决下载(或叫:爬取)到的网页乱码问题
- Java程序中遇到的乱码问题以及解决方法