python单线程网络爬虫
2015-06-27 18:32
525 查看
源程序:以http://jp.tingroom.com/yuedu/yd300p/网为例
#-*-coding:utf8-*- import requests import re import sys reload(sys) sys.setdefaultencoding("gb18030") type = sys.getfilesystemencoding() html = requests.get('http://jp.tingroom.com/yuedu/yd300p/') html.encoding = 'utf-8' print html.text.encode("gb18030") title = re.findall('color:#666666;">(.*?)</span>',html.text,re.S) for each in title: print each chinese = re.findall('color: #039;">(.*?)</a>',html.text,re.S) for each in chinese: print each
编程中遇到的问题及解决方案:
问题1:字符编码格式不匹配
D:\Python27\python.exe D:/pycharm/class2/test.pyTraceback (most recent call last):File "D:/pycharm/class2/test.py", line 12, in <module>print html.textUnicodeEncodeError: 'gbk' codec can't encode character u'\xa9' in position 28478: illegal multibyte sequenceProcess finished with exit code 1
解决方案:将输出字文字的编码设为gb18030即可,代码:print html.text.encode("gb18030")
相关文章推荐
- 网络盲写点网络(2015某市海康技术支持笔试)
- android打包准备:混淆第三方jar包(Gson, greenDao,sharesdk,UIL,高德地图, unity,pinyin4j,async http,JPush,EventBus等)
- HTTP协议
- android判断当前网络状态及跳转到设置界面
- 通过NFS启动自制的网络文件系统遇到的问题总结
- [iOS AFNetworking框架实现HTTP请求、多文件图片上传下载]
- 网络编程
- 基于UDP的网络编程
- HttpClient-调用webservice客户端
- 从Jetty、Tomcat和Mina中提炼NIO构架网络服务器的经典模式
- 从Jetty、Tomcat和Mina中提炼NIO构架网络服务器的经典模式
- 【费用流】【网络流24题】【cogs 739】运输问题
- OSPF网络类型详解
- cocos2dx-3.3 网络编程(CURL+PHP) NO.2 登陆功能
- Hadoop2.6集群环境虚拟机中搭建网络配置
- Windows服务器配置与管理-------DHCP服务器搭建与管理
- cocos2dx-3.3 网络编程(CURL+PHP) NO.1 写好PHP代码
- Android HTTPS详解
- Linux入门篇之四:VMware虚拟网络配置
- libcurl:开源的http库学习