python爬虫小项目之计算研究生成绩绩点
2015-10-15 14:47
204 查看
按着这位博主写的博客学习了python爬虫,在进行到第三个小项目爬去我们学校的网址时由于需要验证码登录,开始出现了好多问题,尤其是cookies的处理,没真正理解cookies因此导致两次登录验证码不一致。打算把代码放到github上,记录下出现的几个错误。
encode和decode到底是干什么的?这篇文章讲的感觉比较好。通常从网页上爬下来的字符为unicode对象,计算成绩绩点时要转换成str对象,encode(‘gb2312’)(网页采用gb2312编码,代码开始#-*- coding:utf-8 -*-,到底是该遵循哪个编码规则呢?)用string.atof()转换成float类型。
另外在urlopen的时候最好写try except,这样可以捕获异常方便知道什么原因出错。
爬虫参考写的很详细的一个爬虫经过
encode和decode到底是干什么的?这篇文章讲的感觉比较好。通常从网页上爬下来的字符为unicode对象,计算成绩绩点时要转换成str对象,encode(‘gb2312’)(网页采用gb2312编码,代码开始#-*- coding:utf-8 -*-,到底是该遵循哪个编码规则呢?)用string.atof()转换成float类型。
另外在urlopen的时候最好写try except,这样可以捕获异常方便知道什么原因出错。
爬虫参考写的很详细的一个爬虫经过
相关文章推荐
- python 变量作用域
- Python表达式操作符
- python下MySQL的使用与练习
- Python显示函数调用堆栈
- 使用IPython增强交互式体验
- windows 环境下 ipython %edit 编辑器配置
- 11.Python标准库_多进程探索 (multiprocessing包)
- Python升级(2.4升级到2.7.3)
- python转码时出现'illegal multibyte sequen'错误
- python 装饰器
- 10.Python标准库_多进程初步 (multiprocessing包)
- LeetCode----Single NumberII
- python写文件乱码
- 测试开发Python培训:实现屌丝的图片收藏愿望(小插曲)
- <LeetCode><Easy>223 Rectange Area
- python & excel
- 基于Python正则表达式提取搜索结果中的站点地址
- 命名元组
- Python爬虫正则表达式常用符号和方法
- python -简单的数据库支持