学习笔记-python抓取网页数据
2014-11-16 17:12
375 查看
作为刚接触python不久的新手,要想独立写出爬虫真不是件简单的事情。首先要学会各种包的管理,还要懂得最基本的抓取网页数据技术。下面是我学习时记录的一些东西。
一、了解与网站建立链接时要用到的包
与网站进行交互,要熟悉python下和网页相关的urllib,或者urllib2,或者httplib包。这三个是python提供的和网页交互的基本module,还有其他的一些,比如:mechanize
scrappy。
二、解析网页
上网搜索了一些网页,知道了一些基本方法。
(1) 正则表达式。正则表达式很有用,熟悉它节省很多的时间,有时候清洗数据不用写脚本或者在数据库上查询,直接在notepad++上用正则表达式组合使用就行了。
学习正则表达式链接:http://deerchao.net/tutorials/regex/regex.htm
(2) BeautifulSoup模块。BeautifulSoup是一个很强大的模块,能把html文件解析成一个对象,这个对象是一棵树。html文件是树状的,比如 body -> table -> tbody -> tr,对于
tbody这个节点,有很多个tr的子节点。BeautifulSoup可以很方便的取到特定的节点,对单个节点也可以取它的sibling node。
三、抓取数据
可以将抓取来的数据放在一个txt文件里,这个是最基本的方法。当然,也可以不写入txt文件中,而是直接连接数据库,python中的MySQLdb模块可以实现和MySQL数据库的交
互,把数据直接放在数据库里面,与MySQL数据库建立链接的逻辑和与网站服务器建立链接的逻辑差不多。如果之前有学习过数据库,学习用MySQLdb模块实现和数据库的交互是
很简单的;如果没有,则要借助在coursera\stanford openEdX平台上都有开设的Introduction to Database来系统学习,w3school用来参考或者当成手册。
以上是我在学习时的一些小笔记,也有一部分是借鉴的他人的想法。具体的代码还有待完善,下一篇学习笔记里会再更新。
一、了解与网站建立链接时要用到的包
与网站进行交互,要熟悉python下和网页相关的urllib,或者urllib2,或者httplib包。这三个是python提供的和网页交互的基本module,还有其他的一些,比如:mechanize
scrappy。
二、解析网页
上网搜索了一些网页,知道了一些基本方法。
(1) 正则表达式。正则表达式很有用,熟悉它节省很多的时间,有时候清洗数据不用写脚本或者在数据库上查询,直接在notepad++上用正则表达式组合使用就行了。
学习正则表达式链接:http://deerchao.net/tutorials/regex/regex.htm
(2) BeautifulSoup模块。BeautifulSoup是一个很强大的模块,能把html文件解析成一个对象,这个对象是一棵树。html文件是树状的,比如 body -> table -> tbody -> tr,对于
tbody这个节点,有很多个tr的子节点。BeautifulSoup可以很方便的取到特定的节点,对单个节点也可以取它的sibling node。
三、抓取数据
可以将抓取来的数据放在一个txt文件里,这个是最基本的方法。当然,也可以不写入txt文件中,而是直接连接数据库,python中的MySQLdb模块可以实现和MySQL数据库的交
互,把数据直接放在数据库里面,与MySQL数据库建立链接的逻辑和与网站服务器建立链接的逻辑差不多。如果之前有学习过数据库,学习用MySQLdb模块实现和数据库的交互是
很简单的;如果没有,则要借助在coursera\stanford openEdX平台上都有开设的Introduction to Database来系统学习,w3school用来参考或者当成手册。
以上是我在学习时的一些小笔记,也有一部分是借鉴的他人的想法。具体的代码还有待完善,下一篇学习笔记里会再更新。
相关文章推荐
- Python抓取离线网页信息_学习笔记_1
- Python学习笔记-简易抓取网页-1
- python3.4学习笔记(十四) 网络爬虫实例代码,抓取新浪爱彩双色球开奖数据实例
- Python爬虫学习笔记二:百度贴吧网页图片抓取
- Scrap学习笔记 --- python实现抓取整个网页
- DC学院数据分析师(入门)学习笔记----基于网页抓取天气数据demo以及基于网页抓取《摔跤吧!爸爸》豆瓣评分
- 小猪的Python学习之旅 —— 5.使用Selenium抓取JavaScript动态生成数据的网页
- Python学习笔记-简易抓取网页-2
- 【python学习笔记】用正则表达式从含中文的网页中提取数据(含编码转换)
- python学习笔记-抓取网页图片脚本
- Python爬虫学习笔记一:简单网页图片抓取
- Python下的机器学习工具scikit-learn(学习笔记3--数据预处理)
- Python学习笔记(1)--数据结构
- 用Python做网页抓取与解析入门笔记
- Python简明教程学习笔记4--数据结构
- python学习笔记(二)——数据类型
- 用python做网页抓取与解析入门笔记
- (转)如何用python抓取网页并提取数据
- python 学习笔记(3)数据类型2 (元组(tuple),集合,字典)
- 韩顺平_轻松搞定网页设计(html+css+javascript)_第20讲_js基本数据类型_js运算符1_学习笔记_源代码图解_PPT文档整理