使用python如何开始练习爬虫
2015-01-07 13:59
489 查看
1 当然是选择一个可以解析html的包了
这个包,首先推荐的就是lxml, 用xpath的方式来解析html
2. 什么HTMLParser, SGMLParser,
就算了吧,很难学,也很难用
3. Beautiful Soup?
这个可以作为一个候选,毕竟beautiful Soup基于lxml开发的
4. PyQuery
这个也很好,类似与jQuery的工具,也是基于lxml的
5. Scrapy
这个也是基于lxml的,使用xpath提取html dom的信息。
综上所述, 建议使用lxml和pyquery或者scrapy(毕竟scrapy提供了一揽子爬虫解决方案)
这个包,首先推荐的就是lxml, 用xpath的方式来解析html
2. 什么HTMLParser, SGMLParser,
就算了吧,很难学,也很难用
3. Beautiful Soup?
这个可以作为一个候选,毕竟beautiful Soup基于lxml开发的
4. PyQuery
这个也很好,类似与jQuery的工具,也是基于lxml的
5. Scrapy
这个也是基于lxml的,使用xpath提取html dom的信息。
综上所述, 建议使用lxml和pyquery或者scrapy(毕竟scrapy提供了一揽子爬虫解决方案)
相关文章推荐
- 青少年如何使用 Python 开始游戏开发
- iOS程序员如何使用python写网路爬虫
- iOS程序员如何使用Python写网路爬虫
- 如何开始写你的第一个python脚本——简单爬虫入门!
- 知乎:你是如何开始能写python爬虫?
- python phontomjs爬虫项目 如何使用代理IP
- 如何开始使用PyCharm,并拥有一个高效的Python IDE
- 青少年如何使用 Python 开始游戏开发
- 如何使用Python写一个爬虫软件
- iOS程序员如何使用Python写网路爬虫
- python -- 青少年如何使用 Python 开始游戏开发
- Getting Started Spidering a Site使用Chilkat(python)练习的一个爬虫(from :http://www.example-code.com)
- 如何开始使用PyCharm,并拥有一个高效的Python IDE
- 原创|如何使用Python爬虫优雅的批量下载妹子图?|Python爬妹子
- iOS程序员如何使用python写网路爬虫
- [python](爬虫)如何使用正确的姿势欣赏知乎的“长得好看是怎样一种体验呢?”问答中的相片
- 青少年如何使用 Python 开始游戏开发
- 如何开始使用XML
- 【翻译】Python如何使用urllib2获取网络资源
- 如何开始使用 Microsoft JDBC