您的位置：首页 > 编程语言 > Python开发

使用python如何开始练习爬虫

2015-01-07 13:59 489 查看

1 当然是选择一个可以解析html的包了

这个包，首先推荐的就是lxml，用xpath的方式来解析html

2. 什么HTMLParser, SGMLParser,

就算了吧，很难学，也很难用

3. Beautiful Soup?

这个可以作为一个候选，毕竟beautiful Soup基于lxml开发的

4. PyQuery

这个也很好，类似与jQuery的工具，也是基于lxml的

5. Scrapy

这个也是基于lxml的，使用xpath提取html dom的信息。

综上所述，建议使用lxml和pyquery或者scrapy（毕竟scrapy提供了一揽子爬虫解决方案）

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

青少年如何使用 Python 开始游戏开发
iOS程序员如何使用python写网路爬虫
iOS程序员如何使用Python写网路爬虫
如何开始写你的第一个python脚本——简单爬虫入门！
知乎：你是如何开始能写python爬虫？
python phontomjs爬虫项目如何使用代理IP
如何开始使用PyCharm，并拥有一个高效的Python IDE
青少年如何使用 Python 开始游戏开发
如何使用Python写一个爬虫软件
iOS程序员如何使用Python写网路爬虫
python -- 青少年如何使用 Python 开始游戏开发
Getting Started Spidering a Site使用Chilkat（python）练习的一个爬虫（from :http://www.example-code.com）
如何开始使用PyCharm，并拥有一个高效的Python IDE
原创|如何使用Python爬虫优雅的批量下载妹子图？|Python爬妹子
iOS程序员如何使用python写网路爬虫
[python](爬虫)如何使用正确的姿势欣赏知乎的“长得好看是怎样一种体验呢？”问答中的相片
青少年如何使用 Python 开始游戏开发
如何开始使用XML
【翻译】Python如何使用urllib2获取网络资源
如何开始使用 Microsoft JDBC

新的分享

#新闻拍一拍# 微软推出 Pylance，改善 VS Code 中的 Python 体验
跟我学Python图像处理丨5种图像阈值化处理及算法对比
基于Python设计一个具有基本功能的通讯录
liunx上升级python2至python3
es的查询、排序查询、分页查询、布尔查询、查询结果过滤、高亮查询、聚合函数、python操作es
python常用标准库（时间模块time和datetime）
python之logging日志
python之configparser类的使用
Python常用标准库（pickle序列化和JSON序列化）
MySQL（12） - Python+MySQL读取写入图片
MySQL（11） - Python+MySQL开发新闻管理系统
Python 什么是flask框架？快速入门(flask安装，登录，新手三件套，登录认证装饰器，配置文件，路由系统，CBV)

章节导航