Python 网页爬虫
2015-09-29 08:58
561 查看
解决问题:获取网页上的内容。特别是加载主框架后,再用AJAX获取数据生成内容的网页。
PyQuery:可以像jQuery的py实现。你给他一个PyQuery一个HTML,他给你一个类似jQuery的操作.只能获取普通网页。AJAX的网页就无能为力。
Ghost.py:一个封装Webkit(浏览器核心)的类库。就是模拟浏览器访问网页。
安装类库
pip install PyQuery
pip install PySide
pip install Ghost.py
这样 doc 就可以当作$用了
PyQuery:可以像jQuery的py实现。你给他一个PyQuery一个HTML,他给你一个类似jQuery的操作.只能获取普通网页。AJAX的网页就无能为力。
Ghost.py:一个封装Webkit(浏览器核心)的类库。就是模拟浏览器访问网页。
安装类库
pip install PyQuery
pip install PySide
pip install Ghost.py
from ghost import Ghost from pyquery import PyQuery as pq
g=Ghost() session=g.start() session.open('http://www.163.com' ,wait=None) session.wait_for_page_loaded()
doc=pq(session.content)
这样 doc 就可以当作$用了
相关文章推荐
- 3.3.7 使用difflib.get_close_matches函数
- 关于Python中输出中文的一点疑问
- 用python做了一个 qq炫舞 机器人
- enumerate sorted
- Python学习----进程和线程
- Python磁盘监控、日志分析监控脚本
- numpy教程:矩阵matrix及其运算
- Python中bisect模块用法,及实现方式
- numpy教程 - 矩阵及其运算
- python3.4 + django1.8的环境搭建
- python模拟登录网易邮箱
- Python3+Opencv3的安装
- python实现文件查找
- DDMS
- Python - 缩写(capwords) 和 创建转换表(maketrans) 详细说明
- Python进阶 - HTML获取与解析
- python中logging包的使用小结
- python 批量ping一个网段 返回结果 的程序
- python 操作json
- python模拟浏览器登录人人网,并使用代理IP和发送表单数据