您的位置：首页 > 编程语言 > Python开发

Python 网页爬虫

2015-09-29 08:58 561 查看

解决问题：获取网页上的内容。特别是加载主框架后，再用AJAX获取数据生成内容的网页。

PyQuery：可以像jQuery的py实现。你给他一个PyQuery一个HTML，他给你一个类似jQuery的操作.只能获取普通网页。AJAX的网页就无能为力。

Ghost.py:一个封装Webkit（浏览器核心）的类库。就是模拟浏览器访问网页。

安装类库

pip install PyQuery

pip install PySide

pip install Ghost.py

from ghost import Ghost
from pyquery import PyQuery as pq

g=Ghost()
session=g.start()
session.open('http://www.163.com' ,wait=None)
session.wait_for_page_loaded()

doc=pq(session.content)

这样 doc 就可以当作$用了

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

3.3.7 使用difflib.get_close_matches函数
关于Python中输出中文的一点疑问
用python做了一个 qq炫舞机器人
enumerate sorted
Python学习----进程和线程
Python磁盘监控、日志分析监控脚本
numpy教程：矩阵matrix及其运算
Python中bisect模块用法，及实现方式
numpy教程 - 矩阵及其运算
python3.4 + django1.8的环境搭建
python模拟登录网易邮箱
Python3+Opencv3的安装
python实现文件查找
DDMS
Python - 缩写(capwords) 和创建转换表(maketrans) 详细说明
Python进阶 - HTML获取与解析
python中logging包的使用小结
python 批量ping一个网段返回结果的程序
python 操作json
python模拟浏览器登录人人网，并使用代理IP和发送表单数据

新的分享

#新闻拍一拍# 微软推出 Pylance，改善 VS Code 中的 Python 体验
跟我学Python图像处理丨5种图像阈值化处理及算法对比
基于Python设计一个具有基本功能的通讯录
liunx上升级python2至python3
es的查询、排序查询、分页查询、布尔查询、查询结果过滤、高亮查询、聚合函数、python操作es
python常用标准库（时间模块time和datetime）
python之logging日志
python之configparser类的使用
Python常用标准库（pickle序列化和JSON序列化）
MySQL（12） - Python+MySQL读取写入图片
MySQL（11） - Python+MySQL开发新闻管理系统
Python 什么是flask框架？快速入门(flask安装，登录，新手三件套，登录认证装饰器，配置文件，路由系统，CBV)

章节导航