您的位置:首页 > 理论基础 > 计算机网络

Python网络数据采集学习笔记1

2016-04-05 22:25 567 查看

学习笔记

第一章 初识网络爬虫

使用的python版本 python3.5,解析的库是BeautifulSouplxml

如果系统中的python只有一个版本,安装好python控制包pip,然后安装依赖包

安装方式为:

pip install BeautifulSoup lxml


如果系统中存在两种版本的python,那么安装命令为:

python3.5 -m pip install BeautifulSoup lxml


这里假设需要安装到python 3.5上。

第二章 复杂的HTML解析

网络数据采集就是要从众多的信息中不断的筛选我们所关心的数据。

解析不友好的网站数据,一定要三思而后行。

BeautifulSoup

BeautifulSoup的 find()findAll()

find() 查到的是单个标签

findAll() 查到的是所有的标签列表

BeautifulSoup的对象

BeautifulSoup对象

标签Tag对象

NavigableString对象

Comment对象

导航树

子标签和后代标签

兄弟标签

父标签

正则表达式

获得全部属性

myTag.attrs 可以获得tag的全部数据
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: