Python网络数据采集学习笔记1
2016-04-05 22:25
567 查看
学习笔记
第一章 初识网络爬虫
使用的python版本 python3.5,解析的库是BeautifulSoup、lxml 。如果系统中的python只有一个版本,安装好python控制包pip,然后安装依赖包
安装方式为:
pip install BeautifulSoup lxml
如果系统中存在两种版本的python,那么安装命令为:
python3.5 -m pip install BeautifulSoup lxml
这里假设需要安装到python 3.5上。
第二章 复杂的HTML解析
网络数据采集就是要从众多的信息中不断的筛选我们所关心的数据。解析不友好的网站数据,一定要三思而后行。
BeautifulSoup
BeautifulSoup的 find() 和 findAll()。find() 查到的是单个标签
findAll() 查到的是所有的标签列表
BeautifulSoup的对象
BeautifulSoup对象
标签Tag对象
NavigableString对象
Comment对象
导航树
子标签和后代标签
兄弟标签
父标签
正则表达式
获得全部属性
myTag.attrs 可以获得tag的全部数据
相关文章推荐
- 文章标题 java网络详解
- HTTP消息中header头部信息的讲解
- NSMutableURLRequest 设置cookie 及 NSHTTPCookieStorage机制
- 网络编程总结(一)
- linux修改TCP连接数(centos实测)
- Android 6.0 使用 HttpClient
- Java基础学习第二十六天——网络编程总结
- Python Twisted网络编程框架与异步编程入门教程
- 详解Https是如何确保安全的?
- TCP之种种连接异常
- 1098 均分纸牌 ——http://codevs.cn/problem/1098/
- 网络编程数据处理_学习笔记_第七周
- Volley的常用方法总结
- HTTP协议详解
- java学习之路之网络知识总结
- 安卓监听APP网络状态变化
- linux下的网络模型
- Android OkHttp完全解析 是时候来了解OkHttp了
- 北京集训队 2016 Day4 alarm
- Vmware_NAT(可连接外网)_Redhat6.5_Kickstart (http+tftp+dhcp)