您的位置:首页 > 编程语言 > Python开发

爬虫-python基础篇

2017-12-09 12:13 218 查看
1.2 python

1.2.1 第三方库

Requests

BeautifulSoup

1.2.2 重要知识点

1.2 python

1.2.1 第三方库

Requests

python开源了很多第三方库,在写爬虫抓取数据的时候,一般会用第三方库:requests,使用import,导入包之后就可以调用了。

Requests:可以用来发送网络请求,如图:



此外,还有很多高级的操作,如:

传递参数:如果要手工构建URL,那么数据会以健值对的形式放在URL中,跟在一个问号后面,这在写爬虫的时候会非常方便,如图:



注:字典为None的值不会传到URL里

定制请求头:若想要自己的爬虫更加强壮,不被封掉,可以简单传递一个字典给headers,让自己伪装得更好。

此外,还可以以字节的方式访问请求响应体,同时request还内置了json解码器,可以处理JSON数据。

BeautifulSoup

BeautifulSoup解析页面

见代码 Beautiful_basic.ipynb



prettify函数可以把标签美化,变成典型的层级结构

BeautifulSoup把html转换成复杂的树形结构,每个节点都是python对象,所有对象可以归纳为四种: Tag, NavigableString, BeautifulSoup, Comment

Tag

只要加上标签名,就可以获取对应的标签。

注:这样获取的是第一个符合内容的标签





















1.2.2 重要知识点

变量

使用变量,可以大幅提升代码的效率,也利于函数之间传递。

如10 + 3 = 13,2 + 10 = 12,10 – 16 = -6.

这三个表达式都使用了10这个数值,这时候可以命名一个变量x= 10,就可以写成:x + 3 = 13, 2 + x = 12, x – 16= -6。

注:变量命名可以包括字母,数字,下划线,但不能以数字开头。

字符串

字符串和数字一样,也是一个值,但字符串需要以’’或””包起来。多个字符串可以用 + 拼接起来。

字符串的常用函数有:

len(‘huang’) :输出5,获得字符串中的元素个数

str.strip() :去除字符串的首尾空白符

str.replace :替换字符

str.split(‘i’) :根据字母i切分字符



列表

列表是一种有序的集合,可以随时添加或删除里面的元素,列表中的每个元素都对应着一个索引号,索引从0开始。



字典

字典的重要组成部分是键(key)和值(value),key是字典的索引,因而它一定是唯一的。



文件读写:必备技能



将文本内容写到某个文件中,path表示文件路径;

mode表示读或者写,mode=’w’表示写,mode = ‘r’表示读;

fp为文件对象;

fp.write表示调用write方法,并写入字符串;

最后关闭。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: