您的位置:首页 > 编程语言 > Python开发

python正则表达式和自制爬虫

2015-10-04 17:03 671 查看
python的正则表达式非常的重要。学的也很有意思、常用的正则表达式有. ,* ,?,.,.?,.?,()等等

.表示匹配任意字符,但是除了换行符

*匹配前一个字符0次或者无限次

?匹配前一个字符0次或者1次

.*?非贪心算法

将()中的匹配结果作为结果返回

在python中的正则表达式方法

findall:匹配所有符合规律的内容,返回包含结果的列表

search:匹配并提取第一个符合规律的内容,返回第一个符合规律的正则表达式对象,如果要匹配的内容只有一个,最好使用search,不用遍历整个文件,提高效率

Sub:替换符合规律的内容,返回替换后的值

测试小程序如下:





运行结果如下:



半自动的文本爬虫如下:

文本如下:



程序代码如下:





从执行的结果我们可以看到,已经将文本提取出来



进行爬虫下载资源,需要引入requests这个库



总的来说还是比较有意思的。加油
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: