Python通过正则表达式和字符串处理获取方式获取所需子字符串的方式
2017-06-14 15:51
591 查看
在爬虫软件时我们经常需要从url中寻找并获取我们所需要的那一部分内容
此例我们需要从网址new_url="http://news.sina.com.cn/c/gat/2017-06-14/doc-ifyfzfyz4058260.shtml"中获取
fyfzfyz4058260
一、字符串处理
涉及方法: split() :字符串分割 lstrip('doc-i') 从左开始讲doc-i内容从字符串中移除 rstrip('.shtml')从右开始将.shtml从字符串中移除详细分布代码讲解:
#爬虫所需url new_url= "http://news.sina.com.cn/c/gat/2017-06-14/doc-ifyfzfyz4058260.shtml" #分步骤写: arr = new_url.split("/") print(arr) #['http:', '', 'news.sina.com.cn', 'c', 'gat', '2017-06-14', 'doc-ifyfzfyz4058260.shtml'] arr = arr[-1] #取列表最后一个元素 print(arr) #doc-ifyfzfyz4058260.shtml newsId = arr.lstrip('doc-i').rstrip('.shtml') print(newsId) #的得到所需的内容 #fyfzfyz4058260合并写法
new_url= "http://news.sina.com.cn/c/gat/2017-06-14/doc-ifyfzfyz4058260.shtml" newsId = new_url.split("/")[-1].lstrip('doc-i').rstrip('.shtml') print(newsId) #fyfzfyz4058260
二、正则表达式写法
#正则1表达式法 import re new_url= "http://news.sina.com.cn/c/gat/2017-06-14/doc-ifyfzfyz4058260.shtml" m = re.search('doc-i(.+).shtml',new_url) print(m.group(0),m.group(1)) #group(0) doc-ifyfzfyz4058260.shtml 匹配到的内容 #group(1)fyfzfyz4058260 括号内的内容
相关文章推荐
- Python 网络爬虫 009 (编程) 通过正则表达式来获取一个网页中的所有的URL链接,并下载这些URL链接的源代码
- java 正则表达式高级篇(四种常用的处理方式:匹配 分割 替代 获取)
- 第五章--字符串的创建方式、连接方式、获取字符串信息的方式、常用操作、格式化、正则表达式、字符串生成器的用法
- Python通过正则表达式获取,去除(过滤)或者替换HTML标签的几种方法(本文由169it.com搜集整理)
- 【4】通过简化的正则表达式处理字符串
- 代码笔记 | java 正则表达式高级篇(四种常用的处理方式:匹配 分割 替代 获取)
- python全栈开发-re模块(正则表达式)应用(字符串的处理)
- python正则表达式获取两段标记内的字符串
- Java通过正则表达式获取字符串中数字的方法示例
- Python 网络爬虫 009 (编程) 通过正则表达式来获取一个网页中的所有的URL链接,并下载这些URL链接的源代码
- java 正则表达式高级篇(四种常用的处理方式:匹配 分割 替代 获取)
- python读配置文件;正则表达式替换、切割字符串;获取当前时间
- java 通过正则表达式获取匹配字符串的例子
- 二:字符串和正则表达式_字符串处理
- 二:字符串和正则表达式_字符串处理
- JAVA环境使用正则表达式处理字符串
- 运行一个命令或程序获取结果/正则表达式查找匹配/分隔字符串
- 字符串处理是许多程序中非常重要的一部分,它们可以用于文本显示,数据表示,查找键和很多目的.在Unix下,用户可以使用正则表达式的强健功能实现这些 目的,从Java1.4起,Java核心API就引入了java.util.regex程序包,它是一种有价值的基础
- 二:字符串和正则表达式_URL处理
- 二:字符串和正则表达式_字符串处理