Python 正则表达式,html标签 提取
2017-10-10 11:52
295 查看
标签:
import re mystr1="<title>helloworld</title>" res=re.match("<\w*>\w*</\w[a-zA-Z]*>",mystr1) #前后标签不一样也能匹配 print(res) #(\w*)和\\1 对应匹配,前面的必须加括号 res1=re.match("<([a-zA-Z]*)>\w*</\\1>",mystr1) #前后标签必须一样才能匹配 print(res1)嵌套标签:
import re mystrs="<HTML><title>百度一下,你就知道 </title></HTML>" #标签对称,(\w*) (\w*) \\2 \\1 必须对称,相等,前面标签必须有括号 res=re.match("<(\w*)><(\w*)>.*</\\2></\\1>",mystrs) print(res)标签名称:
import re #(?P<name1>) 取名称为name1 (?P=name1)和名称是name1的正则表达式对应 mystrs="<HTML><title>百度一下,你就知道 </title></HTML>" res=re.match("<(?P<name1>\w*)><(?P<name2>\w*)>.*</(?P=name2)></(?P=name1)>",mystrs) print(res)
相关文章推荐
- python使用正则表达式提取html标签
- 正则提取出HTML正文(剔除标签内容)python实现
- [python] 常用正则表达式爬取网页信息及分析HTML标签总结
- 如何使用java的正则表达式提取html标签?
- 正则表达式 提取 html 标签的内容
- Google Python Class 之——正则表达式提取html网页数据字段
- python正则表达式使用实例-替换字符串HTML标签
- [python] 常用正则表达式爬取网页信息及分析HTML标签总结
- C#正则表达式提取HTML中IMG标签的SRC地址
- Python常用正则表达式爬取网页信息及分析HTML标签总结
- 用正则表达式逐个提取ajax innerHTML中的script标签并执行
- [python] 常用正则表达式爬取网页信息及分析HTML标签总结
- C#正则表达式提取HTML中IMG标签的URL地址 .
- 正则表达式提取HTML中img标签的src地址
- python正则表达式去除html标签
- asp.net正则表达式提取网页网址、标题、图片实例以及过滤所有HTML标签实例
- ASP.NET正则表达式提取网页网址、标题、图片实例以及过滤所有HTML标签实例
- C#正则表达式提取HTML中IMG标签的SRC地址
- C#正则表达式提取HTML中IMG标签的URL地址
- 正则表达式提取HTML中IMG标签的SRC地址