您的位置：首页 > 编程语言 > Python开发

Python 正则表达式，html标签提取

2017-10-10 11:52 295 查看

标签：

import re
mystr1="<title>helloworld</title>"
res=re.match("<\w*>\w*</\w[a-zA-Z]*>",mystr1)   #前后标签不一样也能匹配
print(res)
#(\w*)和\\1 对应匹配，前面的必须加括号
res1=re.match("<([a-zA-Z]*)>\w*</\\1>",mystr1)  #前后标签必须一样才能匹配
print(res1)

嵌套标签：

import re

mystrs="<HTML><title>百度一下，你就知道 </title></HTML>"
#标签对称，(\w*) (\w*)  \\2 \\1 必须对称，相等，前面标签必须有括号
res=re.match("<(\w*)><(\w*)>.*</\\2></\\1>",mystrs)
print(res)

标签名称：

import  re
#(?P<name1>) 取名称为name1   (?P=name1)和名称是name1的正则表达式对应
mystrs="<HTML><title>百度一下，你就知道 </title></HTML>"
res=re.match("<(?P<name1>\w*)><(?P<name2>\w*)>.*</(?P=name2)></(?P=name1)>",mystrs)
print(res)

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： python

相关文章推荐

新的分享

章节导航

Python 正则表达式，html标签 提取

Python 正则表达式，html标签提取