您的位置:首页 > 编程语言 > Python开发

Python 正则表达式,html标签 提取

2017-10-10 11:52 295 查看
标签:

import re
mystr1="<title>helloworld</title>"
res=re.match("<\w*>\w*</\w[a-zA-Z]*>",mystr1)   #前后标签不一样也能匹配
print(res)
#(\w*)和\\1 对应匹配,前面的必须加括号
res1=re.match("<([a-zA-Z]*)>\w*</\\1>",mystr1)  #前后标签必须一样才能匹配
print(res1)
嵌套标签:

import re

mystrs="<HTML><title>百度一下,你就知道 </title></HTML>"
#标签对称,(\w*) (\w*)  \\2 \\1 必须对称,相等,前面标签必须有括号
res=re.match("<(\w*)><(\w*)>.*</\\2></\\1>",mystrs)
print(res)
标签名称:
import  re
#(?P<name1>) 取名称为name1   (?P=name1)和名称是name1的正则表达式对应
mystrs="<HTML><title>百度一下,你就知道 </title></HTML>"
res=re.match("<(?P<name1>\w*)><(?P<name2>\w*)>.*</(?P=name2)></(?P=name1)>",mystrs)
print(res)
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  python