描述:
2
<bb>(01)-123<a>bbb(02)-2784KK</a><xy>stk(1)-123(03)-345b</xy>(04)-123</xy><z>(05)-123</zz>zz<yy>(06)-123</yy>
<bb>(01)-123<a><k>1223</k><a>(01)-12</a>
样例输出
<xy>1,03</xy>
<yy>06</yy>
NONE
提示
1) tag中间可以有任何文字,比如 xddd也是一个合法tag
2) 在分组的右边可以通过分组的编号引用该分组所匹配的子串
m = r’(((ab*)c)d)e\3’ #要求 ab*cde后面跟着第三分组的内容
r = re.match(m,“abbbcdeabbbkfg”) # 后面的bbb少一个b则不能匹配,因为第三分组是abbb
print(r.group(3)) # abbb
print(r.group()) # abbbcdeabbb
3) 如果一个正则表达式搞不定,可以先用一个正则表达式抽取某个中间结果,再在中间结果里面手工或者用另外的正则表达式进一步分析
来源
Guo Wei
import re
m=r'(<([a-z]+)>.+?</)\2>'
n=r'\((\d{1,2})\)-\d{3}(?=[^\d])'
i=int(input())
while i:
biaoji=0
s=input()
l1=re.findall(m,s)
if len(l1)!=0:
for l2 in l1:
l3=list(re.findall(n,l2[0]))
if len(l3)!=0:
time=len(l3)
print('<'+l2[1]+'>',end='')
print(l3[0],end='')
for x in range(1,time):
print(','+l3[x],end='')
print('</'+l2[1]+'>')
biaoji=1;
if biaoji==0:
print("NONE")
else:
print("NONE")
i-=1
有些地方不符合我预想的情况,比如re.findall(n,l2[0])哪里,直接返回了分组一的值……
感兴趣的可以自己写代码测试下,目前这里我还没想明白为什么直接返回了分组一的值。