破解谜一样的正则表达式,从这9招开始

知行编程网 2022-03-01 19:00 知行编程网 | 隐藏边栏 | 抢沙发 | 23 0

文章评分 0 次，平均分 0.0 ：

这是菜鸟学python的第45篇原创文章

阅读本文大概需要5分钟

都说正则表达式有点像密码，有的同学看到就头疼，感觉迷一样的。

那是因为你们没有掌握一些基本的要领,今天我们会讲9种常见的正则表达式的招式,(有同学会问这么多招,哪能记得住)

想要练成御剑飞行，基本功必须要扎实.这些都是最最基本的，哪怕死记硬背也要背住(其实2-3遍就能记住，真的不难)

插一句：

有一点要注意Python的字符串本身也用''转义，所以要特别注意,一般我们都建议使用Python的r前缀，就不用考虑转义的问题了

1.行的起始

先说一个简单的例子：匹配以cat开头的

patt=re.compile(r'^cat')

表示匹配以c作为一行的第一个字符，后面跟着a,后面跟着t

所以'vocative'就不会被匹配到，原因是因为cat在字符的里面

2.行的结尾

如何我们要是以某一个字符串结尾的,比如我们要查邮件是以

BR或者Bestregards结尾的,如何匹配：我们用美元符号$来处理

import re
sentence=<span style="color: #faea29;">'''Hi Jack:</span><span style="color: #cc7832;">n</span><span style="color: #faea29;">
      Python is a beautiful language</span><span style="color: #cc7832;">n</span><span style="color: #faea29;">
      BR'''
</span>patt=re.compile(<span style="color: #faea29;">r'(BR|Bestregards)$'</span>)
m=re.search(patt<span style="color: #cc7832;">,</span>sentence)
if m :
   print <span style="color: #faea29;">'match'
</span>else:
   print <span style="color: #faea29;">'not match'
>>
match</span>

$表示匹配的位置是从行的结束的，也就是锚定在行的末尾，然后从行的末尾往前匹配BR或者是Bestregards,所以若你改成下面两种都匹配不到

sentence='''Hi Jack:n

Python is a beautiful languagen

BRs'''

sentence='''Hi Jack:n

Python is a beautiful languagen

Bestregard'''

解释一下:

第一种情况，是把BR改成了BRs,所以匹配不到

第二种情况，是把Bestregards改成了Bestregard,所以也匹配不到

3.单词的边界

前面介绍了匹配行的开头和结尾，那么如何匹配单词的边界呢,简单正则里面有2个特殊字符b and B来匹配单词的边界 :

b 匹配的模式是一个单词的边界(不论这个单词的前面是有字符还是没有字符)
B 匹配出现在一个单词中间的模式

例如:

the #匹配包含有'the'的字符串

bthe #匹配任何以'the'开始的字符串

btheb #仅仅匹配单词'the'

Bthe #匹配任意包含'the'但不以'the'开头的单词

4.字符组

比如我们需要匹配'grey'或者'gray'的时候，怎么办,可以用正则的[]来表示,gr[ea]y,表示先找到g,然后找到r,然后找到e或者a,最后是一个y

import re
word=<span style="color: #faea29;">'grey'
</span>patt=re.compile(<span style="color: #faea29;">r'gr[ea]y'</span>)
m=re.match(patt<span style="color: #cc7832;">,</span>word)
if m :
   print <span style="color: #faea29;">'match'
</span>else:
   print <span style="color: #faea29;">'not match'
>>
match</span>

若把word改成'gray'也是匹配的

切记：字符组里面是匹配一个字符比如H[12345],表示H后面可以跟1或2或3或4或5，而不是12345,千万不要弄错了

5.多选结构

6.可选项元素

比如6月4号，这个6月可能写成'June'也可以写成'Jun',而且日期也有可能写作'fourth'或者'4th'或者4,我们可以写成(June|Jun)(fourth|4th|4),但是有没有其他办法呢,可以用问号?表示可选项

我们分步来处理:

第一部分:(June|Jun)改为(June?),什么意思呢

意思是说'?'出现在一个e后面，表示e是可选的
第二部分:(fourth|4th|4)改为(fourth|4(th)?),什么意思呢

意思是说'?'出现在一个括号后面,表示这个括号内的内容是可选的

最后这个复杂的(June|Jun)(fourth|4th|4)就可以变成了June?(fourth|4(th)?)，大家看懂了吗~~有点晕是把，没事吐吐就习惯了

7.重复出现

重复出现用+和*表示,但是二者有一些小的区别

+加号表示:前面紧邻的元素出现一次或者多次，也就是至少出现一次
*星号表示:前面紧邻的元素出现任意多次，或者不出现.

其实说白了*比+多一种不出现的情况，匹配尽可能多的次数，如果实在匹配不到也不要紧,+也是匹配多次,但连一次匹配都无法完成，就报告失败

例如:

a* #匹配a,aa,aaa,...还有''

a+ #匹配a,aa,aaa,...

解释一下:

a*表示0个或者多个a,所以为0的时候，就是空字符

a+表示1个或者多个a,所以a至少要有1次

8.匹配重复的次数

1).比如我们想匹配前面的内容重复出现的次数，比如3次,或者是一个区间,比如1-3次,如何匹配:

import re
<span style="background-color: #40332b;">num_str</span>=<span style="color: #faea29;">'123aa45'
</span>patt=re.compile(<span style="color: #faea29;">r'([1-9]{3})'</span>)
m=re.match(patt<span style="color: #cc7832;">,</span><span style="background-color: #344134;">num_str</span>)
if m:
    print m.group()
<span style="color: #fffb00;">>></span>
<span style="color: #fffb00;">123</span>

表示出现1-9之间的任意一个数字，并且这个数字只能重复出现3次

2).为重复匹配次数设定一个区间

比如美国股票的代码，都是字符有大写的也有小写，基本都是在1到5个字母，如何用正则表达呢

简单[a-zA-Z]{1,5},就可以来匹配美国股票代码(1到5个字母)

9.排除型字符组

比如我们想匹配除了1到6以外的任何字符串,怎么办，简单用[^1-6],这个字符组中开头的^表示"排除的意思".(有同学会举手说，你刚才不是说^表示开头吗，怎么现在变成排除型了).

这位同学会抢答了，下面就是我要解释的,正则的复杂性:

当^在字符组的外面的时候"表示一个行的开头"
当^在字符组的内部(而且是必须紧接着字符组的第一个方括号之后)，它就是一个元字符，表示排除型

比如：找出字母g后面的字母不是u

import re
words=[<span style="color: #faea29;">'gold'</span><span style="color: #cc7832;">,</span><span style="color: #faea29;">'Google'</span><span style="color: #cc7832;">,</span><span style="color: #faea29;">'Sogu'</span><span style="color: #cc7832;">,</span><span style="color: #faea29;">'Guess'</span>]
patt=re.compile(<span style="color: #faea29;">r'.*g[^u]'</span>)

for w in words:
m=re.match(patt,w)
if m:
print w
>>
gold
Google

细心的同学会发现，我们的目的是要"找出字母g后面的字母不是u",为啥'Guess'不在输出结果里面,不是排除型吗，我先不说答案，大家先思考一下，有兴趣的同学可以留言，我会解答.

正则表达式

本文为原创文章，版权归知行编程网所有，欢迎分享本文，转载请保留出处！

知行编程网关注：1 粉丝：1

这个人很懒，什么都没写

内容反馈

你可能也喜欢

热评文章

发表评论

联系我们

标签云

推广返利