正则表达式和re模块知识点汇总

"^":匹配字符的开始
"$":匹配字符的结尾
"[]":字符组
"[^a]":如果在字符组中以^开头,就是除了a不匹配,其他的都匹配
"a|b":匹配字符a或b 注意:使用或关系的时候,要把长规则放在短规则的前面
"()"分组,需要对一个整体匹配规则量词约束的,就对整体匹配规则加一个括号
字符串最前面加上r 就是不再对这一行代码进行转译,输入啥打印啥 (real)

".":匹配换行符以外的任意字符
"w":匹配字母数字下划线(word)
"s":匹配任意的空白字符(space)
"d":匹配任意数字(digit)
"W":匹配非字母数字下划线
"S":匹配非空白字符
"D":匹配非数字
"D":匹配非数字

" ":匹配一个换行符
" ":匹配一个制表符
"":匹配一个单词结尾

所有量词都必须用在正则匹配规则的后面
量词只对紧挨着它的那一个正则匹配规则生效
量词默认是贪婪模式,尽可能多的匹配
如果量词后面加一个"?"表示启动非贪婪模式,尽可能少的匹配
"*":重复零次或多次
"+":重复一次或多次
"?":重复零次或一次
"{n}":重复n次
"{n,}":重复n次或多次
"{n,m}":重复n次到m次


re.findall():返回所有满足匹配条件的结果,放在列表中
re.search():从前往后找,找到一个就返回,返回的是一个对象,
需要调用group()方法才能拿到结果
常用的格式:
res = re.search("e", "hello, world")
if res:
res.group()
re.match():从头开始匹配,如果从头开始可以匹配上就和re.search()一样,
不然就返回None

re.search().group()和re.match().group()都能输入参数,
指定获取第几个分组的值
如果不指定就不单单取分组内的,而取匹配结果
而re.findall()由于没有group()这种方法,所以:
res = re.findall("www.(baidu|oldboy).com", "www.oldboy.com")
print(res) ->得到的结果是:['oldboy']
如果想拿到 ['www.oldboy.com'],就需要取消分组优先
就需要 res = re.findall("www.(?:baidu|oldboy).com", "www.oldboy.com")
print(res) ->得到的结果是:['www.oldboy.com']

re.sub(): res = re.sub("d", "H", "dgf4fg61", count=2)
将"dgf4fg61"中的数字替换成"H",替换两个
re.subn(): res = re.sub("d", "H", "dgf4fg61")
将"dgf4fg61"中的数字替换成"H"
返回一个元组,其中一个值告诉你一共替换了几次
re.compile():当一条规则需要反复使用,就可以先对这条规则进行编译
obj = re.compile("d")
res = obj.findall("dfff5ggh7hh8")
print(res)
re.finditer():得到一个迭代器,循环之后每一个元素还要调用group()方法才能拿到值
res = re.finditer("d", "djfj4fk6kkmb8")
for i in res:
print(i.group())