正则表达式和re模块知识点汇总

"^"：匹配字符的开始
"$"：匹配字符的结尾
"[]"：字符组
"[^a]"：如果在字符组中以^开头，就是除了a不匹配，其他的都匹配
"a|b"：匹配字符a或b  注意：使用或关系的时候，要把长规则放在短规则的前面
"()"分组，需要对一个整体匹配规则量词约束的，就对整体匹配规则加一个括号
字符串最前面加上r 就是不再对这一行代码进行转译，输入啥打印啥 (real)

"."：匹配换行符以外的任意字符
"w"：匹配字母数字下划线(word)
"s"：匹配任意的空白字符(space)
"d"：匹配任意数字(digit)
"W"：匹配非字母数字下划线
"S"：匹配非空白字符
"D"：匹配非数字
"D"：匹配非数字

"
"：匹配一个换行符
"	"：匹配一个制表符
""：匹配一个单词结尾

所有量词都必须用在正则匹配规则的后面
量词只对紧挨着它的那一个正则匹配规则生效
量词默认是贪婪模式，尽可能多的匹配
如果量词后面加一个"?"表示启动非贪婪模式，尽可能少的匹配
"*"：重复零次或多次
"+"：重复一次或多次
"?"：重复零次或一次
"{n}"：重复n次
"{n,}"：重复n次或多次
"{n,m}"：重复n次到m次


re.findall()：返回所有满足匹配条件的结果，放在列表中
re.search()：从前往后找，找到一个就返回，返回的是一个对象，
            需要调用group()方法才能拿到结果
            常用的格式：
            res = re.search("e", "hello, world")
            if res:
                res.group()
re.match()：从头开始匹配，如果从头开始可以匹配上就和re.search()一样，
            不然就返回None

re.search().group()和re.match().group()都能输入参数，
指定获取第几个分组的值
如果不指定就不单单取分组内的，而取匹配结果
而re.findall()由于没有group()这种方法，所以:
        res = re.findall("www.(baidu|oldboy).com", "www.oldboy.com")
        print(res) ->得到的结果是：['oldboy']
        如果想拿到 ['www.oldboy.com']，就需要取消分组优先
        就需要 res = re.findall("www.(?:baidu|oldboy).com", "www.oldboy.com")
        print(res) ->得到的结果是：['www.oldboy.com']

re.sub()： res = re.sub("d", "H", "dgf4fg61", count=2)
            将"dgf4fg61"中的数字替换成"H"，替换两个
re.subn()： res = re.sub("d", "H", "dgf4fg61")
            将"dgf4fg61"中的数字替换成"H"
            返回一个元组，其中一个值告诉你一共替换了几次
re.compile()：当一条规则需要反复使用，就可以先对这条规则进行编译
            obj = re.compile("d")
            res = obj.findall("dfff5ggh7hh8")
            print(res)
re.finditer()：得到一个迭代器，循环之后每一个元素还要调用group()方法才能拿到值
                res = re.finditer("d", "djfj4fk6kkmb8")
                for i in res:
                    print(i.group())
正则表达式和re模块知识点汇总

相关推荐