正则表达式与通配符

POSIX 规范

  Portable Operating System Interface for uniX
  定义了 UNIX 操作系统应当支持的功能

  包括:

BRE(Basic Regular Expression,基本型正则表达式)
GNU 也对 BRE 做了扩展也支持 『(』、『)』、『{』、『}』、『+』、『?』、『|』 但是需要转义
命令:grep、vi、sed

ERE(Extended Regular Express,扩展型正则表达式)
虽然 BRE 名为“基本”而 ERE 名为“扩展”,但 ERE 并不要求兼容 BRE 的语法,而是自成一体。因此其中的元字符不用转义(在元字符之前添加反斜线会取消其特殊含义)
『(』、『)』、『{』、『}』、『+』、『?』、『|』 不需要转义
命令:egrep、awk

 

几种 POSIX 流派的说明

流派

说明

工具

BRE

(、)、{、}都必须转义使用,不支持 +、?、|

grep、sed、vi(但 vi 支持这些多选结构和反向引用)

GNU BRE

(、)、{、}、+、?、|都必须转义使用

GNU grep、GNU sed

ERE

元字符不必转义,+、?、(、)、{、}、|可以直接使用,1、2 的支持不确定

egrep、awk

GNU ERE

元字符不必转义,+、?、(、)、{、}、|可以直接使用,支持1、2

grep –E、GNU awk

 

 

常用 Linux/Unix 工具中的表示法

    

PCRE 记法

vi/vim

grep

awk

sed

*

*

*

*

*

+

+

+

+

+

?

=

?

?

?

{m,n}

{m,n}

{m,n}

{m,n}

{m,n}

*

< >

< >

< >

y < >

(…|…)

…‖…

…‖…

(…|…)

(…|…)

(…)

(…)

(…)

1 2

1 2

1 2

不支持

1 2

       常见3中类型正则表达式比较

  

字符

说明

Basic RegEx

Extended RegEx

python RegEx

Perl regEx

转义

 

^

匹配行首,例如'^dog'匹配以字符串dog开头的行(注意:awk 指令中,'^'则是匹配字符串的开始)

^

^

^

^

$

匹配行尾,例如:'^、dog$'匹配以字符串 dog 为结尾的行(注意:awk 指令中,'$'则是匹配字符串的结尾)

$

$

$

$

^$

匹配空行

^$

^$

^$

^$

^string$

匹配行,例如:'^dog$'匹配只含一个字符串 dog 的行

^string$

^string$

^string$

^string$

<

匹配单词,例如:'<frog' (等价于'frog'),匹配以 frog 开头的单词

<

<

不支持

不支持(但可以使用来匹配单词,例如:'frog')

>

匹配单词,例如:'frog>'(等价于'frog '),匹配以 frog 结尾的单词

>

>

不支持

不支持(但可以使用来匹配单词,例如:'frog')

<x>

匹配一个单词或者一个特定字符,例如:'<frog>'(等价于'frog')、'<G>'

<x>

<x>

不支持

不支持(但可以使用来匹配单词,例如:'frog'

()

匹配表达式,例如:不支持'(frog)'

不支持(但可以使用(),如:(dog)

()

()

()

()

匹配表达式,例如:不支持'(frog)'

()

不支持(同())

不支持(同())

不支持(同())

匹配前面的子表达式 0 次或 1 次(等价于{0,1}),例如:where(is)?能匹配"where" 以及"whereis"

不支持(同?)

?

匹配前面的子表达式 0 次或 1 次(等价于'{0,1}'),例如:'where(is)? '能匹配 "where"以及"whereis"

?

不支持(同?)

不支持(同?)

不支持(同?)

?

当该字符紧跟在任何一个其他限制符(*, +, ?, {n},{n,}, {n,m}) 后面时,匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串,而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如,对于字符串 "oooo",'o+?' 将匹配单个"o",而 'o+' 将匹配所有 'o'

不支持

不支持

不支持

不支持

.

匹配除换行符(' ')之外的任意单个字符(注意:awk 指令中的句点能匹配换行符)

.

.(如果要匹配包括“ ”在内的任何一个字符,请使用:'(^$)|(.)

.

.(如果要匹配包括“ ”在内的任何一个字符,请使用:' [. ] '

*

匹配前面的子表达式 0 次或多次(等价于{0, }),例如:zo* 能匹配 "z"以及 "zoo"

*

*

*

*

+

匹配前面的子表达式 1 次或多次(等价于'{1, }'),例如:'where(is)+ '能匹配 "whereis"以及"whereisis"

+

不支持(同+)

不支持(同+)

不支持(同+)

+

匹配前面的子表达式 1 次或多次(等价于{1, }),例如:zo+能匹配 "zo"以及 "zoo",但不能匹配 "z"

不支持(同+)

+

+

+

{n}

n 必须是一个 0 或者正整数,匹配子表达式 n 次,例如:zo{2}能匹配

不支持(同{n})

{n}

{n}

{n}

{n,}

"zooz",但不能匹配 "Bob"n 必须是一个 0 或者正整数,匹配子表达式大于等于 n次,例如:go{2,}

不支持(同{n,})

{n,}

{n,}

{n,}

{n,m}

能匹配 "good",但不能匹配 godm 和 n 均为非负整数,其中 n <= m,最少匹配 n 次且最多匹配 m 次 ,例如:o{1,3}将配"fooooood" 中的前三个 o(请注意在逗号和两个数之间不能有空格)

不支持(同{n,m})

{n,m}

{n,m}

{n,m}

x|y

匹配 x 或 y,例如: 不支持'z|(food)' 能匹配 "z" 或"food";'(z|f)ood' 则匹配"zood" 或 "food"

不支持(同x|y)

x|y

x|y

x|y

[0-9]

匹配从 0 到 9 中的任意一个数字字符(注意:要写成递增)

[0-9]

[0-9]

[0-9]

[0-9]

[xyz]

字符集合,匹配所包含的任意一个字符,例如:'[abc]'可以匹配"lay" 中的 'a'(注意:如果元字符,例如:. *等,它们被放在[ ]中,那么它们将变成一个普通字符)

[xyz]

[xyz]

[xyz]

[xyz]

[^xyz]

负值字符集合,匹配未包含的任意一个字符(注意:不包括换行符),例如:'[^abc]' 可以匹配 "Lay" 中的'L'(注意:[^xyz]在awk 指令中则是匹配未包含的任意一个字符+换行符)

[^xyz]

[^xyz]

[^xyz]

[^xyz]

[A-Za-z]

匹配大写字母或者小写字母中的任意一个字符(注意:要写成递增)

[A-Za-z]

[A-Za-z]

[A-Za-z]

[A-Za-z]

[^A-Za-z]

匹配除了大写与小写字母之外的任意一个字符(注意:写成递增)

[^A-Za-z]

[^A-Za-z]

[^A-Za-z]

[^A-Za-z]

d

匹配从 0 到 9 中的任意一个数字字符(等价于 [0-9])

不支持

不支持

d

d

D

匹配非数字字符(等价于 [^0-9])

不支持

不支持

D

D

S

匹配任何非空白字符(等价于[^f v])

不支持

不支持

S

S

s

匹配任何空白字符,包括空格、制表符、换页符等等(等价于[ f v])

不支持

不支持

s

s

W

匹配任何非单词字符 (等价于[^A-Za-z0-9_])

W

W

W

W

w

匹配包括下划线的任何单词字符(等价于[A-Za-z0-9_])

w

w

w

w

B

匹配非单词边界,例如:'erB' 能匹配 "verb" 中的'er',但不能匹配"never" 中的'er'

B

B

B

B

匹配一个单词边界,也就是指单词和空格间的位置,例如: 'er' 可以匹配"never" 中的 'er',但不能匹配 "verb" 中的'er'

匹配一个横向制表符(等价于 x09和 cI)

不支持

不支持

v

匹配一个垂直制表符(等价于 x0b和 cK)

不支持

不支持

v

v

匹配一个换行符(等价于 x0a 和cJ)

不支持

不支持

f

匹配一个换页符(等价于x0c 和cL)

不支持

不支持

f

f

匹配一个回车符(等价于 x0d 和cM)

不支持

不支持

\

匹配转义字符本身""

\

\

\

\

cx

匹配由 x 指明的控制字符,例如:cM匹配一个Control-M 或回车符,x 的值必须为A-Z 或 a-z 之一,否则,将 c 视为一个原义的 'c' 字符

不支持

不支持

 

cx

xn

匹配 n,其中 n 为十六进制转义值。十六进制转义值必须为确定的两个数字长,例如:'x41' 匹配 "A"。'x041' 则等价于'x04' & "1"。正则表达式中可以使用 ASCII 编码

不支持

不支持

 

xn

um

匹配 num,其中 num是一个正整数。表示对所获取的匹配的引用

不支持

um

um

 

[:alnum:]

匹配任何一个字母或数字([A-Za-z0-9]),例如:'[[:alnum:]] '

[:alnum:]

[:alnum:]

[:alnum:]

[:alnum:]

[:alpha:]

匹配任何一个字母([A-Za-z]), 例如:' [[:alpha:]] '

[:alpha:]

[:alpha:]

[:alpha:]

[:alpha:]

[:digit:]

匹配任何一个数字([0-9]),例如:'[[:digit:]] '

[:digit:]

[:digit:]

[:digit:]

[:digit:]

[:lower:]

匹配任何一个小写字母([a-z]), 例如:' [[:lower:]] '

[:lower:]

[:lower:]

[:lower:]

[:lower:]

[:upper:]

匹配任何一个大写字母([A-Z])

[:upper:]

[:upper:]

[:upper:]

[:upper:]

[:space:]

任何一个空白字符: 支持制表符、空格,例如:' [[:space:]] '

[:space:]

[:space:]

[:space:]

[:space:]

[:blank:]

空格和制表符(横向和纵向),例如:'[[:blank:]]'ó'[s v]'

[:blank:]

[:blank:]

[:blank:]

[:blank:]

[:graph:]

任何一个可以看得见的且可以打印的字符(注意:不包括空格和换行符等),例如:'[[:graph:]] '

[:graph:]

[:graph:]

[:graph:]

[:graph:]

[:print:]

任何一个可以打印的字符(注意:不包括:[:cntrl:]、字符串结束符' '、EOF 文件结束符(-1), 但包括空格符号),例如:'[[:print:]] '

[:print:]

[:print:]

[:print:]

[:print:]

[:cntrl:]

任何一个控制字符(ASCII 字符集中的前 32 个字符,即:用十进制表示为从 0 到31,例如:换行符、制表符等等),例如:' [[:cntrl:]]'

[:cntrl:]

[:cntrl:]

[:cntrl:]

[:cntrl:]

[:punct:]

任何一个标点符号(不包括:[:alnum:]、[:cntrl:]、[:space:]这些字符集)

[:punct:]

[:punct:]

[:punct:]

[:punct:]

[:xdigit:]

任何一个十六进制数(即:0-9,a-f,A-F)

[:xdigit:]

[:xdigit:]

[:xdigit:]

[:xdigit:]

 通配符

  文本过滤工具里,都是用正则表达式, awk,sed,grep

  通配符多用在文件名上, ls find ,cp

  

通配符是先解释,再执行
通配符不匹配,会原样输出
只适用于单层路径
可用于文件名

 

 

?字符代表单个字符
*代表任意数量的字符
[...]匹配方括号之中的任意一个字符,比如[aeiou]可以匹配五个元音字母。
[start-end]表示一个连续的范围
[^...]和[!...]表示匹配不在方括号里面的字符(不包括空字符)。这两种写法是等价的
{...} 表示匹配大括号里面的所有模式,模式之间使用逗号分隔
{start..end}会匹配连续范围的字符。

  http://www.ruanyifeng.com/blog/2018/09/bash-wildcards.html

https://www.infoq.cn/article/2011/07/regular-expressions-6-POSIX

https://www.cnblogs.com/lixuwu/p/7816335.html