正则表达式与通配符

POSIX 规范

　　Portable Operating System Interface for uniX
　　定义了 UNIX 操作系统应当支持的功能

　　包括：

BRE（Basic Regular Expression，基本型正则表达式）
GNU 也对 BRE 做了扩展也支持『(』、『)』、『{』、『}』、『+』、『?』、『|』但是需要转义
命令：grep、vi、sed

ERE（Extended Regular Express，扩展型正则表达式）
虽然 BRE 名为“基本”而 ERE 名为“扩展”，但 ERE 并不要求兼容 BRE 的语法，而是自成一体。因此其中的元字符不用转义（在元字符之前添加反斜线会取消其特殊含义）
『(』、『)』、『{』、『}』、『+』、『?』、『|』不需要转义
命令：egrep、awk

几种 POSIX 流派的说明

流派	说明	工具
BRE	(、)、{、}都必须转义使用，不支持 +、?、\|	grep、sed、vi（但 vi 支持这些多选结构和反向引用）
GNU BRE	(、)、{、}、+、?、\|都必须转义使用	GNU grep、GNU sed
ERE	元字符不必转义，+、?、(、)、{、}、\|可以直接使用，1、2 的支持不确定	egrep、awk
GNU ERE	元字符不必转义，+、?、(、)、{、}、\|可以直接使用，支持1、2	grep –E、GNU awk

常用 Linux/Unix 工具中的表示法

PCRE 记法	vi/vim	grep	awk	sed
*	*	*	*	*
+	+	+	+	+
?	=	?	?	?
{m,n}	{m,n}	{m,n}	{m,n}	{m,n}
*	< >	< >	< >	y < >
(…\|…)	…‖…	…‖…	(…\|…)	(…\|…)
(…)	…	…	(…)	(…)
1 2	1 2	1 2	不支持	1 2

　　　　　　常见3中类型正则表达式比较

字符	说明	Basic RegEx	Extended RegEx	python RegEx	Perl regEx
转义
^	匹配行首，例如'^dog'匹配以字符串dog开头的行（注意：awk 指令中，'^'则是匹配字符串的开始）	^	^	^	^
$	匹配行尾，例如：'^、dog$'匹配以字符串 dog 为结尾的行（注意：awk 指令中，'$'则是匹配字符串的结尾）	$	$	$	$
^$	匹配空行	^$	^$	^$	^$
^string$	匹配行，例如：'^dog$'匹配只含一个字符串 dog 的行	^string$	^string$	^string$	^string$
<	匹配单词，例如：'<frog' （等价于'frog'），匹配以 frog 开头的单词	<	<	不支持	不支持（但可以使用来匹配单词，例如：'frog'）
>	匹配单词，例如：'frog>'（等价于'frog '），匹配以 frog 结尾的单词	>	>	不支持	不支持（但可以使用来匹配单词，例如：'frog'）
<x>	匹配一个单词或者一个特定字符，例如：'<frog>'（等价于'frog'）、'<G>'	<x>	<x>	不支持	不支持（但可以使用来匹配单词，例如：'frog'
()	匹配表达式，例如：不支持'（frog）'	不支持（但可以使用()，如：(dog)	()	()	()
()	匹配表达式，例如：不支持'（frog）'	()	不支持（同())	不支持（同())	不支持（同())
？	匹配前面的子表达式 0 次或 1 次（等价于{0,1}），例如：where(is)?能匹配"where" 以及"whereis"	不支持（同?)	？	？	？
?	匹配前面的子表达式 0 次或 1 次（等价于'{0,1}'），例如：'where(is)? '能匹配 "where"以及"whereis"	?	不支持（同?)	不支持（同?)	不支持（同?)
?	当该字符紧跟在任何一个其他限制符（*, +, ?, {n},{n,}, {n,m}）后面时，匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串，而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如，对于字符串 "oooo"，'o+?' 将匹配单个"o"，而 'o+' 将匹配所有 'o'	不支持	不支持	不支持	不支持
.	匹配除换行符（' '）之外的任意单个字符（注意：awk 指令中的句点能匹配换行符）	.	.（如果要匹配包括“ ”在内的任何一个字符，请使用：'(^$)\|（.）	.	.（如果要匹配包括“ ”在内的任何一个字符，请使用：' [. ] '
*	匹配前面的子表达式 0 次或多次（等价于{0, }），例如：zo* 能匹配 "z"以及 "zoo"	*	*	*	*
+	匹配前面的子表达式 1 次或多次（等价于'{1, }'），例如：'where(is)+ '能匹配 "whereis"以及"whereisis"	+	不支持（同+)	不支持（同+)	不支持（同+)
+	匹配前面的子表达式 1 次或多次（等价于{1, }），例如：zo+能匹配 "zo"以及 "zoo"，但不能匹配 "z"	不支持（同+)	+	+	+
{n}	n 必须是一个 0 或者正整数，匹配子表达式 n 次，例如：zo{2}能匹配	不支持（同{n})	{n}	{n}	{n}
{n,}	"zooz"，但不能匹配 "Bob"n 必须是一个 0 或者正整数，匹配子表达式大于等于 n次，例如：go{2,}	不支持（同{n,})	{n,}	{n,}	{n,}
{n,m}	能匹配 "good"，但不能匹配 godm 和 n 均为非负整数，其中 n <= m，最少匹配 n 次且最多匹配 m 次，例如：o{1,3}将配"fooooood" 中的前三个 o（请注意在逗号和两个数之间不能有空格）	不支持（同{n,m})	{n,m}	{n,m}	{n,m}
x\|y	匹配 x 或 y，例如：不支持'z\|（food）' 能匹配 "z" 或"food"；'（z\|f）ood' 则匹配"zood" 或 "food"	不支持（同x\|y)	x\|y	x\|y	x\|y
[0-9]	匹配从 0 到 9 中的任意一个数字字符（注意：要写成递增）	[0-9]	[0-9]	[0-9]	[0-9]
[xyz]	字符集合，匹配所包含的任意一个字符，例如：'[abc]'可以匹配"lay" 中的 'a'（注意：如果元字符，例如：. *等，它们被放在[ ]中，那么它们将变成一个普通字符）	[xyz]	[xyz]	[xyz]	[xyz]
[^xyz]	负值字符集合，匹配未包含的任意一个字符（注意：不包括换行符），例如：'[^abc]' 可以匹配 "Lay" 中的'L'（注意：[^xyz]在awk 指令中则是匹配未包含的任意一个字符+换行符）	[^xyz]	[^xyz]	[^xyz]	[^xyz]
[A-Za-z]	匹配大写字母或者小写字母中的任意一个字符（注意：要写成递增）	[A-Za-z]	[A-Za-z]	[A-Za-z]	[A-Za-z]
[^A-Za-z]	匹配除了大写与小写字母之外的任意一个字符（注意：写成递增）	[^A-Za-z]	[^A-Za-z]	[^A-Za-z]	[^A-Za-z]
d	匹配从 0 到 9 中的任意一个数字字符（等价于 [0-9]）	不支持	不支持	d	d
D	匹配非数字字符（等价于 [^0-9]）	不支持	不支持	D	D
S	匹配任何非空白字符（等价于[^f v]）	不支持	不支持	S	S
s	匹配任何空白字符，包括空格、制表符、换页符等等（等价于[ f v]）	不支持	不支持	s	s
W	匹配任何非单词字符 (等价于[^A-Za-z0-9_])	W	W	W	W
w	匹配包括下划线的任何单词字符（等价于[A-Za-z0-9_]）	w	w	w	w
B	匹配非单词边界，例如：'erB' 能匹配 "verb" 中的'er'，但不能匹配"never" 中的'er'	B	B	B	B
	匹配一个单词边界，也就是指单词和空格间的位置，例如： 'er' 可以匹配"never" 中的 'er'，但不能匹配 "verb" 中的'er'
	匹配一个横向制表符（等价于 x09和 cI）	不支持	不支持
v	匹配一个垂直制表符（等价于 x0b和 cK）	不支持	不支持	v	v
	匹配一个换行符（等价于 x0a 和cJ）	不支持	不支持
f	匹配一个换页符（等价于x0c 和cL）	不支持	不支持	f	f
	匹配一个回车符（等价于 x0d 和cM）	不支持	不支持
\	匹配转义字符本身""	\	\	\	\
cx	匹配由 x 指明的控制字符，例如：cM匹配一个Control-M 或回车符，x 的值必须为A-Z 或 a-z 之一，否则，将 c 视为一个原义的 'c' 字符	不支持	不支持		cx
xn	匹配 n，其中 n 为十六进制转义值。十六进制转义值必须为确定的两个数字长，例如：'x41' 匹配 "A"。'x041' 则等价于'x04' & "1"。正则表达式中可以使用 ASCII 编码	不支持	不支持		xn
um	匹配 num，其中 num是一个正整数。表示对所获取的匹配的引用	不支持	um	um
[:alnum:]	匹配任何一个字母或数字（[A-Za-z0-9]），例如：'[[:alnum:]] '	[:alnum:]	[:alnum:]	[:alnum:]	[:alnum:]
[:alpha:]	匹配任何一个字母（[A－Za－z]），例如：' [[:alpha:]] '	[:alpha:]	[:alpha:]	[:alpha:]	[:alpha:]
[:digit:]	匹配任何一个数字（[0-9]），例如：'[[:digit:]] '	[:digit:]	[:digit:]	[:digit:]	[:digit:]
[:lower:]	匹配任何一个小写字母（[a-z]），例如：' [[:lower:]] '	[:lower:]	[:lower:]	[:lower:]	[:lower:]
[:upper:]	匹配任何一个大写字母（[A-Z]）	[:upper:]	[:upper:]	[:upper:]	[:upper:]
[:space:]	任何一个空白字符：支持制表符、空格，例如：' [[:space:]] '	[:space:]	[:space:]	[:space:]	[:space:]
[:blank:]	空格和制表符（横向和纵向），例如：'[[:blank:]]'ó'[s v]'	[:blank:]	[:blank:]	[:blank:]	[:blank:]
[:graph:]	任何一个可以看得见的且可以打印的字符（注意：不包括空格和换行符等），例如：'[[:graph:]] '	[:graph:]	[:graph:]	[:graph:]	[:graph:]
[:print:]	任何一个可以打印的字符（注意：不包括：[:cntrl:]、字符串结束符' '、EOF 文件结束符（-1），但包括空格符号），例如：'[[:print:]] '	[:print:]	[:print:]	[:print:]	[:print:]
[:cntrl:]	任何一个控制字符（ASCII 字符集中的前 32 个字符，即：用十进制表示为从 0 到31，例如：换行符、制表符等等），例如：' [[:cntrl:]]'	[:cntrl:]	[:cntrl:]	[:cntrl:]	[:cntrl:]
[:punct:]	任何一个标点符号（不包括：[:alnum:]、[:cntrl:]、[:space:]这些字符集）	[:punct:]	[:punct:]	[:punct:]	[:punct:]
[:xdigit:]	任何一个十六进制数（即：0-9，a-f，A-F）	[:xdigit:]	[:xdigit:]	[:xdigit:]	[:xdigit:]

通配符

　　文本过滤工具里，都是用正则表达式， awk，sed，grep

　　通配符多用在文件名上, ls find ,cp

通配符是先解释，再执行
通配符不匹配，会原样输出
只适用于单层路径
可用于文件名

?字符代表单个字符
*代表任意数量的字符
[...]匹配方括号之中的任意一个字符，比如[aeiou]可以匹配五个元音字母。
[start-end]表示一个连续的范围
[^...]和[!...]表示匹配不在方括号里面的字符（不包括空字符）。这两种写法是等价的
{...} 表示匹配大括号里面的所有模式，模式之间使用逗号分隔
{start..end}会匹配连续范围的字符。

　　http://www.ruanyifeng.com/blog/2018/09/bash-wildcards.html

https://www.infoq.cn/article/2011/07/regular-expressions-6-POSIX

https://www.cnblogs.com/lixuwu/p/7816335.html

https://www.cnblogs.com/finallyliuyu/archive/2013/05/27/3101220.html

ERE 和 BRE 的详细规范

POSIX 规范

包括：

几种 POSIX 流派的说明

常用 Linux/Unix 工具中的表示法

常见3中类型正则表达式比较

通配符

相关推荐

　　包括：

　　　　　　常见3中类型正则表达式比较