正则表达式学习札记二

正则表达式学习笔记二

具体参考资料：http://deerchao.net/tutorials/regex/regex.htm

几个常用的元字符：
\b:是正则表达式规定的一个特殊字符，代表单词的开头或结尾.\bhi\b可以用来查找hi这个单词.
\d:匹配0到9的数字.如\b\d{4}/\d{2}/\d{2}\b，用来匹配日期格式1984/08/28
.:匹配任意一个除换行符以外的任意字符.
*：代表的是字符的数量，如.*表示可以匹配任意的字符，匹配次数是>=0次
+：代表的是字符的数量，如.*表示可以匹配任意的字符，匹配次数是>0次
\s:匹配任意的空白符，包括空格，制表符(Tab)，换行符，中文空格.
\w:匹配字母或数字或下划线或汉字
^和$：和\b类似，只是用来匹配一个位置,^匹配目标字串的开头，$匹配目标字串的结尾，如^d{5,12}$匹配5到12位的数字，可以用来匹配QQ号

字符转义：
如果要查找元字符本身的话，如要找*那就出问题了，这时要用\来取消这些字符的特殊意义，这叫转义.
需要转义的字符有：[,],\,^,$,|,?,*,(,)

重复：
前面的*,+,{2},{5,12}表示匹配重复的方式
*：>=0次
+：>=1次
?：重复0次或1次
{n}:重复n次
{n,m}：重复n到m次

字符类：
通过前面的介绍，要想查找数字，字母，空白是简单的，因为有了对应这些字符集合的元字符，但是想匹配没有预定义元字符的字符集合怎么办,比如想查找有a,b或c的字符怎么办，很简单，只要把它们放到中括号里就可以了[abc]
我们可以轻松地指定一个字符范围，像[0-9]代表的含意与\d就是完全一致的：一位数字；同理[a-z0-9A-Z_]也完全等同于\w（如果只考虑英文的话）。
如：\(?0\d{2}[) -]?\d{8}，目的是想匹配像(010)84082812或010-84082812的电话号码，完美吗?

分枝条件：
很遗憾，上面的正则表达式用来匹配所列出的电话号码的格式并不完美，因为它也能匹配010)84082812
我们可以用分枝条件来解决这个问题：
\d{5}-\d{4}|\d{5}这个表达式用于匹配美国的邮政编码。美国邮编的规则是5位数字，或者用连字号间隔的9位数字。之所以要给出这个例子是因为它能说明一个问题：使用分枝条件时，要注意各个条件的顺序。如果你把它改成\d{5}|\d{5}-\d{4}的话，那么就只会匹配5位的邮编(以及9位邮编的前5位)。原因是匹配分枝条件时，将会从左到右地测试每个条件，如果满足了某个分枝的话，就不会去再管其它的条件了

分组：
我们已经知道怎么重复匹配单个字符(直接在字符后面加上限定符就行了)，但如果想要重复多个字符又该怎么办呢?我们可以用小括号来指定子表达式(也叫分组)，然后就可以指定这个分组的重复次数了.
(\d{1,3}\.){3}\d{1,3}是一个简单的IP地址匹配表达式。要理解这个表达式，请按下列顺序分析它：\d{1,3}匹配1到3位的数字，(\d{1,3}\.){3}匹配三位数字加上一个英文句号(这个整体也就是这个分组)重复3次，最后再加上一个一到三位的数字(\d{1,3})。
不幸的是，它也将匹配256.300.888.999这种不可能存在的IP地址。如果能使用算术比较的话，或许能简单地解决这个问题，但是正则表达式中并不提供关于数学的任何功能，所以只能使用冗长的分组，选择，字符类来描述一个正确的IP地址：((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)。

反义：
\W:匹配不是字母，数字，下划线，汉字的字符
\D:匹配任意非数字的字符
[^x]匹配除x以外的任意字符
[^abc]匹配除abc这几个字母以外的字符
如：<a[^>]+>匹配用尖括号括起来的以a开头的字符串

后向引用：
使用小括号指定一个子表达式后，匹配这个子表达式的文本(也就是此分组捕获的内容)可以在表达式或其它程序中作进一步的处理。默认情况下，每个分组会自动拥有一个组号，规则是：从左向右，以分组的左括号为标志，第一个出现的分组的组号为1，第二个为2，以此类推。后向引用用于重复搜索前面某个分组匹配的文本。例如，\1代表分组1匹配的文本你也可以自己指定子表达式的组名。要指定一个子表达式的组名，请使用这样的语法：(?<Word>\w+)(或者把尖括号换成'也行：(?'Word'\w+)),这样就把\w+的组名指定为Word了。要反向引用这个分组捕获的内容，你可以使用\k<Word>,所以上一个例子也可以写成这样：\b(?<Word>\w+)\b\s+\k<Word>\b使用小括号的时候，还有很多特定用途的语法。下面列出了最常用的一些：
捕获：(exp)，(?<name>exp)，(?:exp)
零宽断言：(?=exp)，(?<=exp)，(?!exp)，(?<!exp)
注释：(?#comment)

零宽断言：
接下来的四个用于查找在某些内容(但并不包括这些内容)之前或之后的东西，也就是说它们像\b,^,$那样用于指定一个位置，这个位置应该满足一定的条件(即断言)，因此它们也被称为零宽断言。最好还是拿例子来说明吧：
(?=exp)也叫零宽度正预测先行断言，它断言自身出现的位置的后面能匹配表达式exp。比如\b\w+(?=ing\b)，匹配以ing结尾的单词的前面部分(除了ing以外的部分)，如查找I'm singing while you're dancing.时，它会匹配sing和danc。(?<=exp)也叫零宽度正回顾后发断言，它断言自身出现的位置的前面能匹配表达式exp。比如(?<=\bre)\w+\b会匹配以re开头的单词的后半部分(除了re以外的部分)，例如在查找reading a book时，它匹配ading。

负向零宽断言：
零宽断言和负向零宽断言的关系就像\w和\W的关系
零宽度负预测先行断言(?!exp)，断言此位置的后面不能匹配表达式exp。例如：\d{3}(?!\d)匹配三位数字，而且这三位数字的后面不能是数字；\b((?!abc)\w)+\b匹配不包含连续字符串abc的单词

注释:??
小括号的另一种用途是通过语法(?#comment)来包含注释
<(\w+)> # 查找尖括号括起来的字母或数字(即HTML/XML标签)??

贪婪与懒惰:
当正则表达式中包含能接受重复的限定符时，通常的行为是（在使整个表达式能得到匹配的前提下）匹配尽可能多的字符。以这个表达式为例：a.*b，它将会匹配最长的以a开始，以b结束的字符串。如果用它来搜索aabab的话，它会匹配整个字符串aabab。这被称为贪婪匹配。
有时，我们更需要懒惰匹配，也就是匹配尽可能少的字符。前面给出的限定符都可以被转化为懒惰匹配模式，只要在它后面加上一个问号?。这样.*?就意味着匹配任意数量的重复，但是在能使整个匹配成功的前提下使用最少的重复。现在看看懒惰版的例子吧：
a.*?b匹配最短的，以a开始，以b结束的字符串。如果把它应用于aabab的话，它会匹配aab（第一到第三个字符）和ab（第四到第五个字符）

^(\\S+)\\s+((?:\\S+\\s+)*)?(\\S+)$
注意：在linux下，一个\要用两个\\来表示.

相关推荐