正则表达式简明教程

说明：本文是我在公司技术讲座上某次分享的总结。

正则是字符串匹配模式，在处理文本时很有用。最常见的操作就是用于查找和替换。

说到处理文本，其实我们每天敲的代码就是文本，因此常用的代码编辑器的查找替换工具基本都支持正则语法的。

先说明一下，接下来的内容都以《We will rock you》的歌词测试文本。

点击展开歌词

Buddy, you're a boy make a big noise
Playing in the streets gonna be a big man someday
You got mud on your face
You big disgrace
Kicking your can all over the place
Singing
We will, we will rock you
We will, we will rock you
Buddy you're a young man, hard man
Shouting in the street gonna take on the world someday
You got blood on your face
You big disgrace
Waving your banner all over the place
We will, we will rock you

使用的正则测试工具是 Regex 101。

这里建议读者看的过程中，同时打开该网站，把歌词贴进去，每个案例都验证一遍。也建议稍微改动一下正则，看看匹配结果仍是否与自己的理解一致。跟着动手，学习效果要好一些。

1. 精确匹配

正则是用来描述字符串的一种模式（pattern），或者说规律。最平凡的用法，就是精确查找。比如我要找到歌词中的所有“the”。正则写成 the 即可。

上图只找到了一个 the，而不是所有的。这是因为正则本身是分两部分的，一部分是模式，另一部分是修饰符（flags，或者叫标志位）。一个常用的修饰符是 g，它单词 global 的简写，表示全局查找。

此时，我们找到了所有“the”。接着我们再找所有“we”。

然而，同时我们也希望找到文本中“We”，w 字符是大写的。此时可以用另外常见的标识符 i，单词 ignoreCase 或者 insensitive 的首字母，表示忽略大小写。

无论 the 或 we，这种模式匹配都是精确匹配，如果正则只是输入什么就查找什么，那么其存在的意义就没有那么大。而它的强大之处在于能实现模糊匹配。

2. 横向模糊匹配

比如我们想找到歌词中所有连续出现的“e”。

图中正则形如 p{m,n}，表示 p 至少连续出现 m 到 n 次（包括m、n）。p 可以是一个子模式，不一定只是一个字符。

上图中，为了测试我修改了部分歌词。其中正则使用了括号，括号如你所料一样，起到了高优先级的作用。表示 noise 这个整体重复出现了 1 到 3 次。

不知道此时你是否有疑问，{1,3} 表示 1 到 3 次。为啥上面的匹配结果只有一个呢？而不是匹配到 3 个 noise。又或者 noisenoise 和 noise，这两个结果呢？

这是因为量词有贪婪和惰性之分。{1,3} 这个量词是贪婪的，能满足条件的话，它会尽可能多地匹配。可以在量词的后面加个问号，让其变为惰性的。

确实够懒得的，找到一个就满足了。量词后面的这个问号，彷佛是在问量词，“可以别再贪了吗？”

量词的含义清楚了，下来我们来看一些简写形式。

* 等价于{0,}。即任意多个。
+ 等价于{1,}。即至少一个
? 等价于{0,1}。即有一个或者没有
{m} 等价于{m,m}

这里要说明的是 ? 这时就可能两个含义。即一个表示惰性模式，一个表示量词。

其实二者很好区分，在量词之后的 ? 才表示惰性匹配。比如正则 bo??y，第一个问号表示量词 {0,1}，第二个表示量词是惰性的。

量词的存在，能让正则可以模糊匹配，即很少的模式代码就能匹配一长串。我称之为横向模糊匹配。还有一种纵向的模糊匹配。

3. 纵向模糊匹配

假设歌词中有几处不小心把“rock”写成“ruck”。我们需要找到二者，可以使用字符集 r[ou]ck。效果如下：

其中 [ou]，这种方括号括起来的模式就是字符集。它是一个集合，匹配“o”或者“u”。又比如我们要找到所有 a 到 e 的字符，可以写成 [abcde]。这种连续的字符也可以简写成 [a-e]。

字符集是集合的意思，而集合有补集。正则里在方括号内开头加上脱字符，来表示取反[^a-e]，匹配一个不是 a、b、c、d、e 的某字符。

字符类的含义搞清楚了，下来我们来看一下常见的简写形式

\d 等价于 [0-9]。表示是一位数字。digit 的首字母。
\D 等价于 [^0-9]。
\w 等价于 [0-9a-zA-Z_]。表示数字、大小写字母和下划线。word的首字母，也称单词字符。
\W 等价于 [^0-9a-zA-Z_]。
\s 等价于 [ \t\v\n\r\f]。表示空白符，包括空格、水平制表符、垂直制表符、换行符、回车符、换页符。记忆方式：s是space character的首字母。
\S 等价于 [^ \t\v\n\r\f]。
. 等价于[^\n\r\u2028\u2029]。点是通配符，表示几乎任意字符。

字符集是正则实现模糊匹配的另外一种方式，具体到某一位上，要匹配的字符可以是不确定的，我称之为纵向模糊匹配。

量词和字符组掌握了话，基本上正则问题能解决一多半。这里再举一个例子。找到所有以“ing”结尾的单词。