JS正则概念全解读

js正则表达式的常见概念包括贪婪匹配、非贪婪匹配、反向引用,预搜索、反向预搜索、匹配次数、特殊转义等等,下面就来一一解读。

js正则转义字符

\A匹配输入字符串的开始位置

\Z匹配输入字符串的结束位置

\b匹配一个单词边界

\d 匹配任何一个数字

\D与\d相反,所有非数字

\s匹配空白字符

\S与\s相反,所有非空白字符

\w任何单个字符

\W与\w相反,非字母数字

\cx 匹配由x指明的控制字符,如,\cM 匹配一个 Control-M 或回车符,x 的值必须为 A-Z 或 a-z 之一。否则,将 c 视为原义的 'c' 字符。

\f 匹配一个换页符,等价于 \x0c 和 \cL。

\n 匹配一个换行符,等价于 \x0a 和 \cJ。

\r 匹配一个回车符,等价于 \x0d 和 \cM。

\t 匹配一个制表符,等价于 \x09 和 \cI。

\v 匹配一个垂直制表符,等价于 \x0b 和 \cK。

js正则贪婪匹配

/<.*>/

表达式匹配从小于符号 (<) 到大于符号 (>) 之间的所有内容。

js正则非贪婪匹配

/<.*?>/

只检出开始和结束之间的第一次匹配。

js正则反向引用

表达式在匹配时,表达式引擎会将小括号 “( )” 包含的表达式所匹配到的字符串记录下来。在获取匹配结果的时候,小括号包含的表达式所匹配到的字符串可以单独获取。

“\1” 引用第1对括号内匹配到的字符串,”\2” 引用第2对括号内匹配到的字符串……以此类推。
如果一对括号内包含另一对括号,则外层的括号先排序号。换句话说,哪一对的左括号 “(“ 在前,那这一对为先。

在正则(.+)\1中,\1等于(.+)中匹配到的值,也就是连续2次相同的值。

正则查找重复字符/单词

"Is is the cost of of gasoline going up up".match(/\b([a-z]+) \1\b/ig);

表达式 "('|")(.*?)(\1)" 在匹配 " 'Hello', "World" " 时,匹配结果是:成功;匹配到的内容是:" 'Hello' "。再次匹配下一个时,可以匹配到 " "World" "。

表达式 "(\w)\1{4,}" 在匹配 "aa bbbb abcdefg ccccc 111121111 999999999" 时,匹配结果是:成功;匹配到的内容是 "ccccc"。再次匹配下一个时,将得到 999999999。这个表达式要求 "\w" 范围的字符至少重复5次,点击测试 注意与 "\w{5,}" 之间的区别。

表达式 "<(\w+)\s*(\w+(=('|").*?\4)?\s*)*>.*?</\1>" 在匹配 "<td id='td1' style="bgcolor:white"></td>" 时,匹配结果是成功。如果 "<td>" 与 "</td>" 不配对,则会匹配失败;如果改成其他配对,也可以匹配成功。

正则预搜索、不匹配,反向预搜索、不匹配

抽象意义的特殊符号:"^","$","\b",它们都有一个共同点,它们本身不匹配任何字符,只是对 "字符串的开始与结束" 或者 "字符之间的缝隙" 附加了一个条件。理解到这个概念以后,将继续介绍另外一种对 "两头" 或者 "缝隙" 附加条件的,更加灵活的表示方法。

正向预搜索

(?=xxxxx)","(?!xxxxx)"

格式:"(?=xxxxx)"

在被匹配的字符串中,它对所处的 "缝隙" 或者 "两头" 附加的条件是:所在缝隙的右侧,必须能够匹配上 xxxxx 这部分的表达式。

因为它只是在此作为这个缝隙上附加的条件,所以它并不影响后边的表达式去真正匹配这个缝隙之后的字符。

这就类似 "\b",本身不匹配任何字符。"\b" 只是将所在缝隙之前、之后的字符取来进行了一下判断,不会影响后边的表达式来真正的匹配。

表达式 "Windows (?=NT|XP)"

在匹配 "Windows 98, Windows NT, Windows 2000" 时,将只匹配 "Windows NT" 中的 "Windows ",其他的 "Windows " 字样则不被匹配。

表达式 "(\w)((?=\1\1\1)(\1))+"

在匹配字符串 "aaa ffffff 999999999" 时,将可以匹配6个"f"的前4个,可以匹配9个"9"的前7个。这个表达式可以读解成:重复4次以上的字母数字,则匹配其剩下最后2位之前的部分。当然,这个表达式可以不这样写,在此的目的是作为演示之用。

格式:"(?!xxxxx)"

所在缝隙的右侧,必须不能匹配 xxxxx 这部分表达式。

表达式 "((?!\bstop\b).)+"

在匹配 "fdjka ljfdl stop fjdsla fdj" 时,将从头一直匹配到 "stop" 之前的位置,如果字符串中没有 "stop",则匹配整个字符串。

表达式 "do(?!\w)"

在匹配字符串 "done, do, dog" 时,只能匹配 "do"。在本条举例中,"do" 后边使用 "(?!\w)" 和使用 "\b" 效果是一样的。

反向预搜索

"(?<=xxxxx)","(?<!xxxxx)"

这两种格式的概念和正向预搜索是类似的,反向预搜索要求的条件是:所在缝隙的 "左侧",两种格式分别要求必须能够匹配和必须不能够匹配指定表达式,而不是去判断右侧。

与 "正向预搜索" 一样的是:它们都是对所在缝隙的一种附加条件,本身都不匹配任何字符。

表达式 "(?<=\d{4})\d+(?=\d{4})"

在匹配 "1234567890123456" 时,将匹配除了前4个数字和后4个数字之外的中间8个数字。JScript.RegExp 不支持反向预搜索。

修饰匹配次数的特殊符号

无论是只能匹配一种字符的表达式,还是可以匹配多种字符其中任意一个的表达式,都只能匹配一次。如果使用表达式再加上修饰匹配次数的特殊符号,那么不用重复书写表达式就可以重复匹配。

使用方法

"次数修饰"放在"被修饰的表达式"后边。比如:"[bcd][bcd]" 可以写成 "[bcd]{2}"。

{n}表达式重复n次,比如:点击测试 "\w{2}" 相当于 "\w\w";点击测试 "a{5}" 相当于 "aaaaa"

{m,n}表达式至少重复m次,最多重复n次,比如:点击测试 "ba{1,3}"可以匹配 "ba"或"baa"或"baaa"

{m,}表达式至少重复m次,比如:点击测试 "\w\d{2,}"可以匹配 "a12","_456","M12344"...

? 匹配表达式0次或者1次,相当于 {0,1},比如:点击测试 "a[cd]?"可以匹配 "a","ac","ad"

+ 表达式至少出现1次,相当于 {1,},比如:点击测试 "a+b"可以匹配 "ab","aab","aaab"...

* 表达式不出现或出现任意次,相当于 {0,},比如:点击测试 "\^*b"可以匹配 "b","^^^b"...