Perl 正则表达式 - 蝴蝶教程

正则表达式

正则表达式是一串字符串，用于定义您正在查看的一个或多个模式。Perl中正则表达式的语法与其他正则表达式支持程序（例如sed，grep和awk）非常相似。应用正则表达式的基本方法是使用模式绑定运算符=~和!~。第一个运算符是测试和赋值运算符。

Perl 中有三个正则表达式运算符。

匹配正则表达式-m//
替换正则表达式-s///
音译正则表达式-tr///

在每种情况下，正斜杠均用作您指定的正则表达式（regex）的定界符。如果您对其他定界符感到满意，则可以使用正斜杠代替。

匹配运算符

匹配运算符m//用于将字符串或语句与正则表达式匹配。例如，要将字符序列“foo”与标量$bar匹配，可以使用如下语句：


$bar = "This is foo and again foo";
if ($bar =~ /foo/) {
   print "First time is matching\n";
} else {
   print "First time is not matching\n";
}

$bar = "foo";
if ($bar =~ /foo/) {
   print "Second time is matching\n";
} else {
   print "Second time is not matching\n";
}

尝试一下

当执行上述程序时，将产生以下结果-


First time is matching
Second time is matching

m//实际上以与q//运算符系列相同的方式工作。您可以使用自然匹配字符的任意组合充当表达式的定界符。例如，m{}，m()和m><均有效。所以上面的例子可以重写如下：


$bar = "This is foo and again foo";
if ($bar =~ m[foo]) {
   print "First time is matching\n";
} else {
   print "First time is not matching\n";
}

$bar = "foo";
if ($bar =~ m{foo}) {
   print "Second time is matching\n";
} else {
   print "Second time is not matching\n";
}

如果定界符为正斜杠，则可以从m//中省略m，但是对于所有其他定界符，必须使用m前缀。

请注意，如果整个表达式匹配，则整个match表达式（即=~或!~左侧的表达式以及match运算符）将返回true（在标量上下文中）。因此，声明-


$true = ($foo =~ m/foo/);

如果$foo匹配正则表达式，则将$true设置为1；如果匹配失败，则将$true设置为0。在列表上下文中，匹配项返回所有分组表达式的内容。例如，从时间字符串中提取小时，分钟和秒时，我们可以使用-


my ($hours, $minutes, $seconds) = ($time =~ m/(\d+):(\d+):(\d+)/);

匹配运算符修饰符

匹配运算符支持自己的一组修饰符。/g修饰符允许全局匹配。/i修饰符将使区分大小写不区分大小写。这是修饰符的完整列表

修饰符	说明
i	使区分大小写不敏感。
m	指定如果字符串具有换行符或回车符，则^和$运算符现在将匹配换行符边界，而不是字符串边界。
o	仅对表达式求值一次。
s	允许使用。匹配换行符。
x	允许您在表达式中使用空格以保持清晰度。
g	全局查找所有匹配项。
cg	即使全局匹配失败，也允许继续搜索。

只匹配一次

匹配运算符还有一个更简单的版本-?PATTERN? 操作符。这与m//运算符基本相同，除了它在每个重置调用之间搜索的字符串内仅匹配一次。例如，您可以使用它来获取列表中的第一个和最后一个元素-


@list = qw/food foosball subeo footnote terfoot canic footbrdige/;

foreach (@list) {
   $first = $1 if /(foo.*?)/;
   $last = $1 if /(foo.*)/;
}
print "First: $first, Last: $last\n";

尝试一下

当执行上述程序时，将产生以下结果-


First: foo, Last: footbrdige

正则表达式变量

正则表达式变量包括$，它包含匹配的最后一个分组匹配的内容:$&，包含整个匹配的字符串:$`，包含匹配字符串之前的所有内容:$'，其中包含匹配字符串之后的所有内容。以下代码演示了结果-


$string = "The food is in the salad bar";
$string =~ m/foo/;
print "Before: $ ´\n";
print "Matched: $ &\n";
print "After: $ '\n";

尝试一下

当执行上述程序时，将产生以下结果-


Before: The
Matched: foo
After: d is in the salad bar

替换运算符

替换运算符s///实际上只是match运算符的扩展，它使您可以用某些新文本替换匹配的文本。运算符的基本形式是-


s/PATTERN/REPLACEMENT/;

PATTERN是我们要查找的文本的正则表达式。REPLACEMENT是我们要用来替换找到的文本的文本或正则表达式的规范。例如，我们可以更换所有出现的狗与猫使用下面的正则表达式-


$string = "The cat sat on the mat";
$string =~ s/cat/dog/;

print "$string\n";

尝试一下

当执行上述程序时，将产生以下结果-


The dog sat on the mat

替换运算符修饰符

这是与替换运算符一起使用的所有修饰符的列表。

修饰符	说明
i	使区分大小写不敏感。
m	指定如果字符串具有换行符或回车符，则^和$运算符现在将匹配换行符边界，而不是字符串边界。
o	仅对表达式求值一次。
s	允许使用。匹配换行符。
x	允许您在表达式中使用空格以保持清晰度。
g	用替换文本替换所有出现的找到的表达式。
e	像对待Perl语句一样评估替换项，并将其返回值用作替换文本。

转换运算符

转换与替代原理相似但不相同，但是与替代原理不同，翻译（或音译）不使用正则表达式搜索替代值。翻译运算符是-


tr/SEARCHLIST/REPLACEMENTLIST/cds
y/SEARCHLIST/REPLACEMENTLIST/cds

该转换将REARCHACEMENTLIST中的所有出现的字符替换为SEARCHLIST中的所有出现的字符。例如，使用“The cat sat on the mat”。我们在本章中一直使用的字符串-


$string = 'The cat sat on the mat';
$string =~ tr/a/o/;

print "$string\n";

尝试一下

当执行上述程序时，将产生以下结果-


The cot sot on the mot.

也可以使用标准Perl范围，从而允许您通过字母或数字值指定字符范围。要更改字符串的大小写，您可以使用以下语法代替uc函数。


$string =~ tr/a-z/A-Z/;

转换运算符修饰符

以下是与转换相关的运算符列表。

修饰符	说明
c	补充SEARCHLIST。
d	删除找到但未替换的字符。
s	挤压重复的替换字符。

/d修饰符删除与SEARCHLIST匹配的，在REPLACEMENTLIST中没有相应条目的字符。例如-


$string = 'the cat sat on the mat.';
$string =~ tr/a-z/b/d;

print "$string\n";

尝试一下

当执行上述程序时，将产生以下结果-


b b   b.

最后一个修饰符/s删除被替换的重复字符序列，因此-


$string = 'food';
$string = 'food';
$string =~ tr/a-z/a-z/s;

print "$string\n";

尝试一下

当执行上述程序时，将产生以下结果-

fod

更复杂的正则表达式

您不仅需要匹配固定的字符串。实际上，通过使用更复杂的正则表达式，您几乎可以匹配任何您梦昧以求的东西。这是一个快速备忘单-

下表列出了Python中可用的正则表达式语法。

模式	说明
^	匹配行首。
$	匹配行尾。
.	匹配除换行符以外的任何单个字符。使用m选项还可以使其与换行符匹配。
[...]	匹配括号中的任何单个字符。
[^...]	匹配任何不在方括号中的单个字符。
*	匹配0个或多个出现的前一个表达式。
+	匹配1个或多个出现的前一个表达式。
?	匹配0或1个出现的前一个表达式。
{ n}	精确匹配前一个表达式的n次出现。
{ n,}	匹配n个或多个出现的前一个表达式。
{ n, m}	至少匹配n个，最多匹配m个先前的表达式。
a\| b	匹配a或b。
\w	匹配单词字符。
\W	匹配非单词字符。
\s	匹配空格。等效于[\t\n\r\f]。
\S	匹配非空格。
\d	匹配数字。相当于[0-9]。
\D	匹配非数字。
\A	匹配字符串的开头。
\Z	匹配字符串的结尾。如果存在换行符，则匹配换行符。
\z	匹配字符串的结尾。
\G	比赛点，最后一场比赛结束。
\b	在方括号外时匹配单词边界。放在方括号内时，匹配退格键（0x08）。
\B	匹配非单词边界。
\n, \t, etc.	匹配换行符，回车符，制表符等。
\1...\9	匹配第n个分组的子表达式。
\10	如果已经匹配，则匹配第n个分组的子表达式。否则是指字符代码的八进制表示形式。
[aeiou]	匹配给定集合中的单个字符。
[^aeiou]	匹配给定集合外的单个字符。

^元字符匹配字符串的开头，$元符号匹配字符串的结尾。这里有一些简短的例子。


# 字符串中没有任何内容（起点和终点相邻）
/^$/   

# 三个数字，每个数字后跟一个空格
# character (eg "3 4 5 ")
/(\d\s) {3}/  

# 匹配一个字符串，其中每个
# odd-numbered letter is a (eg "abacadaf")
/(a.)+/  

# 字符串以一个或多个数字开头
/^\d+/

# 以一个或多个数字结尾的字符串
/\d+$/

让我们看另一个例子。


$string = "Cats go Catatonic\nWhen given Catnip";
($start) = ($string =~ /\A(.*?) /);
@lines = $string =~ /^(.*?) /gm;
print "First word: $start\n","Line starts: @lines\n";

尝试一下

当执行上述程序时，将产生以下结果-


First word: Cats
Line starts: Cats When

匹配边界

所述\b在任何字边界匹配，如由\W类和\W类之间的差定义的。因为\w包含单词的字符，而\W包含相反的字符，这通常意味着单词的终止。该\乙断言这不是一个单词边界的任意位置相匹配。例如-


/\bcat\b/ # Matches 'the cat sat' but not 'cat on the mat'
/\Bcat\B/ # Matches 'verification' but not 'the cat on the mat'
/\bcat\B/ # Matches 'catatonic' but not 'polecat'
/\Bcat\b/ # Matches 'polecat' but not 'catatonic'

选择替代品

| 字符就像Perl中的标准或按位或。它在正则表达式或组中指定备用匹配项。例如，要在表达式中匹配“cat”或“dog”，您可以使用以下代码-


if ($string =~ /cat|dog/)

您可以将表达式的各个元素组合在一起，以支持复杂的匹配。搜索两个人的名字可以通过两个单独的测试来完成，如下所示：


if (($string =~ /Martin Brown/) ||  ($string =~ /Sharon Brown/))

This could be written as follows

if ($string =~ /(Martin|Sharon) Brown/)

分组匹配

从正则表达式的角度来看，两者之间没有区别，只是前者稍微清晰一点。


$string =~ /(\S+)\s+(\S+)/;

和 

$string =~ /\S+\s+\S+/;

但是，分组的好处是它允许我们从正则表达式中提取序列。分组以列表在原始组中出现的顺序作为列表返回。例如，在以下片段中，我们从字符串中抽出了小时，分钟和秒。


my ($hours, $minutes, $seconds) = ($time =~ m/(\d+):(\d+):(\d+)/);

除此直接方法外，还可以在特殊的$ x变量中使用匹配的组，其中x是正则表达式中组的编号。因此，我们可以将前面的示例重写如下：


$time = "12:05:30";

$time =~ m/(\d+):(\d+):(\d+)/;
my ($hours, $minutes, $seconds) = ($1, $2, $3);

print "Hours : $hours, Minutes: $minutes, Second: $seconds\n";

尝试一下

当执行上述程序时，将产生以下结果-


Hours : 12, Minutes: 05, Second: 30

在替换表达式中使用组时，可以在替换文本中使用$x语法。因此，我们可以使用以下格式重新格式化日期字符串：


$date = '03/26/1999';
$date =~ s#(\d+)/(\d+)/(\d+)#$3/$1/$2#;

print "$date\n";

尝试一下

当执行上述程序时，将产生以下结果-


1999/03/26

\G 断言

\G 断言允许您从最后一次匹配的位置继续搜索。例如，在下面的代码中，我们使用\G，以便我们可以搜索到正确的位置然后提取一些信息，而无需创建更复杂的单个正则表达式-


$string = "The time is: 12:31:02 on 4/12/00";

$string =~ /:\s+/g;
($time) = ($string =~ /\G(\d+:\d+:\d+)/);
$string =~ /.+\s+/g;
($date) = ($string =~ m{\G(\d+/\d+/\d+)});

print "Time: $time, Date: $date\n";

尝试一下

当执行上述程序时，将产生以下结果-


Time: 12:31:02, Date: 4/12/00

\G 断言实际上只是pos函数的元符号等效项，因此在正则表达式调用之间，您可以继续使用pos，甚至可以通过将pos用作左值子例程来修改pos的值（因此也可以修改\G的值）。

正则表达式示例

字符字面量

范例	说明
Perl	匹配“Perl”

字符类

范例	说明
[Pp]ython	匹配“Python”或“python”
rub[ye]	匹配“ruby”或“rube”
[aeiou]	匹配任何一个小写的元音
[0-9]	匹配任何数字；与[0123456789]相同
[a-z]	匹配任何小写ASCII字母
[A-Z]	匹配任何大写ASCII字母
[a-zA-Z0-9]	符合以上任何条件
[^aeiou]	匹配小写元音以外的其他任何东西
[^0-9]	匹配数字以外的任何东西

特殊字符类

范例	说明
.	匹配除换行符以外的任何字符
\d	匹配数字：[0-9]
\D	匹配一个非数字：[^ 0-9]
\s	匹配空白字符：[\ t \ r \ n \ f]
\S	匹配非空格：[^ \ t \ r \ n \ f]
\w	匹配一个单词字符：[A-Za-z0-9_]
\W	匹配一个非单词字符：[^ A-Za-z0-9_]

重复案例

范例	说明
ruby?	匹配“rub”或“ruby”：y是可选的
ruby*	匹配“rub”加上0或更多ys
ruby+	匹配“rub”加上1个或多个y
\d{3}	精确匹配3位数字
\d{3,}	匹配3个或更多数字
\d{3,5}	匹配3、4或5位数字

非贪婪重复

这匹配最小的重复次数-

范例	说明
*<.&g;t**	贪婪重复：匹配“<python> perl>”
*<.?&g;t**	非贪婪：匹配“<python> perl>”中的“<python>”

用括号分组

范例	说明
\D\d+	无组：+重复\d
(\D\d)+	分组：+重复\D\d
([Pp]ython(, )?)+	匹配“Python”，“Python,python,python” 等。

反向引用

这再次匹配先前匹配的组-

范例	说明
([Pp])ython&\1ails	匹配python＆pails或Python＆Pails
*(['"])[^\1]\1**	单引号或双引号字符串。 \1匹配第一组匹配的任何内容。 \2匹配第二组匹配的任何东西，依此类推。

备择方案

范例	说明
python\|perl	匹配“python”或“perl”
rub(y\|le))	匹配“ruby”或“ruble”
Python(!+\|\?)	“Python”后跟一个或多个！还是一个？

锚点 - 这需要指定匹配位置。

范例	说明
^Python	在字符串或内部行的开头匹配“ Python”
Python$	在字符串或行的末尾匹配“ Python”
\APython	在字符串开头匹配“ Python”
Python\Z	匹配字符串末尾的“ Python”
\bPython\b	在单词边界匹配“ Python”
\brub\B	匹配\ B为非单词边界：匹配“ rube”和“ruby”中的“rub”，但不单独
Python(?=!)	匹配“Python”，如果后跟感叹号
Python(?!!)	匹配“Python”，如果没有后跟感叹号

带括号的特殊语法

范例	说明
R(?#comment)	匹配“R”。其余的都是评论
R(?i)uby	匹配“uby”时不区分大小写
R(?i:uby)	同上
rub(?:y\|le))	仅在不创建\1反向引用的情况下进行分组