Ruby中使用正则表达式的基础指引

正则表达式的内建支持通常只限于脚本语言如Ruby,Perl和awk等,这是一个耻辱:尽管正则表达式很神秘,但它是一个强大的文本处理工具。通过内建而不是通过程序库接口来支持它,有很大的不同。

正则表达式只是一种指定字符模式的方法,这个字符模式会在字符串中进行匹配。在Ruby中,通常在斜线之间(/pattern/)编写模式(pattern)来创建正则表达式。同时,Ruby就是Ruby,正则表达式是对象并且可以当作对象来操作。

比如,可以使用如下的正则表达式来编写模式,它会匹配包含Perl或Python的字符串。

/Perl|Python/

前面那个斜线界定了这个模式,模式由要匹配的两个子字符串组成,它们被管道符(|)分开。管道符意味着“要么右边的字符串,要么左边的字符串”。在这个例子中,它们分别是Perl或Python。就像在算术表达式中的那样,可以在模式中使用括号,因此可以把模式写成

/P(erl|ython)/

也可以在模式中指定重复(repetition)。/ab+c/匹配一个含有a,后面跟着一个或多个b,其后是c的字符串。把模式中的加号改成星号,/ab*c/创建了一个匹配含有a,零个或多个b和然后是c的正则表达式

也可以在模式中匹配一组或多组字符。一些常见的例子是字符类(character classes)如s,它匹配空白字符(空格符、制表符、回车换行符等等);d 匹配任何数字;还有w,它匹配会出现在一个词内的任何字符。一个点(.)匹配几乎任意字符。

一旦创建了模式,不去用它总不好意思。=~匹配操作符可以用正则表达式来匹配字符串。如果在字符串中发现了模式,=~返回模式的开始位置,否则它返回nil。这意味着可以在if和while语句中把正则表达式当作条件使用。比如,如果字符串包含了Perl或Python,下面的代码输出一条消息。

if line=~/Perl|Python/

 puts "Scripting language mentioned:#{line}"

end

正则表达式匹配到的字符串部分,可以用Ruby的其中一种替换方法,替换为其他文本。

line.sub(/Perl/,'Ruby')                               #用'Ruby'替换第一个'Perl'

line.gsub(/Python/,'Ruby')                         #用'Ruby'替换所有的'Python'

使用下面语句可以用Ruby替换出现Perl和Python的每个地方。

line.gsub(/Perl|Python/,'Ruby')