grep及正则表达式应用总结

时间：2015-04-04 19:51:42 阅读：203 评论：0 收藏：0 [点我收藏+]

相信学习任何Linux Release操作系统的人都知道“正则表达式、扩展正则表达式”的重要作用，学习好如何利用“正则表达式”来达到我们想要达到的效果，这需要大量的实践、总结。

下面是我针对“正则表达式、扩展正则表达式”的一些认识和理解，不会罗列命令，只说自己的经验，所以简单的命令说明我只是罗列含义（相信你能看明白），重要的知识点，通过grep命令演示并附图解释，希望对看到DaMiHua博客的你有所帮助。

一、什么是正则表达式？扩展正则表达式？

其实“正则表达式”就是处理字符串的一个标准或公式，你通过“正则表达式”去筛选你想要的字符串，就好像你拿着采购清单去市场采购，清单上面写着10把红木的椅子、一个dell的电脑……，你肯定是按照清单去筛选物品，直到采购完毕，那个清单的作用就好比“正则表达式”。

“扩展正则表达式”是正则表达式的增强版，其中最主要的提升在于提供了用或“|”的形式进行查找字符串。（你只要有个概念就可以，下面会用实例来演示其应用。）

二、正则表达式“元字符”（你可以这样理解：在“正则表达式”中有特殊意义的字符！）意义说明如下：

<1>.：匹配任意单个字符

说明：无需过多解释，仅仅是一个点号。

<2>[]：匹配范围内的任意单个字符

说明：[字符集]只要在[]中的任意字符都需要匹配，比如：如果你要查找xac、xbc、xdc可以这样匹配x[abd]c，就是代表[]内提供的字符集合中的任意一个，[a-z]：代表26个小写字母中的1个，我想你应该明白了，还有很多特定含义的表示方法，如[[:alnum:]]：代表任何数字、字母中的1个字符……，想知道其它的字符集可以去Google，你懂的！

<3>*：匹配前面的字符0次、或多次

说明：.*没错点号和星号的组合代表任意字符任意次！

<4>\?：前面的字符可有可无

说明：因为？有特殊意义，所以需要\这个转义字符（什么是转义字符，Google吧！），ab\?代表a或者ab。

<5>\+：前面的字符至少出现1次

说明：和\?一样，通过转义字符实现，ab\+代表ab，abb……

<6>\{m,n\}：匹配前面的字符至少m次，至多n次

说明：ab\{1,2\}代表ab，abb。

<7>\{n\}：精确匹配前面的字符n次

说明：无需解释，一看就明白了。

<8>^：锚定行首，代表其后的字符必须出现在这行的行首，"^字符……"

说明：how areyou!

What！

如果我只想找出以h开头的行，^h，满足你的要求。

<9>$：锚定行尾，代表其前的字符必须出现在这行的行尾，"……字符$"

说明：同上说明。

<10>\<：锚定词首，其后面的任意字符必须作为单词的首部出现

<11>\>：锚定词尾，其前面的任意字符必须作为单词的尾部出现

说明：锚定词首和词尾，一并解释，单词就是非特殊符号组成的连续的字符串，这个单词的概念很重要，这个我会通过下面的实例结合说明，我认为这是一个难点。

<12>：后向引用，把（）中的内容作为一个整体去匹配，可以通过\1来代表第一个左括号与之对应的右括号所包括的内容，\2代表第二个左括号与之对应的右括号所包括的内容，\3……

说明：这个也是一个不好理解的地方，我会通过实例结合说明。

<14>[^字符集]：[^a-z]不选择小写字母，意思就是取反。

3、扩展正则表达式“元字符”如下

<1>.：匹配任意单个字符

<2>[]：匹配范围内的任意单个字符

<3>*：匹配前面的字符0次、或多次

<4>?：前面的字符可有可无

<5>+：前面的字符至少出现1次

<6>{m,n}：匹配前面的字符至少m次，至多n次

<7>{n}：精确匹配前面的字符n次

<8>^：锚定行首，代表其后的字符必须出现在这行的行首，"^字符……"

<9>$：锚定行尾，代表其前的字符必须出现在这行的行尾，"……字符$"

<10>\<：锚定词首，其后面的任意字符必须作为单词的首部出现

<11>\>：锚定词尾，其前面的任意字符必须作为单词的尾部出现

<12>()：后向引用，把（）中的内容作为一个整体去匹配，可以通过\1来代表第一个左括号与之对应的右括号所包括的内容，\2代表第二个左括号与之对应的右括号所包括的内容，\3……

<13>[^字符集]：[^a-z]不选择小写字母，意思就是取反。

<14>|：代表“或”，下面的实例会详细说明它的用法。

三、有了筛选标准还要有筛选工具，也就是处理字符串的工具，grep/awk/sed被誉为在Linux中处理字符串的“三驾马车”，以grep为例，下面是说明：

<1>首先介绍一下grep的基本使用方法：

grep [OPTIONS] PATTERN[FILE...]

[OPTIONS]

--color=auto/always/never：用颜色显示匹配到的字符串（非常好用的功能，捕获的字符串带有颜色显示。）

-o：只显示匹配到的字符串

-i：忽略大小写

-v：显示不能被模式匹配到的行

-E：使用扩展的正则表达式，还可以使用egrep代替grep -e

-A #：匹配到的行和之后的#行

-B #：匹配到的行和之前的#行

-C #：匹配到的行和前后各#行

PATTERN：文本字符和正则表达式的元字符组成的匹配条件。

<2>grep和egrep工作在贪婪模式，也就是最长匹配原则，如果你的搜索条件是a.*b（意思是找a中间是任意字符b结束的字符串，你应该懂的）搜索的字符串是abxxxxbssdebxx匹配的结果应该是abxxxxbssdeb。

四、以下的实例是我在学习正则表达式时候经常出现的问题，汇总说明如下：

<1>不理解或“|”的用法，不理解词首、词尾的锚定。我想要查找/etc/passwd中含有fedora或者root或者user1这三个单词的行，请体会我下面的两段代码查找模式。

图1

说明：也许你已经看出来了，图1这段代码是错的，因为xuser1、fedoraaca和/root（中的root这个字符串）都已经查找出来了，其实这段代码的意思是查找以fedora为词首的单词或者root这个字符串或者以user1为词尾的单词，这不是我想要的结果，图2是正确的代码，仔细体会一下，分组中的数据作为一个整体，配合在锚定词首和词尾，查找完整的单词。