码迷,mamicode.com
首页 > 其他好文 > 详细

grep及正则表达式应用总结

时间:2015-04-04 19:51:42      阅读:203      评论:0      收藏:0      [点我收藏+]

标签:正则表达式 grep linux

相信学习任何Linux Release操作系统的人都知道“正则表达式、扩展正则表达式”的重要作用,学习好如何利用“正则表达式”来达到我们想要达到的效果,这需要大量的实践、总结。

下面是我针对“正则表达式、扩展正则表达式”的一些认识和理解,不会罗列命令,只说自己的经验,所以简单的命令说明我只是罗列含义(相信你能看明白),重要的知识点,通过grep命令演示并附图解释,希望对看到DaMiHua博客的你有所帮助。

一、什么是正则表达式?扩展正则表达式?

其实“正则表达式”就是处理字符串的一个标准或公式,你通过“正则表达式”去筛选你想要的字符串,就好像你拿着采购清单去市场采购,清单上面写着10把红木的椅子、一个dell的电脑……,你肯定是按照清单去筛选物品,直到采购完毕,那个清单的作用就好比“正则表达式”。

“扩展正则表达式”是正则表达式的增强版,其中最主要的提升在于提供了用或“|”的形式进行查找字符串。(你只要有个概念就可以,下面会用实例来演示其应用。)

二、正则表达式“元字符”(你可以这样理解:在“正则表达式”中有特殊意义的字符!)意义说明如下:

<1>.:匹配任意单个字符

说明:无需过多解释,仅仅是一个点号。

<2>[]:匹配范围内的任意单个字符

说明:[字符集]只要在[]中的任意字符都需要匹配,比如:如果你要查找xacxbcxdc可以这样匹配x[abd]c,就是代表[]内提供的字符集合中的任意一个,[a-z]:代表26个小写字母中的1个,我想你应该明白了,还有很多特定含义的表示方法,如[[:alnum:]]:代表任何数字、字母中的1个字符……,想知道其它的字符集可以去Google,你懂的!

<3>*:匹配前面的字符0次、或多次

说明:.*没错点号和星号的组合代表任意字符任意次!

<4>\?:前面的字符可有可无

说明:因为?有特殊意义,所以需要\这个转义字符(什么是转义字符,Google吧!),ab\?代表a或者ab

<5>\+:前面的字符至少出现1

说明:和\?一样,通过转义字符实现,ab\+代表ababb……

<6>\{m,n\}:匹配前面的字符至少m次,至多n

说明:ab\{1,2\}代表ababb

<7>\{n\}:精确匹配前面的字符n

说明:无需解释,一看就明白了。

<8>^:锚定行首,代表其后的字符必须出现在这行的行首,"^字符……"

说明:how areyou!

      What

如果我只想找出以h开头的行,^h,满足你的要求。

<9>$:锚定行尾,代表其前的字符必须出现在这行的行尾,"……字符$"

说明:同上说明。

<10>\<:锚定词首,其后面的任意字符必须作为单词的首部出现

<11>\>:锚定词尾,其前面的任意字符必须作为单词的尾部出现

说明:锚定词首和词尾,一并解释,单词就是非特殊符号组成的连续的字符串,这个单词的概念很重要,这个我会通过下面的实例结合说明,我认为这是一个难点。

<12>\(\):后向引用,把()中的内容作为一个整体去匹配,可以通过\1来代表第一个左括号与之对应的右括号所包括的内容,\2代表第二个左括号与之对应的右括号所包括的内容,\3……

说明:这个也是一个不好理解的地方,我会通过实例结合说明。

<14>[^字符集][^a-z]不选择小写字母,意思就是取反。

3、扩展正则表达式“元字符”如下

<1>.:匹配任意单个字符

<2>[]:匹配范围内的任意单个字符

<3>*:匹配前面的字符0次、或多次

<4>?:前面的字符可有可无

<5>+:前面的字符至少出现1

<6>{m,n}:匹配前面的字符至少m次,至多n

<7>{n}:精确匹配前面的字符n

<8>^:锚定行首,代表其后的字符必须出现在这行的行首,"^字符……"

<9>$:锚定行尾,代表其前的字符必须出现在这行的行尾,"……字符$"

<10>\<:锚定词首,其后面的任意字符必须作为单词的首部出现

<11>\>:锚定词尾,其前面的任意字符必须作为单词的尾部出现

<12>():后向引用,把()中的内容作为一个整体去匹配,可以通过\1来代表第一个左括号与之对应的右括号所包括的内容,\2代表第二个左括号与之对应的右括号所包括的内容,\3……

<13>[^字符集][^a-z]不选择小写字母,意思就是取反。

<14>|:代表“或”,下面的实例会详细说明它的用法。

三、有了筛选标准还要有筛选工具,也就是处理字符串的工具,grep/awk/sed被誉为在Linux中处理字符串的“三驾马车”,以grep为例,下面是说明:

<1>首先介绍一下grep的基本使用方法:

grep [OPTIONS] PATTERN[FILE...]

     [OPTIONS]

       --color=auto/always/never:用颜色显示匹配到的字符串(非常好用的功能,捕获的字符串 带有颜色显示。)

       -o:只显示匹配到的字符串

       -i:忽略大小写

       -v:显示不能被模式匹配到的行

       -E:使用扩展的正则表达式,还可以使用egrep代替grep -e

       -A #:匹配到的行和之后的#

       -B #:匹配到的行和之前的#

       -C #:匹配到的行和前后各#

PATTERN:文本字符和正则表达式的元字符组成的匹配条件。

<2>grepegrep工作在贪婪模式,也就是最长匹配原则,如果你的搜索条件是a.*b(意思是找a中间是任意字符b结束的字符串,你应该懂的)搜索的字符串是abxxxxbssdebxx匹配的结果应该是abxxxxbssdeb

四、以下的实例是我在学习正则表达式时候经常出现的问题,汇总说明如下:

   <1>不理解或“|”的用法,不理解词首、词尾的锚定。我想要查找/etc/passwd中含有fedora或者root或者user1这三个单词的行,请体会我下面的两段代码查找模式。

技术分享

1

说明:也许你已经看出来了,图1这段代码是错的,因为xuser1fedoraaca/root(中的root这个字符串)都已经查找出来了,其实这段代码的意思是查找以fedora为词首的单词或者root这个字符串或者以user1为词尾的单词,这不是我想要的结果,图2是正确的代码,仔细体会一下,分组中的数据作为一个整体,配合在锚定词首和词尾,查找完整的单词。

技术分享

2

  <2>3的代码,充分利用egrep的贪婪模式取出路径的目录名(/etc/passwd/etc/就是目录名,查找路径名的命令是dirname,查找基名的命令是basename,可以man一下其用法)。

技术分享

3

说明:.*/不管你有多少个目录分隔符/,我只提取最后一个,找出目录名,另外代码的含义,看看就应该明白。

<3>利用字符集、词首词尾锚定,定义合理的IP地址,这道题也是需要充分理解什么是锚定词首、词尾,并结合“|”或应用的一道题。

技术分享

4

<4>5是分组引用的利用,找出/etc/passwd中以一个单词开头并以相同单词结尾的行,我已经做了alias grep=grep –color=auto,所以你看到的筛选结果会有颜色。

技术分享

5

 说明:相信你已经看明白了其中的含义。

总结:如果你和我一样也是一个刚刚踏入Linux奇妙世界的人来说,应该花时间去真正理解这些正则表达式中“元字符”的意义,他们就好像阿拉伯数字一样,组合的形式多种多样,所以数学才那么深奥,如果没有理解这些“元字符”的意义,盲目的写模式,你会浪费很多时间和精力。

以上的内容其实是针对那些有一些正则表达式基础的“战友”看的,我觉得网上的内容只是解惑,给你某些方面的灵感,想要弄懂正则表达式或者grep的用法,只有找一本详细的资料,塌心学习,如果你根本没用过正则表达式,那你很难完全明白以上的内容。

我只是用我的语言描述了自己理解的正则表达式,如果有需要交流的“战友”可以留名(本人qq865765761)!共同学习Linux


grep及正则表达式应用总结

标签:正则表达式 grep linux

原文地址:http://damihua.blog.51cto.com/6537272/1628958

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!