标签:linux
解析文本中的邮件地址和url
(1)、使用场景
从给定的文件中解析出所需要的文本是从事文本处理时常见的一项任务。诸如电子邮件地址、URL等都能够借助适合的正则表达式找出来。我们通常需要从一个包含大量无关字符及单词的电子邮件客户列表或HTML网页中将电子邮件地址解析并提取出来。
(2)、正则匹配
匹配一个电子邮件地址的正则表达式如下:
[A-Za-z0-9._]+@[A-Za-z0-9.]+\.[a-zA-Z]{2,4}
匹配HTTP URL的正则表达式如下:
http://[a-zA-Z0-9\-\.]+\.[a-zA-Z]{2,4}
(3)、示例
示例1:匹配电子邮件
[root@MuBanJi_01t]# cat a5.txt
this is aline of text contains,<email> #slynux@slynux.com. </email> andemail address,
blog"http://www.google.com", test@yahoo.com dfdfdfdddfdf;cool.hacks@gmail.com<br/>
<ahref="http://code.google.com"><h1>Heading</h1>
[root@MuBanJi_01t]# cat a5.txt |grep -E -o"[A-Za-z0-9._]+@[A-Za-z0-9.]+\.[a-zA-Z]{2,4}"
slynux@slynux.com
test@yahoo.com
cool.hacks@gmail.com
[root@MuBanJi_01t]#
示例2:匹配URL
[root@MuBanJi_01t]# cat a5.txt
this is aline of text contains,<email> #slynux@slynux.com. </email> andemail address,
blog"http://www.google.com", test@yahoo.comdfdfdfdddfdf;cool.hacks@gmail.com<br />
<ahref="http://code.google.com"><h1>Heading</h1>
[root@MuBanJi_01t]# cat a5.txt |grep -E -o"http://[a-zA-Z0-9\-\.]+\.[a-zA-Z]{2,4}"
http://www.google.com
http://code.google.com
[root@MuBanJi_01t]#
本文出自 “微小信的运维之道” 博客,请务必保留此出处http://weixiaoxin.blog.51cto.com/13270051/1963698
Linux Shell编程实战---解析文本中的邮件地址和url
标签:linux
原文地址:http://weixiaoxin.blog.51cto.com/13270051/1963698