码迷,mamicode.com
首页 > 其他好文 > 详细

黑马程序员——正则表达式 Regex

时间:2015-05-08 09:41:08      阅读:101      评论:0      收藏:0      [点我收藏+]

标签:java   正则表达式   regex   爬虫   

      正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。
给定一个正则表达式和另一个字符串,我们可以达到如下的目的:
1. 给定的字符串是否符合正则表达式的过滤逻辑(称作“匹配”);
2. 可以通过正则表达式,从字符串中获取我们想要的特定部分。
    正则表达式的特点是:
1. 灵活性、逻辑性和功能性非常的强;
2. 可以迅速地用极简单的方式达到字符串的复杂控制。
3. 对于刚接触的人来说,比较晦涩难懂。
由于正则表达式主要应用对象是文本,因此它在各种文本编辑器场合都有应用,小到著名编辑器EditPlus,大到Microsoft Word、Visual Studio等大型编辑器,都可以使用正则表达式来处理文本内容。
 作用:专门操作字符串,简单便捷;
 好处:可以简化对字符串的复杂操作;
 弊端:符号定义越多,正则越长,阅读性越差。
  正则表达式中一些常见符号的用法:
[bcd]:表示字符串第一个字符时能是b或c或d,且只能有一个字符 。
 \d  代表数字0-9    ,   ?表0次或1次, *代表0次或多次  ,+表示  一次或多次。
 
具体操作功能:
 * 1.匹配 :String matches方法 ,用规则匹配整个字符串,只要有一次不匹配就结束;
    需求:对QQ号码校验,要求5~15位,0不能开头,只能是数字,实例代码如下:
public class RegexDemo {

	public static void main(String[] args) {
		 checkQQ();
<span style="font-family:Microsoft YaHei;">                }</span>
                    public static void checkQQ()
	            {
			String qq="32430";
			String Regex = "[1-9][0-9]{4,14}"; //第一位是1-9,第二位是0-9,控制在4-14个
			//String Regex = "[1-9]\\d{4,14}";
			boolean flag = qq.matches(Regex);
			if(flag)
				System.out.println(qq+"合法");
			else
				System.out.println(qq+"不合法");
	             }
	

}


  2.切割:
    String reg = "  +";    //按照多个空格来切割
    String reg = "\\.";  //用.切割
    String reg = "(.)\\1+";    //按照叠词切割,为了让规则的结果被重用,将规则封装成一个组,用()完成,组的出现都有编号,从1开始,要想使用已有的组,通过\n(n就是组的编号)的形式获取.
实例代码如下:
public class RegexDemo {

	public static void main(String[] args) {
              spiltDemo( "xiaoming     xiaoqiang   xiaohong", "  +");//按照多个空格来切割
<span style="font-family:Microsoft YaHei;">                  }</span>
 public static void spiltDemo(String str,String reg)
	{
			<span style="font-family:Microsoft YaHei;"></span>
			String [] arr = str.split(reg);
			System.out.println(arr.length);
			for  (String s: arr)
			{
				System.out.println(s);
			}
	}
<span style="font-family:Microsoft YaHei;">}</span>

  3.替换 replaceAll();
 
public class RegexDemo {

	public static void main(String[] args) {
                String str1= "sdkaj234567dsflk5678";
		String regex1 ="\\d{1,}";
		String replacement1 = "#";  //将字符串中数字替换成#
		replaceAllDemo(str1, regex1, replacement1);
		
		String str2= "sdhhhjollll";
		String regex2 ="(.)\\1+";     //.代表任意字符
		String replacement2 = "$1";  //重复的字符替换成单个字符  hhh-->h
		replaceAllDemo(str2,regex2,replacement2);
	}
public static void replaceAllDemo(String str, String regex, String replacement)  //替换方法
	{
		str = str.replaceAll(regex, replacement);
		System.out.println(str);
	}
<span style="font-family:Microsoft YaHei;">}</span>
程序运行结果:
sdkaj#dsflk#
sdhjol

4.正则表达式的获取功能,表示获取字符串中特定规则的子串
代码实现如下:
import java.util.regex.*;
public class RegexDemo2 {

	public static void main(String[] args) {
		getDemo();
	}
	public static void getDemo()
	{
		String str = "wo yao tong zhi shi jie ";
		String reg = "\\b[a-z]{4}\\b";  //获取连续四个字符组成的单词,\\b表示单词边界
		 
		Pattern p = Pattern.compile(reg);  //将规则封装成对象
		Matcher m = p.matcher(str) ;  //让正则对象和要作用的字符串相关联,获取匹配器对象
		
		while (m.find())  //将规则作用到字符串上,并进行符合规则的子串查找
		{
			System.out.println(m.group());  //获取匹配后结果
			System.out.println(m.start()+"......"+m.end());;  //获取开始和结束的角标
		}
				
	}

}
程序运行结果:
tong
7......11

正则表达式会有很多实际的用途,可以校验IP地址和邮箱名,下面是两个练习,巩固正则表达式的应用。
需求1:将ip地址进行地址段顺序的排序
 IP地址: 192.168.1.34    102.67.46.1   45.78.1.0    35.156.229.56
 还按照字符串自然顺序,只要让它们每一段都是3位即可
 思路:1.按照每一段需要的最多的0补齐,那么每一段就会至少保证有3位;
 2.将每一段只保留3位,这样所有ip地址每一段都是3位。
需求2:对邮箱地址校验。程序实现如下:
public class RegexTest {

	public static void main(String[] args) {
		 <span style="font-family:Microsoft YaHei;">   </span>   ipsort();
		     checkMail();
	}
	 public static void ipsort()
	 {
		 String ip = "192.168.1.34    102.67.46.1   45.78.1.0    35.156.229.56";
		 ip = ip.replaceAll("(\\d+)", "00$1");  //将一个或多个数字替换成00加原数字
		 System.out.println(ip);
		 
		 ip= ip.replaceAll("0*(\\d{3})","$1");   //将00192等替换成192
		 System.out.println(ip);
		 
		 String[] arr = ip.split(" +");  //按空格切割
		 TreeSet<String> ts = new TreeSet<String>();  //利用TreeSet 按自然顺序排序
		 for (String s : arr)
		 {
			 ts.add(s);  //将arr中切割过的字符串添加到ts中
		 }
		 for(String s : ts)
		 {
			 System.out.println(s.replaceAll("0*(\\d+)","$1"));  //将001等还原为1
		 }
	}
	 
	 /*
	  * 需求:对邮箱地址校验
	  * */
	 public static void checkMail()
	 {
		 String mail = "hpu186@163.com.cn";
		 String reg = "[a-zA-Z0-9_]+@[a-zA-Z0-9]+(\\.[a-zA-Z]+)+";  //精确匹配
		// String reg ="\\w+@\\w+(\\.\\w+)+";  //相对粗糙的匹配
		 System.out.println(mail.matches(reg));
	 }
}
运行结果:
35.156.229.56
45.78.1.0
102.67.46.1
192.168.1.34
true

正则表达式的一个重要应用就是制作爬虫工具,在指定的文本或者网页上获取想要的信息,有些黑客的感觉哈哈,程序实现如下:
import java.io.*;
import java.net.*;
 
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegexText2 {
	public static void main(String[] args)  throws Exception
	{
		getMails_1();
		getMails_2();
	}
	
	public static void getMails_2() throws Exception   //获取指定网页中邮箱地址
	{
		URL url = new URL("http://zhidao.baidu.com/question/518382624466008525.html?fr=iks&word=%D3%CA%CF%E4%C3%FB&ie=gbk");
		URLConnection conn = url.openConnection();
		BufferedReader bufIn = new BufferedReader(new InputStreamReader(conn.getInputStream()));
		String line = null;
		String regex ="\\w+@\\w+(\\.\\w+)+"; 
		Pattern p = Pattern.compile(regex);
		
		while((line =bufIn.readLine())!=null)  //每读一行就匹配一次
		{
			Matcher m = p.matcher(line) ;
			while(m.find())
			{
				System.out.println(m.group());
			}
		}
		bufIn.close();
	}
	
	
	
	public static void getMails_1() throws Exception   //获取指定文件中邮箱地址
	{
	 
		BufferedReader bufr = new BufferedReader(new FileReader("mail.txt"));
		String line = null;
		String regex ="\\w+@\\w+(\\.\\w+)+"; 
		Pattern p = Pattern.compile(regex);
		
		while((line =bufr.readLine())!=null)  //每读一行就匹配一次
		{
			Matcher m = p.matcher(line) ;
			while(m.find())
			{
				System.out.println(m.group());
			}
		}
		bufr.close();
	}

}






 

黑马程序员——正则表达式 Regex

标签:java   正则表达式   regex   爬虫   

原文地址:http://blog.csdn.net/hpu186/article/details/45566789

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!