码迷,mamicode.com
首页 > Web开发 > 详细

网页爬虫

时间:2014-07-23 20:34:25      阅读:217      评论:0      收藏:0      [点我收藏+]

标签:style   blog   http   java   color   io   

/*
    网页爬虫
*/

import java.io.*;
import java.net.*;
import java.util.regex.*;

class RegexTest2
{
    public static void main(String[] args) throws Exception
    {
        getMails();
    }

    public static void getMails() throws Exception
    {
        URL url = new URL("http://www.douban.com/group/topic/16778555/");
        URLConnection conn = url.openConnection();
        BufferedReader bufr = new BufferedReader(new InputStreamReader(conn.getInputStream()));

        String line = null;
        String mailReg = "\\w+@\\w+(\\.\\w+)+";

        Pattern p = Pattern.compile(mailReg);

        while((line = bufr.readLine()) != null){
            Matcher m = p.matcher(line);
            while(m.find()){
                System.out.println(m.group());
            }
        }
    }
}

网页爬虫,布布扣,bubuko.com

网页爬虫

标签:style   blog   http   java   color   io   

原文地址:http://www.cnblogs.com/nophy/p/3863725.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!