码迷,mamicode.com
首页 > 编程语言 > 详细

Java 网络爬虫获取网页源代码原理及实现

时间:2016-03-30 16:16:13      阅读:216      评论:0      收藏:0      [点我收藏+]

标签:

Java 网络爬虫获取网页源代码原理及实现

  1.网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。

  2.那么程序获取网页的原理到底是怎么回事呢?看下面的图:客服端首先向服务器端发出Http请求,之后服务器端返回相应的结果或者请求超时客户端自己报错。

  服务器端发出的Http请求,实际上说是对服务器的文件的请求。下面的表格是一些常见的HTTP请求对应的文件。(因为第一列给出的都是主机的网址信息,主机一般都通过配置文件将该请求转换为网站主页地址index.phpindex.jsp或者index.html等)

HTTP请求

HTTP对应的文件

 http://www.baidu.com

 http://www.baidu.com/index.php

 http://www.sina.com.cn

 http://www.sina.com.cn/index.html

 http://www.cnblogs.com

 http://www.cnblogs.com/index.html

 http://ac.jobdu.com

 http://ac.jobdu.com/index.php

   3.java实现网页源码获取的步骤:

  (1)新建URL对象,表示要访问的网址。如:url=new URL("http://www.sina.com.cn");

  (2)建立HTTP连接,返回连接对象urlConnection对象。如:urlConnection = (HttpURLConnection)url.openConnection();

  (3)获取相应HTTP 状态码。如responsecode=urlConnection.getResponseCode();

  (4)如果HTTP 状态码为200,表示成功。从urlConnection对象获取输入流对象来获取请求的网页源代码。

  4.java获取网页源码代码:

 

import java.io.BufferedReader;

import java.io.InputStreamReader;

import java.net.HttpURLConnection;

import java.net.URL;

public class WebPageSource {

    public static void main(String args[]){    

        URL url;

        int responsecode;

        HttpURLConnection urlConnection;

        BufferedReader reader;

        String line;

        try{

            //生成一个URL对象,要获取源代码的网页地址为:http://www.sina.com.cn

            url=new URL("http://www.sina.com.cn");

            //打开URL

            urlConnection = (HttpURLConnection)url.openConnection();

            //获取服务器响应代码

            responsecode=urlConnection.getResponseCode();

            if(responsecode==200){

                //得到输入流,即获得了网页的内容

                reader=new BufferedReader(new InputStreamReader(urlConnection.getInputStream(),"GBK"));

                while((line=reader.readLine())!=null){

                    System.out.println(line);

                }

            }

            else{

                System.out.println("获取不到网页的源码,服务器响应代码为:"+responsecode);

            }

        }

        catch(Exception e){

            System.out.println("获取不到网页的源码,出现异常:"+e);

        }

    }

}

 

Java 网络爬虫获取网页源代码原理及实现

标签:

原文地址:http://www.cnblogs.com/chaohu13/p/5337498.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!