Hadoop学习笔记0003——从Hadoop URL读取数据

时间：2015-04-11 13:19:19 阅读：176 评论：0 收藏：0 [点我收藏+]

Hadoop学习笔记0003——从Hadoop URL读取数据

从HadoopURL读取数据

要从Hadoop文件系统中读取文件，一个最简单的方法是使用java.net.URL对象来打开一个数据流，从而从中读取数据。一般的格式如下：

InputStream in = null;  
try {  
     in = new URL("hdfs://host/path").openStream();  
     // process in  
} finally {  
     IOUtils.closeStream(in);  
}<span style="font-weight: bold;">
</span>

这里还需要一点工作来让Java识别Hadoop文件系统的URL 方案，就是通过一个FsUrlStreamHandlerFactory实例来调用在URL中的setURLStreamHandler-Factory方法。这种方法在一个Java虚拟机中只能被调用一次，因此一般都在一个静态块中执行。这个限制意味着如果程序的其他部件(可能是不在你控制中的第三方部件)设置一个URLStreamHandlerFactory，我们便无法再从Hadoop中读取数据。

public class URLCat {  
  static {  
    URL.setURLStreamHandlerFactory(new FsUrlStreamHandlerFactory());  
  }  
    
  public static void main(String[] args) throws Exception {  
    InputStream in = null;  
    try {  
      in = new URL(args[0]).openStream();  
      IOUtils.copyBytes(in, System.out, 4096, false);  
    } finally {  
      IOUtils.closeStream(in);  
    }  
}  
}

我们使用Hadoop中简洁的IOUtils类在finally子句中关闭数据流，同时复制输入流和输出流之间的字节(本例中是System.out)。copyBytes方法的最后两个参数，前者是要复制的缓冲的大小，后者表示复制结束后是否关闭数据流。这里是将输入流关掉了，而System.out不需要关闭。

实例操作如下：

1、新建一个Map/Reduce Project项目

2、建立一个URLCat类，包名称com.hadoop.test

package com.hadoop.test;

import java.io.InputStream;
import java.net.URL;

import org.apache.hadoop.fs.FsUrlStreamHandlerFactory;
import org.apache.hadoop.io.IOUtils;
public class URLCat {   
	  	  static {  
	    URL.setURLStreamHandlerFactory(new FsUrlStreamHandlerFactory());  
	  }  	    
	  public static void main(String[] args) throws Exception {  
	    InputStream in = null;  
	    try {  
	      in = new URL(args[0]).openStream();  
	      IOUtils.copyBytes(in, System.out, 4096, false);  
	    } finally {  
	      IOUtils.closeStream(in);  
	    }  
	}  
}

3、测试

在URLCat界面右击选择Run As->Run Configurations

4、测试结果

Hadoop学习笔记0003——从Hadoop URL读取数据

标签：hadoop hdfs url 数据文件系统

原文地址：http://blog.csdn.net/dream_angel_z/article/details/44994325

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行