HDFS的distcp命令

时间：2016-01-19 00:18:44 阅读：637 评论：0 收藏：0 [点我收藏+]

标签：

　　Java API等多种接口对HDFS访问模型都集中于单线程的存取，如果要对一个文件集进行操作，就需要编写一个程序来执行并行操作。HDFs提供了一个非常实用的程序——distcp ,用来在Hadoop文件系统中并行地复制大数据量文件。distcp一般适用于在两个HDFS集群间传送数据的情况。如果两个集群都运行在同一个Hadoop版本上，那么可以使用HDFS模式:

　　hadoop distcp hdfs://NameNode1/foo hdfs://NameNode2/bar

　　这条命令会将第一个集群中的/foo文件夹以及文件央下的文件复制到第二个集群中的/bar目录下，即在第二个集群中会以/bar/foo的目录结构出现。如果/bar目录不存在，则系统会新建一个。也可以指定多个数据源，并且所有的内容都会被复制到目标路径。需要注意的是，源路径必须是绝对路径。即 hdfs://NameNode1/foo

　　默认情况下，虽然distcp会跳过在目标路径上已经存在的文件，但是通过-overwirte选项可以选择对这些文件进行覆盖重写，也可以使用，-update选项仅对更新过的文件进行重写。

　　distcp操作有很多选项可以设置，比如忽略失败、限制文件或者复制的数据量等。直接输入指令或者不附加选项则可以查看此操作的使用说明。即distcp。具体实现时，distcp操作会被解析为一个MapReduce操作来执行，当没有Reducer操作时，复制操作被作为Map操作并行地在集群节点中运行。因此，每个文件都可被当做一个Map操作来执行复制操作。而distcp会通过执行多个文件聚集捆绑操作，尽可能地保证每个Map操作执行相同数量的数据。那么，执行distcp时，Map操作如何确定呢?由于系统需要保证每个Map操作执行的数据量是合理的，来最大化地减少Map执行的开销，而按规定，每个Map最少要执行256MB的数据量(除非复制的全部数据量小于256MB)。比如要复制1GB的数据，那么系统就会分配4个Map任务，当数据量非常大时，就需要限制执行的Map任务数，以限制网络带宽和集群的使用率。默认情况下，每个集群的一个节点最多执行20个Map任务。比如，要复制1000GB数据到100节点的集群中，那么系统就会分配2000个Map任务(每个节点20个)，也就是说，每个节点会平均复制512MB。还可以通过调整distcp的-m参数来减少Map任务量，比如-m 1000就意味着分配1000个Maps,每个节点分配1GB数据量。

　　如果尝试使用distcp进行HDFS集群间的复制，使用HDFS模式之后，HDFS运行在不同的Hadoop版本之上，复制将会因为RPC系统的不匹配而失败。为了纠正这个错误，可以使用基干HTTP的HFTP进行访问。因为任务要在目标集群中执行，所以HDFS的RPC版本需要匹配，在HFTF模式下运行的代码如下:

　　hadoop distcp hftp://NameNode1:50070/foo hdfs://NameNode2/bar
　　需要注惫的是，要定义访问源的URI中NameNode的网络接口，这个接口会通过dfs.http.address的属性值设定，默认值为50070.

HDFS的distcp命令

标签：

原文地址：http://www.cnblogs.com/zlslch/p/5140849.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行