2015-12-15 hadoop注意事项小结(续12-11) 5.hadoop平台使用的是基于facebook的版本,有些api或api的行为与apache版本有些不同 ①分布式缓存需要使用DistributedCache.addSharedxxx,如addSharedCacheArchive、addSharedArchiveToClassPath。而不是通常的addCacheArchive,不加上“shared”是似乎无法使用缓存机制(已实验)。 ②facebook版本使用coronajobtracker,类似于mapreduce v2版本的yarn。 coronajobtracker有三种模式: - In-process: In this mode, the CJT performs its entire functionality in the same process as the JobClient - Forwarding: In this case, the CJT just forwards the calls to a remote CJT. - Standalone: This is the remote CJT that is serving the calls from the forwarding CJT. hadoop客户端机器(05v)默认配置mapred.coronajobtracker.forceremote=true,意味着coronajobtracker强制启动远程模式(Forwarding),这样设置虽然便于集中管理,但对于小mr任务(默认map数小于1000)有些浪费资源。 对于小任务可以使用In-process模式,即forceremote=false且保证map数小于1000(此阈值可设置)。