最近在研究hadoop时,发现hadoop的版本很混乱。原来的版本都说0.X.X开始,后来发现有1.X.X和2.X.X 这样就不太清楚了。
0.20.2版本以前(不含该版本)的配置文件都在default.xml中。
0.20.x以后的版本不含有eclipse插件的jar包,由于eclipse的版本不一,所以就需要自己编译源码生成对应的插件。
0.20.2——0.22.x版本的配置文件集中在conf/core-site.xml、 conf/hdfs-site.xml 和 conf/mapred-site.xml. 中。
0.23.x 版本有添加了yarn技术,配置文件集中在 conf/core-site.xml, conf/hdfs-site.xml, conf/yarn-site.xml and conf/mapred-site.xml.这4个文件上,好像技术变化比较大,但修改了什么技术我不清楚,希望有大侠解答。同时他也对目录的更新做了相应的变化(仿linux),目录结构更加的清晰了然。
也许正式0.23.x版本的变化比较大,也许修改或添加了新的技术。让很多基于hadoop的一些插件难以兼容,如hive、hbase、pig等都基于0.23.x以前的版本。然而以前的版本又要更新,所以在更新版本上不知道使用什么版本编号?
所以apache就开始统一版本号,这样从版本号就可以区分hadoop的功能。
0.22.x 直接升级到1.0.0
0.23.x 直接升级到2.0.0
这样就把hadoop分为两个版本 1和2
1版本:主要基于原来的技术的升级和发展,同时支持其它技术的支持。如果想用hbase、hive等技术就只有选择 版本1
2版本:主要基于新技术的推广和发展,如果只是基于hadoop开发,这个是一个很好的选择。
以上只代表个人的理解和观点,同时也只对版本的变化表面说明,最技术上的变化就不懂了!
Ok ,希望能给你带来点收获,如果不对,就不要往心里去,这样会误导你。高人指点。
原文地址:http://blog.csdn.net/hello_world_it/article/details/37592089