1:引入的jar包1.X版本有hadoop-core包;而2.x没有如果你需要hdfs就引入\share\hadoop\common\lib
+hadoop-common-2.0.0-cdh4.6.0.jar +hadoop-hdfs-2.0.0-cdh4.6.0.jar
+\share\hadoo...
分类:
其他好文 时间:
2014-06-12 13:59:33
阅读次数:
255
实例描述:现有两个文件,dedu1.txt和dedu2.txt,数据文件中的每一行都是一个数据,现要对这两个文件进行去重,两个文件内容分别为(同颜色的表示重复的数据):dedu1.txt:dedu2.txt:2012-3-1a2012-3-1b2012-3-2b2012-3-2a2012-3-3c2012-3-3b2012-3-4d2012-3-4d2012-3-5a2012..
分类:
其他好文 时间:
2014-06-10 22:21:15
阅读次数:
208
现在大家可以跟我一起来实现Ubuntu 12.04下Hadoop 2.2.0
集群搭建,在这里我使用了两台服务器,一台作为master即namenode主机,另一台作为slave即datanode主机,增加更多的slave只需重复slave部分的内容即可。系统版本:master:Ubuntu
12....
分类:
其他好文 时间:
2014-06-10 22:01:07
阅读次数:
423
1.准备工作jdk:eclipse:Maven:libprotoc
:https://developers.google.com/protocol-buffers/hadoop:http://www.apache.org/dyn/closer.cgi/hadoop/common/添加开源中国mave...
分类:
系统相关 时间:
2014-06-10 17:07:37
阅读次数:
356
hadoop上进行kmeans聚类,一次迭代只使用一个mapreduce...
分类:
其他好文 时间:
2014-06-10 14:01:32
阅读次数:
236
1HDFS概述HDFS是Hadoop应用用到的一个最主要的分布式存储系统。一个HDFS集群主要由一个NameNode和很多个Datanode组成:Namenode管理文件系统的元数据,而Datanode存储
了实际的数据。本文档主要关注用户以及管理员怎样和HDFS进行交互。基本上,客户端联系Name...
分类:
其他好文 时间:
2014-06-10 12:40:13
阅读次数:
275
本文旨在介绍通过两台物理节点,实现完全分布式hadoop程序的安装部署。
分类:
其他好文 时间:
2014-06-10 10:13:49
阅读次数:
313
Map-reduce是一种优雅的数据处理方式,本文通过三个例子介绍如何用python在linux的管道进行map-reduce编程,本文写的所有map-reduce程序都可以原封不动的放在Hadoop下运行,很容易在大数据集上扩展。
分类:
其他好文 时间:
2014-06-09 19:11:44
阅读次数:
253
百亿数量级的大数据项目,软硬件总体预算只有30万左右,需求是进行复杂分析查询,性能要求多数分析请求达到秒级响应。
遇到这样的项目需求,预算不多的情况,似乎只能考虑基于Hadoop来实施。
理论上Hadoop撑住百亿数量级没问题,但想要秒级响应各种查询分析就不行了。我们先大概分析一下Hadoop的优缺...
分类:
其他好文 时间:
2014-06-09 14:32:39
阅读次数:
509