回 到 目 录最近要从网上抓取数据下来,然后hadoop来做存储和分析。每晚尽量更新呆毛王赛高月子酱赛高小唯酱赛高目录 安装hadoop1.0.3 HDFS wordcount mapreduce去重 mapreduce算平均分 mapreduce排序安装hadoop1.0.3 1 u...
分类:
其他好文 时间:
2014-07-14 15:14:34
阅读次数:
279
前言 MapReduce的源码分析是基于Hadoop1.2.1基础上进行的代码分析。 该章节会分析在MapTask端的详细处理流程以及MapOutputCollector是如何处理map之后的collect输出的数据。 map端的主要处理流程
图1 MapTask处理流程 图1所示为MapTask的主要代码执行流程,在MapTask启动后会进入入口run函数,根据是否使用...
分类:
其他好文 时间:
2014-07-14 13:31:33
阅读次数:
392
在hadoop1.2.1的安装说明中有说明要预先安装java,我安装了好多版本的java以及好多版本的hadoop,然后发现oracle-java7与hadoop1.2.1是可以匹配的。
一,安装具体步骤如下:
1. 安装java: sudo apt-get install oracle-java7-installer
2. 安装hadoop1.2.1: http://hadoop....
分类:
其他好文 时间:
2014-07-11 00:31:01
阅读次数:
265
core-site.xml
name
value
Description
fs.default.name
hdfs://hadoopmaster:9000
定义HadoopMaster的URI和端口
fs.checkpoint.dir
/opt/data/hadoop1/hdfs/namesecondar...
分类:
其他好文 时间:
2014-06-28 08:42:16
阅读次数:
285
原先使用hadoop默认设置(hadoop1.2.1),secondarynamenode会正常进行备份,定时从namenode拷贝image文件到SNN。但是具体SNN备份的时间周期和log文件的大小无法定制,后来楼主就修改了SNN的设置,将fs.checkpoint.period修改为...
分类:
其他好文 时间:
2014-06-27 16:05:28
阅读次数:
452
1、对于排名,一般都是很热衷的,那么如何实现在数据量多的情况下,得到所需要的数据呢,选取前几名的实际应用中,也会有许多,形成统一的算法实现,比着参考就可以了。2、数据文件a.txt:24679643、输出数据为(例如取前三名,前面为数据,后面为名次,名次可通过输入参数配置):9 17 26 34、设...
分类:
其他好文 时间:
2014-06-25 10:58:41
阅读次数:
194
问题导读:1. 推荐系统概述;2. 推荐系统指标设计;3. Hadoop并行算法;4. 推荐系统架构;5. MapReduce程序实现。前言Netflix电影推荐的百万美金比赛,把“推荐”变成了时下最热门的数据挖掘算法之一。也正是由于Netflix的比赛,让企业界和学科界有了更深层次的技术碰撞。引发...
分类:
其他好文 时间:
2014-06-25 09:46:57
阅读次数:
329
部署安装了最新稳定版hadoop2.2.0,然后在网上找来fuse-dfs编译教程,但是最后失败了,至今原因未知~~,错误描述为:Transport endpoint is not connected。后将安装部署hadoop1.2.1版本,最后测试成功,记录如下:
使用root完成一下操作:
1、安装依赖包
apt-get install autoconf automake libtool...
分类:
其他好文 时间:
2014-06-25 08:17:08
阅读次数:
302
1、继承自上一篇,需要参考一下,就去看看。2、增加数据量,实现相同商品ID的依据升序输出数据文件 1.txt:001={001,002,004,006,008} 003={003,002,001,009,004}001={001,002,004,006,008} 004={004,005,006.....
分类:
其他好文 时间:
2014-06-24 11:14:31
阅读次数:
167
1、如题,这是自己通过在QQ交流上得到的一个想法。2、数据文件 1.txt:001={001,002,004,006,008} 003={003,002,001,009,004}002={002,003,005,006,008,009,007} 004={004,005,006,009,008,.....
分类:
其他好文 时间:
2014-06-24 11:10:40
阅读次数:
122