本博客hadoop版本是hadoop 0.20.2。
安装hadoop-0.20.2-eclipse-plugin.jar
下载hadoop-0.20.2-eclipse-plugin.jar文件,并添加到eclipse插件库,添加方法很简单:找到eclipse安装目录下的plugins目录,直接复制到此目录下,重启eclipse依次点击eclipse工具栏的window-----sho...
分类:
系统相关 时间:
2015-07-08 09:35:44
阅读次数:
212
map-reduce入门
map-reduce其实是一种编程范式,从统计词频(wordCount)程序来讲解map-reduce的思想最容易理解。
给定一个文件,里面的内容如下,要求统计每个单词的词频。
Hello Angela
I love you Angela
How are you Angela
map(每个单词处理为一行,key,value形...
分类:
其他好文 时间:
2015-07-01 20:41:16
阅读次数:
121
Hadoop2.4.x 实例测试 WordCount程序
分类:
其他好文 时间:
2015-06-30 12:46:46
阅读次数:
202
《机器学习实战》1top K 问题。在搜索中,我们常常需要搜索最近热门的K个搜索词,这是典型的top k问题。就可以分解成两个mapreduce.先完成统计词频,然后找出词频最高的的查询词。第一个作业是典型的WordCOUNT,第一个作业是用MAp函数。第二个任务是汇总每个map任务得到的查询词的前...
分类:
其他好文 时间:
2015-06-29 00:27:01
阅读次数:
247
首先说明下问题的情况, 1、我storm 环境已经搭建完成,在本地测试wordcount是没问题的, 2、我在wordcount中加入一个MysqlBolt,此Bolt只是简单的把 wordcount的结果存入mysql数据库中,在本地模式测试测试时,完...
分类:
数据库 时间:
2015-06-22 19:28:02
阅读次数:
263
1 package org.apache.storm.storm_core; 2 3 import java.util.Map; 4 5 import backtype.storm.task.OutputCollector; 6 import backtype.storm.task.Topol...
分类:
其他好文 时间:
2015-06-19 14:57:14
阅读次数:
186
(一)一个例子
本示例使用storm运行经典的wordcount程序,拓扑如下:
sentence-spout—>split-bolt—>count-bolt—>report-bolt
分别完成句子的产生、拆分出单词、单词数量统计、统计结果输出
完整代码请见 https://github.com/jinhong-lu/stormdemo
以下是关键代码的分析。
1、创建spout
...
本文以wordCount为例,详细说明spark创建和运行job的过程,重点是在进程及线程的创建。
实验环境搭建
在进行后续操作前,确保下列条件已满足。
1. 下载spark binary 0.9.1
2. 安装scala
3. 安装sbt
4. 安装java
启动spark-shell单机模式运行,即local模式
local模式运行非常简单,只要...
分类:
其他好文 时间:
2015-06-14 09:38:28
阅读次数:
219
//mapreduce程序
import java.io.IOException;
import java.util.StringTokenizer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop....
分类:
其他好文 时间:
2015-06-12 17:18:19
阅读次数:
134
wordcount原理:1.mapper(Object key,Object value ,Context contex)阶段2.从数据源读取一行数据传递给mapper函数的value3.处理数据并将处理结果输出到reduce中去String line = value.toString();Stri...
分类:
移动开发 时间:
2015-06-11 01:45:19
阅读次数:
289