使用hadoop版本为2.2.0
倒排索引简单的可以理解为全文检索某个词
例如:在a.txt 和b.txt两篇文章分别中查找统计hello这个单词出现的次数,出现次数越多,和关键词的吻合度就越高
现有a.txt内容如下:
hello tom
hello jerry
hello kitty
hello world
hello tom
b.txt内容如下:
hello jerry
...
分类:
其他好文 时间:
2015-03-19 16:23:47
阅读次数:
162
文件列表命令:如果你想看到所有的字目录,则可以使用Hadoop的lsr命令:在本地的文件系统创建一个名为example.txt的文本文件,用Hadoop的命令put将它从本地文件系统复制到HDFS上去:注意命令最后一个参数是一个句点(.)。这意味着我把文件放入了默认的工作目录,等价于 bin/had...
分类:
其他好文 时间:
2015-03-04 18:17:49
阅读次数:
104
单机模式所需要的系统资源是最少的,这种安装模式下,Hadoop的core-site.xml、mapred-site.xml、hdfs-site.xml配置文件均为空。默认情况下,官方hadoop-1.2.1.tar.gz文件默认使用的就是单机安装模式。当配置文件为空时,Hadoop完全运行在本地,不与其他节点交互,也不使用Hadoop文件系统,不加载任何守护进程,该模式主要用于开发调试MapRedu...
分类:
其他好文 时间:
2015-03-04 09:50:35
阅读次数:
196
介绍如何用ansible的playbook实现自动decommissionhadoop的node?正文对于如何部署安装ansible,请看http://haohaozhang.blog.51cto.com/9176600/1610499hadoop部署,请看http://haohaozhang.blog.51cto.com/9176600/1607089使用hadoop用户创建目录ansible_decom,里面的目录结构..
分类:
其他好文 时间:
2015-02-10 02:03:57
阅读次数:
480
请大家不要再纠结于一块磁盘能保存多少数据或者企业到底会不会采用Hadoop。关于大数据的真正问题在于,企业用户将如何使用Hadoop、我们的系统到底能在智能化道路上走多远、我们又该如何保证这一切都处于控制之下。过去几年当中,大数据技术已经迎来长足发展;从一个乐观积极的流行词汇变成人见人恨的疑难杂症,...
分类:
其他好文 时间:
2015-02-06 14:36:58
阅读次数:
178
一、业务说明
使用Hadoop2及其他开源框架,对本地的日志文件进行处理,将处理后需要的数据(PV、UV...)重新导入到关系型数据库(Mysql)中,使用Java程序对结果数据进行处理,组织成报表的形式在数据后台进行展示。
二、为什么使用Hadoop(开发动机)
现有的日志处理方式,是采用纯的java程序来计算的,对于大数据的日志文件来说,这种方案在处理速度、IO占用、数据备份及资源...
分类:
数据库 时间:
2015-02-05 20:34:11
阅读次数:
280
1.创建文件夹 private static final String PATH = "hdfs://hadoop:9000/"; private static final String DIR = "/d2"; public static void main(String...
分类:
其他好文 时间:
2015-01-19 00:12:26
阅读次数:
263
使用hadoop 进行页面的pv uv 计算
不推荐的做法
将访问者的cookie放在hashmap中进行去重计算uv,因为当访问量大时,会将hashmap撑爆,报出
java.lang.OutOfMemoryError: Java heap space
推荐做法:
使用textpair 将cookie作为second key 进行排序,在reduce中进行判断,如果上一个co...
分类:
其他好文 时间:
2015-01-18 11:55:00
阅读次数:
224
Hadoop-2.0目录简介一、目录结构将下载的压缩包解压:解压后文件夹如下:二、各文件夹目录结构1、bin:Hadoop2.0的最基本管理脚本和使用脚本所在目录。这些脚本是sbin目录下管理脚本的基础实现,我们可以直接用这些脚本管理和使用Hadoop。2、etc:这个目录里的文件只要接触过Hado...
分类:
其他好文 时间:
2015-01-17 23:26:23
阅读次数:
188
1.概述 使用hadoop已经有一段时间了,从最开始懵懂到迷茫,再到各种阅读与写作,再到如今各种组合应用,逐渐已经离不开hadoop了,hadoop在大数据行业的成功,加速了它本身的发展,各大社区都能见到hadoop的身影。现在hadoop的家族成员已经达到20多个了。 因此,对自己所掌握的知识.....
分类:
其他好文 时间:
2015-01-13 12:09:30
阅读次数:
194