1、前言HDF文件是遥感应用中一种常见的数据格式,因为其高度结构化的特点,笔者曾被怎样使用Hadoop处理HDF文件这个问题困扰过相当长的一段时间。于是Google各种解决方式,但都没有找到一种理想的处理办法。也曾參考过HDFGroup官方发的一篇帖子(网址在这里),里面提供了使用Hadoop针对大...
分类:
其他好文 时间:
2015-05-07 20:15:29
阅读次数:
151
一. MapReduce 作业处理过程概述 当用户在使用Hadoop 的 MapReduce 计算模型处理问题的时候,只需要设计好Mapper 和Reducer 处理函数,还有可能包括Combiner 函数。之后,新建一个Job 对象,并对Job 的运行环境进行一些配置,最后调用Job 的waitF...
分类:
其他好文 时间:
2015-05-06 17:25:42
阅读次数:
131
最近开始学习使用mapreduce统计hbase中的数据,并将结果集存入mysql中,供前台查询使用。使用hadoop版本为2.5.1,hbase版本为0.98.6.1mapreduce程序分为三个部分:job、map函数、reduce函数job类: 1 public class DayFaultS...
分类:
数据库 时间:
2015-05-05 16:11:24
阅读次数:
373
Hadoop很强大,但企业在使用Hadoop或者大数据之前,首先要明确自己的目标,再确定是否选对了工具,毕竟Hadoop不是万能的!本文中列举了几种不适合使用Hadoop的场景。随着Hadoop应用的不断拓展,使很多人陷入了对它的盲目崇拜中,认为它能解决一切问题。虽然Hadoop是一个伟大的分布式大...
分类:
其他好文 时间:
2015-05-04 21:53:02
阅读次数:
109
我使用3台Centos虚拟机搭建了一个Hadoop2.6的集群。希望在windows7上面使用IDEA开发mapreduce程序,然后提交的远程的Hadoop集群上执行。经过不懈的google终于搞定开始我使用hadoop的eclipse插件来执行job,竟然成功了,后来发现mapreduce是在本...
hive.optimize.cp=true:列裁剪,取数只取
在读数据的时候,只读取查询中需要用到的列,而忽略其他列。例如,对于查询:SELECT a,b FROM T WHEREe
hive.optimize.prunner:分区裁剪
LIMIT
hive.limit.optimize.enable=true:优化LIMIT n语句
使用...
分类:
其他好文 时间:
2015-04-25 00:17:57
阅读次数:
176
文档倒排索引主要是统计每个单词在各个文档中出现的频数,因此要以单词为key,value为文档以及该单词在此文档频数,即输出数据的格式形如:
:表示word1这个单词在doc1文档中出现了3次,在doc2文档中出现了4次。
整个程序的输入是一系列文件,比如file01.txt, file02.txt, file03.txt ....,首先要将这些文件上传到hado...
分类:
其他好文 时间:
2015-04-16 17:40:48
阅读次数:
153
今天在迁移到新服务器时,调度平台又出现问题,首先是脚本中依赖的包没有提前问大家,所以很多任务失败了,问题归结为:提前问清楚所有的依赖包最大的问题是在切换用户启动之后,出现问题。原先使用的是hadoop用户,然后再使用root用户启动,当再次使用hadoop的时候,出现任务..
分类:
其他好文 时间:
2015-04-10 20:28:47
阅读次数:
131
0.上传日志文件到linux中,通过flume将文件收集到hdfs中。
执行命令/home/cloud/flume/bin/flume-ng agent -n a4 -c conf -f /home/cloud/flume/conf/a4.conf -Dflume.root.logger=DEBUG,console
1.建立hive表
create external table bb...
分类:
Web程序 时间:
2015-03-28 08:51:36
阅读次数:
156
Hadoop管道是Hadoop MapReduce的C++接口的代称。与流不同,流使用标准输入和输出让map和reduce节点之间相互交流,管道使用sockets作为tasktracker与C++编写的map或者reduce函数的进程之间的通道。JNI未被使用。...
分类:
其他好文 时间:
2015-03-20 10:59:31
阅读次数:
305