create database logs;use logscreate table weblogs_from_hdfs(md5varchar(32),urlvarchar(64),request_datedate,request_timetime,ipvarchar(15));sqoop expor...
分类:
数据库 时间:
2014-07-28 14:47:33
阅读次数:
387
Flume简介
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
系统功能
日志收集
Flume最早是Cloud...
分类:
其他好文 时间:
2014-07-28 14:41:13
阅读次数:
491
HDFS(GFS) Python实现实现了HDFS的最基本的功能。具体的每一步的实现过程可以在这里看到https://github.com/DanielJyc/HDFS。每一个commit都可以执行,算是记录了自己的实现过程。总体的设计框图如下:总体设计操作:上传文件到HDFS:upload?fil...
分类:
编程语言 时间:
2014-07-27 10:11:12
阅读次数:
308
最近研究了下NameNodeHAAutomaticFailover方面的东西,当ActiveNN因为异常或其他原因不能正常提供服务时,处于Standby状态的NN就可以自动切换为Active状态,从而到达真正的高可用NNHAAutomaticFailover架构图为了实现自动切换,需要依赖ZooKeeper和ZKFC组件,ZooKeeper主要用来..
分类:
其他好文 时间:
2014-07-26 03:27:38
阅读次数:
392
从本地上传整个文件夹到hdfs的java程序...
分类:
编程语言 时间:
2014-07-26 03:04:06
阅读次数:
203
题目地址:HDU 3416
这道题WA了一天半。。。最终才发现是我一直习惯性的将isap的表示上界的变量直接表示成sink+1了。。。但是在这道题里汇点sink不一定是最后一个点。。。sad。。。
这题可以有两种方法做,一种是求两次最短路,d1表示所有点到源点的最短距离,再求一次用d2表示所有点到汇点的最短距离。然后根据公式d1[u]+d2[v]+w==d1[sink]判断是否属于最短路中的一...
分类:
其他好文 时间:
2014-07-26 03:01:36
阅读次数:
223
把程序打成jar包放到Linux上
转到目录下执行命令 hadoop jar mapreducer.jar /home/clq/export/java/count.jar hdfs://ubuntu:9000/out06/count/
上面一个是本地文件,一个是上传hdfs位置
成功后出现:打印出来,你所要打印的字符。
package com.clq.hdfs;
import java...
分类:
编程语言 时间:
2014-07-26 02:27:17
阅读次数:
270
InputFormat这个类是用来处理Map的输入数据的,任务开始时,InputFormat先将HDFS里所有输入文件里的数据分割成逻辑上的InputSpilt对象
这里的split是HDFS中block的部分或者一整块或几个快中的数据的逻辑分割,一个split对应于一个Map,所以Map的数量是由split的数量决定的。
那么怎样去确定InputSpilt的个数呢,下面列出于split个...
分类:
其他好文 时间:
2014-07-25 11:03:11
阅读次数:
204
《大 数据技术丛书:Hadoop应用开发技术详解》共12章。第1~2章详细地介绍了Hadoop的生态系统、关键技术以及安装和配置;第3章是 MapReduce的使用入门,让读者了解整个开发过程;第4~5章详细讲解了分布式文件系统HDFS和Hadoop的文件I/O;第6章分析了 MapReduce的工...
分类:
其他好文 时间:
2014-07-24 11:25:42
阅读次数:
337
最近在写一些hadoop的运维工具,考虑到hadoop本身是java编写的,api比较方便,可以直接拿来就用准备用java来写。今天测试了几个fs相关的类。主要有FileStatus,FileSystem,DistributedFileSystem,DatanodeInfo,BlockLocationFileStatus是和文件的属性相关的类,比如文件的名称,..
分类:
编程语言 时间:
2014-07-24 10:49:36
阅读次数:
303