码迷,mamicode.com
首页 >  
搜索关键字:flume hdfs sink lzo 格式压缩    ( 6349个结果
maven笔记——Failed to execute goal org.apache.rat:apache-rat-plugin:0.7:check (verify.rat) on project flume-ng-c
解决办法: 在每个新建的类的第一行加入以下内容即可/* * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE fi.....
分类:Web程序   时间:2014-10-15 13:06:10    阅读次数:519
大数据时代之hadoop(三):hadoop数据流(生命周期)
了解hadoop,首先就需要先了解hadoop的数据流,就像了解servlet的生命周期似的。hadoop是一个分布式存储(hdfs)和分布式计算框架(mapreduce),但是hadoop也有一个很重要的特性:hadoop会将mapreduce计算移动到存储有部分数据的各台机器上。...
分类:其他好文   时间:2014-10-15 12:01:40    阅读次数:199
Decommission Datanode
Decommission Datanode就是把Datanode从HDFS集群中移除掉。那问题来了,HDFS在设计时就把诸如机器故障考虑进去了,能否直接把某台运行Datanode的机器关掉然后拔走呢?我认为理论上可行的,不过在实际的集群中,如果某份数据只有一份拷贝而且它就在这个机器上,那么直接关掉并拔走机器就会造成数据丢失。本文将介绍如何Decommission Datanode以及可能会遇到的一些问题及其解决办法。...
分类:其他好文   时间:2014-10-15 00:13:09    阅读次数:470
HDFS文件上传:8020端口拒绝连接问题解决!
HDFS文件上传:8020端口拒绝连接问题解决!CopyFromLocal:Calltolocalhost/127.0.0.1:8020failedonconnectionexception:java.net.ConnectException问题提示本机的8020端口无法连接。网络上面找到一篇文章是将core-site.xml里面的配置端口修改成8020,但是我们现在依然用他默认..
分类:Web程序   时间:2014-10-14 20:49:39    阅读次数:786
Hbase调用JavaAPI实现批量导入操作
将手机上网日志文件批量导入到Hbase中,操作步骤: 1、将日志文件(请下载附件)上传到HDFS中,利用hadoop的操作命令上传:hadoop  fs -put input  /   2、创建Hbase表,通过Java操作   Java代码   package com.jiewen.hbase;    import java.io.IOException;...
分类:编程语言   时间:2014-10-14 16:27:40    阅读次数:367
Crontab中shell每分钟执行一次HDFS文件上传不执行的解决方案
一、Crontab -e 加入输出Log*/1 * * * * /qiwen_list/upload_to_hdfs.sh > /qiwen_list/mapred.log 2>&1二、查看Log发现,找不到Hadoop三、脚本中指定Hadoop完整路径#!/bin/sh#upload list t...
分类:Web程序   时间:2014-10-13 22:51:47    阅读次数:659
Spark Streaming 结合FlumeNG使用实例
SparkStreaming是一个对实时数据流进行高通量、容错处理的流式处理系统,可以对多种数据源(如Kdfka、Flume、Twitter、Zero和TCP 套接字)进行类似map、reduce、join、window等复杂操作,并将结果保存到外部文件系统、数据库或应用到实时仪表盘。Spark S...
分类:Web程序   时间:2014-10-13 22:30:37    阅读次数:500
hive建表没使用LZO存储格式,但是数据是LZO格式时遇到的问题
今天微博大数据平台发邮件来说,他们有一个hql运行失败,但是从gateway上面的日志看不出来是什么原因导致的,我帮忙看了一下,最后找到了问题的原因,以下是分析过程...
分类:其他好文   时间:2014-10-13 19:48:57    阅读次数:211
Install hadoop with Cloudera Manager 5 on CentOS 6.5
分区考虑,不要使用LVMroot-->20Gswap--2倍系统内存Masternode:RAID10,dualEthernetcards,dualpowersupplies,etc.Slavenode:1.RAIDisnotnecessary2.HDFS分区,notusingLVM/etc/fstab--ext3defaults,noatime挂载到/data/N,forN=0,1,2...(onepartitionperdisk)Clouderareposito..
分类:其他好文   时间:2014-10-13 02:02:10    阅读次数:739
hadoop 2.4 伪分布式模式
1.core-site.xml在中插入 fs.default.name hdfs://localhost:9000 dfs.replication 1 ...
分类:其他好文   时间:2014-10-12 13:51:37    阅读次数:190
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!