码迷,mamicode.com
首页 >  
搜索关键字:flume hdfs sink lzo 格式压缩    ( 6349个结果
Mahout kmeans聚类
K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。Mahout kmeans MapReduce实现的原理和上述的一致,值得注意的是,Mahout将数据存储在HDFS,用MapReduce做批量并行的计算。在做kmeans之前,需要将文本用Mahout向量化模块工具做向量化。计算过程主要分为三个步骤:初始中心选取,寻找簇中心,划分数...
分类:其他好文   时间:2014-05-26 06:00:31    阅读次数:239
详细总结 使用Sqoop将HDFS/Hive/HBase与MySQL/Oracle中的数据相互导入、导出
一、使用Sqoop将MySQL中的数据导入到HDFS/Hive/HBase    二、使用Sqoop将HDFS/Hive/HBase中的数据导出到MySQL 2.3 HBase中的数据导出到mysql 目前没有直接的命令将HBase中的数据导出到MySQL,但可以先将HBase中的数据导出到HDFS中,再将数据导出到MySQL。 三、使用Sqoop将Orac...
分类:数据库   时间:2014-05-26 05:48:46    阅读次数:304
hadoop学习;block数据块;mapreduce实现例子;UnsupportedClassVersionError异常;关联项目源码
对于开源的东东,尤其是刚出来不久,我觉得最好的学习方式就是可以看源码和doc,测试它的例子 为了方便查看源码,关联导入源码的项目 block数据块,在配置文件hdfs-default.xml中可以查看到,记住要修改不是在这里 block文件存储块是最基本的单位 查看block存放位置,配置文件中查看 如果文件大于64M会占两个块,meta文件是校验...
分类:其他好文   时间:2014-05-26 05:30:58    阅读次数:227
hadoop学习;hdfs操作;运行抛出权限异常: Permission denied;api查看源码方法;源码不停的向里循环;抽象类通过debug查找源码
package com.kane.hdfs; import java.io.InputStream; import java.net.URL; import org.apache.hadoop.fs.FsUrlStreamHandlerFactory; import org.apache.hadoop.io.IOUtils; public class Test {...
分类:Windows程序   时间:2014-05-26 05:05:27    阅读次数:382
详细图解 Flume介绍、安装配置
写在前面一: 本文总结“Hadoop生态系统”中的其中一员——Apache Flume 写在前面二: 所用软件说明: 一、什么是Apache Flume 官网:Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and m...
分类:其他好文   时间:2014-05-26 04:32:10    阅读次数:359
使用Pig对手机上网日志进行分析
在成功安装Pig的基础上,本文将使用Pig对手机上网日志进行分析,具体步骤如下: 写在前面: 手机上网日志文件phone_log.txt,文件内容 及 字段说明部分截图如下 需求分析 显示每个手机号的上网流量情况。 依次完成以下步骤: 1、将Linux本地文件phone_log.txt上传到HDFS 执行命令dump C; 查看经过以上步骤处理后的...
分类:移动开发   时间:2014-05-25 13:00:50    阅读次数:318
hadoop源码解读namenode高可靠:HA;web方式查看namenode下信息;dfs/data决定datanode存储位置
点击browserFilesystem,和命令查看结果一样 当我们查看hadoop源码时,我们看到hdfs下的hdfs-default.xml文件信息 我们查找${hadoop.tmp.dir}这是引用变量,肯定在其他文件有定义,在core-default.xml中查看到,这两个配置文件有个共同点: 就是不要修改此文件,但可以复制信息到core-site.xml和hdfs-sit...
分类:Web程序   时间:2014-05-25 02:02:13    阅读次数:388
Hadoop剖析之HDFS
Hadoop的分布式文件系统(HDFS)是Hadoop的很重要的一部分,本文先简单介绍HDFS的几个特点,然后再分析背后的原理,即怎样实现这种特点的。 HDFS特点 1、高容错性。这是HDFS最核心的特性了,把大量数据部署在便宜的硬件上,即使其中某些磁盘出现故障,HDFS也能很快恢复丢失的数据。 2、简单一致性。这个的意思是HDFS适合一次写入,多次读取的程序,文件写入后,就不需要修改了。像...
分类:其他好文   时间:2014-05-25 01:02:09    阅读次数:285
使用Flume进行数据的实时收集处理
在已经成功安装Flume的基础上,本文将总结使用Flume进行数据的实时收集处理,具体步骤如下: 第一步,在$FLUME_HOME/conf目录下,编写Flume的配置文件,命名为flume_first_conf,具体内容如下: #agent1表示代理名称 agent1.sources=source1 agent1.sinks=sink1 agent1.channels=channel1...
分类:其他好文   时间:2014-05-25 00:49:58    阅读次数:383
Hadoop备战:hdfs常用命令(可能有你不知道的)
除介绍的命令外,还有许多bin/hadoop.dfs命令,以上介绍的只是帮助你开始使用HDFS,运行bin/hadoop dfs不带任何参数会列出所有FsShell系统提供的命令,当你遇到问题时执行bin/hadoop dfs –help commandName会显示这个命令的用法。 下面是所有命令的介绍,介绍之前先定义一下参数的意义: 1.    斜体:表示用户输入的变量。 ...
分类:其他好文   时间:2014-05-24 19:47:01    阅读次数:338
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!