一、Hadoop概述
hadoop由两部分组成,分别是分布式文件系统和分布式计算框架MapReduce。其中,分布式文件系统主要用于大规模数据的分布式存储,而MapReduce 则构建在分布式文件系
统之上,对存储在分布式文件系统中的数据进行分布式计算。
2、在Hadoop 中,MapReduce 底层的分布式文件系统是独立模块,用户可按照约定的一套接口实现自己的分布式文件系统,然后经过简单...
分类:
其他好文 时间:
2014-05-01 18:34:41
阅读次数:
382
Hadoop从2.3.0版本开始支持HDFS缓存机制,HDFS允许用户将一部分目录或文件缓存在HDFS当中,NameNode会通知拥有对应块的DataNodes将其缓存在DataNode的内存当中
集中式缓存管理有着许多显著的优势:
防止那些被频繁使用的数据从内存中清除因为DataNode的缓存由NameNode来管理,applications在做任务安排时可以查询这个缓存的列表,...
分类:
其他好文 时间:
2014-05-01 17:45:58
阅读次数:
379
一、简介
1、MapReduce 应用广泛的原因之一在于它的易用性。它提供了一个因高度抽象化而变得异常简单的编程模型。
2、从MapReduce 自身的命名特点可以看出,MapReduce 由两个阶段组成:Map 和Reduce 。用户只需编写map ( ) 和reduce( ) 两个函数,即可完成简单的分布式程序的设计。
1)m a p ( ) 函数以key/value 对作为输入,产...
分类:
其他好文 时间:
2014-04-30 22:23:39
阅读次数:
466
在K-fold cross validation 下 比较不同的K的选择对于参数选择(模型参数,CV意义下的估计的泛化误差)以及实际泛化误差的影响。更一般的问题,在实际模型选择问题中,选择几重交叉验证比较合适?
交叉验证的背景知识:
CV是用来验证模型假设(hypothesis)性能的一种统计分析方法,基本思想是在某种意义下将原始数据进行分组,一部分作为训练集,一部分作为验证集,使用训练...
分类:
其他好文 时间:
2014-04-30 22:14:38
阅读次数:
327
欢迎大家评论文章, 我会耐心解答. 本博客会经常更新, 所有原创文章, 都是亲自所写, 如有好的建议等请站内联系. 主要讲解关于Image Processing(IP),Image Analysis(IA), Computer Vision(CV) && Machine Learning(ML)的一些知识,希望结识更多志同道合的朋友, 同学. 艺无止境, 与君共勉. 欢迎大家提供有意义的评论. 希望和大家共同进步. 同时,提供关于本博客两个专栏的QQ群号,方便大家之间相互交流(^_^).欢迎大家加入,谢谢...
分类:
其他好文 时间:
2014-04-29 13:45:21
阅读次数:
389
HBase是Hadoop的数据库,基于Hadoop运行,是一种NoSQL数据库。
特点:分布式、多版本、面向列的存储模型,能够大规模的数据实时随机读写,可直接使用本地文件系统。
不适合:与关系型数据库相比,模型简单,API很少;不适合小规模的数据。
数据存放的位置叫做单元(cell),其中的数据可以有多个版本,根据时间戳(timestamp)来区别。
安装:
tar xfz hbase-...
分类:
其他好文 时间:
2014-04-29 13:27:22
阅读次数:
403
1 HDFS服务中,默认端口集合:
1. HDFS 端口
Service
Servers
Default Ports Used
Protocol
Description
Need End User Access?
Configuration Parameters
NameNode WebUI
Master Nodes (NameNo...
分类:
其他好文 时间:
2014-04-29 13:24:21
阅读次数:
492
1、Map-Reduce的逻辑过程
假设我们需要处理一批有关天气的数据,其格式如下:
按照ASCII码存储,每行一条记录每一行字符从0开始计数,第15个到第18个字符为年第25个到第29个字符为温度,其中第25位是符号+/-
0067011990999991950051507+0000+
0043011990999991950051512+0022+
00430119...
分类:
其他好文 时间:
2014-04-29 13:22:20
阅读次数:
309
安装oozie的时候,碰到了好多好多问题,都通过网上搜索找到答案解决,在这里总结一下...
分类:
其他好文 时间:
2014-04-29 13:17:22
阅读次数:
353
FAILED: Error in metadata: java.lang.RuntimeException: MetaException(message:org.apache.hadoop.hive.serde2.SerDeException org.apache.hadoop.hive.hbase.HBaseSerDe: columns has 3 elements while hbase.columns.mapping has 4 elements (counting the key if implic...
分类:
其他好文 时间:
2014-04-29 13:17:21
阅读次数:
387