hadoop生态圈框架工具甚多,自己整合起来很是繁琐,特别是oozie以及hue结合来实现hive、mr、spark等定时依赖任务更是一步一个坑,为了减少踩坑,只好从apache hadoop,转向CDH。 两个各有利弊,CDH贵在整合方便。本次教程大部分来自http://www.cnblogs.c ...
分类:
其他好文 时间:
2017-03-08 13:45:07
阅读次数:
993
https://git.oschina.net/Mr-zf/feng.git 题目描述: 看了大家对于本课程的目标和规划,很多同学都希望能提高自己的实践能力,没有捷径可走,就是练习、练习再练习!那么就从第一个个人项目开始吧,用一周的时间完成一个基于控制台的四则运算程序,实现一个自动生成小学四则运算题 ...
分类:
其他好文 时间:
2017-03-08 13:29:50
阅读次数:
177
第一次分享自己的代码,希望各路大神多多指教!先上demo图 html部分: css部分: 代码完结! 补发大白中间的那块显示屏代码(用jq实现) 我的github代码地址:https://github.com/Mr-hyc/CSS3-.git ...
分类:
Web程序 时间:
2017-03-07 11:44:58
阅读次数:
257
Mr Wang wants some boys to help him with a project. Because the project is rather complex, the more boys come, the better it will be. Of course there ...
分类:
其他好文 时间:
2017-03-06 00:50:18
阅读次数:
187
本文接上篇hadoop2.5.2学习13-MR之新浪微博TF-IDF算法简介
上篇微博实现了第一个mappreduce, 统计的词频TF和微博总数N
本文将统计DF,即每个词条在多少个文章中出现...
分类:
其他好文 时间:
2017-03-04 13:14:09
阅读次数:
296
1、主机规划序号主机名IP地址角色1nn-1192.168.9.21NameNode、mr-jobhistory、zookeeper、JournalNode2nn-2192.168.9.22Secondary NameNode、JournalNode3dn-1192.168.9.23DataNode... ...
分类:
Web程序 时间:
2017-03-01 15:54:24
阅读次数:
576
1. MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题。2. MR由两个阶段组成:Map和Reduce,用户只需要实现map()和reduce()两个函数,即可实现分布式计算,非常简单。这两个函数的形参是key、value对,表示函数的输入信息。 ...
分类:
其他好文 时间:
2017-02-25 01:14:37
阅读次数:
279
题目描述 Mr Wang wants some boys to help him with a project. Because the project is rather complex, the more boys come, the better it will be. Of course t ...
分类:
其他好文 时间:
2017-02-23 15:18:58
阅读次数:
211
Hive 已是目前业界最为通用、廉价的构建大数据时代数据仓库的解决方案了,虽然也有 Impala 等后起之秀,但目前从功能、稳定性等方面来说,Hive 的地位尚不可撼动。 其实这篇博文主要是想聊聊 SMB join 的,Join 是整个 MR/Hive 最为核心的部分之一,是每个Hadoop/Hiv ...
分类:
其他好文 时间:
2017-02-22 16:31:39
阅读次数:
314
1.简介 将数据插入HBase表中的方法很多,我们可以通过TableOutputFormat以Mapreduce on HBase的方式将数据插入,也可以单纯的使用客户端API将数据插入。但是以上方法效率并不高。 而使用BulkLoad特性能够利用MR计算框架将源数据直接生成内部的hfile格式,然 ...
分类:
其他好文 时间:
2017-02-15 00:41:31
阅读次数:
238