Apache Spark是一个集群计算设计的快速计算。它是建立在Hadoop MapReduce之上,它扩展了 MapReduce 模式,有效地使用更多类型的计算,其中包括交互式查询和流处理。这是一个简单的Spark教程,介绍了Spark核心编程的基础知识。 工业公司广泛的使用 Hadoop 来分析 ...
分类:
其他好文 时间:
2017-10-24 11:15:15
阅读次数:
206
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 1.1.1 什么使用Hive 直接使用hadoop所面临的问题 人员学习成本太高 项目周期要求太短 MapReduce实现复杂查询逻辑开发难度太大 为什么要使用Hive 操作接口采用类S ...
分类:
其他好文 时间:
2017-09-20 21:54:32
阅读次数:
175
前面的文章已经讲过hadoop伪分布式安装,这里直接介绍hbase伪分布式安装。 1、 下载hbase 版本hbase 1.2.6 2、 解压hbase 3、 修改hbase-env.sh 新增如下内容 4、 修改hbase-site.xml hbase.rootdir使用hadoop文件系统 hb ...
分类:
其他好文 时间:
2017-09-14 00:30:51
阅读次数:
159
每个文件按块方式存储, 每个块的元数据存储在namenode的内存中 Hadoop存档文件或HAR文件是一个更高效的文件存档工具,它将文件存入HDFS块,在减少内存使用的同时,允许对文件进行透明地访问 Hadoop存档文件可以用作MapReduce的输入 使用Hadoop存档工具 Hadoop存档是 ...
分类:
其他好文 时间:
2017-09-07 19:27:27
阅读次数:
87
0.前言前面一篇《Hadoop初体验:快速搭建Hadoop伪分布式环境》搭建了一个Hadoop的环境,现在就使用Hadoop自带的wordcount程序来做单词统计的案例。1.使用示例程序实现单词统计(1)wordcount程序wordcount程序在hadoop的share目录下,如下:[root@leafmapreduce]#pwd
/usr/loca..
分类:
其他好文 时间:
2017-09-03 23:54:37
阅读次数:
229
由于要近期使用hadoop等进行相关任务执行,操作linux时候就多了 以前只在linux上配置J2EE项目执行环境,无非配置下jdk,部署tomcat,再通过docker或者jenkins自动部署上去 看下进程,复制粘贴删除等基本操作,很多东西久了不用就忘了,所有写个demo巩固下曾经的linux ...
分类:
系统相关 时间:
2017-09-02 16:55:21
阅读次数:
301
由于要近期使用hadoop等进行相关任务执行,操作linux时候就多了 以前只在linux上配置J2EE项目执行环境,无非配置下jdk,部署tomcat,再通过docker或者jenkins自动部署上去 看下进程,复制粘贴删除等基本操作,很多东西久了不用就忘了,所有写个demo巩固下曾经的linux ...
分类:
系统相关 时间:
2017-09-02 16:52:35
阅读次数:
264
由于要近期使用hadoop等进行相关任务执行,操作linux时候就多了 以前只在linux上配置J2EE项目执行环境,无非配置下jdk,部署tomcat,再通过docker或者jenkins自动部署上去 看下进程,复制粘贴删除等基本操作,很多东西久了不用就忘了,所有写个demo巩固下曾经的linux ...
分类:
编程语言 时间:
2017-09-02 15:48:31
阅读次数:
267
1、背景-流式计算与storm 2011年在海量数据处理领域,Hadoop是人们津津乐道的技术,hadoop不仅可以用来存储海量数据,还以用来计算海量数据。因为其高吞吐、高可靠等特点,很多互联网公司都已经使用Hadoop来构建数据仓库,高频使用并促进了Hadoop生态圈的各项技术的发展。一般来讲,根 ...
分类:
其他好文 时间:
2017-08-30 15:49:18
阅读次数:
206
首先启动: 第一个启动初始化 先hdfs格式化 bin 目录下的 hadoop指令使用(上篇的最后已经添加到 环境变量中去了,修改完 一定接的source一下!!!!) 格式化 hadoop namenode -format ...
分类:
其他好文 时间:
2017-08-01 17:08:41
阅读次数:
141