欢迎关注大数据和人工智能技术文章发布的微信公众号:清研学堂,在这里你可以学到夜白(作者笔名)精心整理的笔记,让我们每天进步一点点,让优秀成为一种习惯! 一、HBase基本概念:列式数据库 在Hadoop生态体系结构中,HBase位于HDFS(Hadoop分布式文件系统)的上一层,不依赖于MapRed ...
分类:
数据库 时间:
2018-03-04 19:07:19
阅读次数:
257
二.排序 对象排序 员工数据 Employee.java > 作为key2输出 需求:按照部门和薪水升序排列 Employee.java EmployeeSortMapper.java EmployeeSortMain.java 结果: 三.分区分区:Partition: 根据Map的输出(k2 v ...
分类:
其他好文 时间:
2018-03-04 00:26:44
阅读次数:
198
1.mongodb是基于文档的(BSON,类似json的键值对来存储),不是基于表格,易于水平扩展,将内部相关的数据放在一起能提高数据库的操作性能。如果你想新建一个新的文档类型,不用事先告诉数据库关于这些数据的结构,直接存到数据库中即可。易存储对象类型的数据。 2.与关系数据库的重大区别:可扩展的表 ...
分类:
数据库 时间:
2018-03-01 21:51:59
阅读次数:
247
Map-Reduce是一种计算模型,简单的说就是将大批量的工作(数据)分解(MAP)执行,然后再将结果合并成最终结果(REDUCE)。 MongoDB提供的Map-Reduce非常灵活,对于大规模数据分析也相当实用。 MapReduce 命令 以下是MapReduce的基本语法: 使用 MapRed ...
分类:
数据库 时间:
2018-02-21 14:59:20
阅读次数:
170
官网:https://www.mongodb.com/ 国内官网网站:http://www.mongoing.com/ 官网中文翻译:http://docs.mongoing.com/manual-zh/ github : https://github.com/mongodb bug提交以及回复:h ...
分类:
数据库 时间:
2018-02-09 15:44:19
阅读次数:
171
hive.mapred.local.mem Mapper/Reducer 在本地模式的最大内存量,以字节为单位,0为不限制。 hive-default.xml ...
分类:
其他好文 时间:
2018-02-08 20:17:16
阅读次数:
256
一:概述 在大多数情况下,如果使用MapReduce进行batch处理,文件一般是存储在HDFS上的,但这里有个很重要的场景不能忽视,那就是对于大量的小文件的处理(此处小文件没有确切的定义,一般指文件大小比较小,比如5M以内的文件),而HDFS的文件块一般是64M,这将会影响到HDFS的性能,因为小 ...
分类:
其他好文 时间:
2018-02-05 18:39:13
阅读次数:
198
作者:李呈祥 Flink项目是大数据处理领域最近冉冉升起的一颗新星,其不同于其他大数据项目的诸多特性吸引了越来越多的人关注Flink项目。本文将深入分析Flink一些关键的技术与特性,希望能够帮助读者对Flink有更加深入的了解,对其他大数据系统的开发者也能有所裨益。 注:本文假设读者对MapRed ...
分类:
其他好文 时间:
2018-02-05 10:42:05
阅读次数:
156
在Hadoop中,一个MapReduce作业会把输入的数据集切分为若干独立的数据块,由Map任务以完全并行的方式处理。框架会对Map的输出先进行排序,然后把结果输入给Reduce任务。作业的输入和输出都会被存储在文件系统中,整个框架负责任务的调度和监控,以及重新执行已关闭的任务。MapReduce框 ...
分类:
其他好文 时间:
2018-01-27 21:19:10
阅读次数:
194
1.准备数据源 mysql中表bigdata,数据如下: 2. 准备目标表 目标表存放hive中数据库dw_stg表bigdata 保存路径为 hdfs://localhost:9000/user/hive/warehouse/dw_stg.db/bigdata hive中建表语句如下: 注意点: ...
分类:
数据库 时间:
2018-01-24 18:10:19
阅读次数:
454