John Hennessy and David Patterson 2017 ACM A.M.Turing Award Lecture SISC 不同指令耗费时间不同 Micro programming 每条指令有一套程序 不能共享 设计指令集 机器中基本的微指令 用微指令实现基本指令 微程序设计 ...
分类:
其他好文 时间:
2020-01-07 01:08:09
阅读次数:
117
1.打包时指定main Class信息 注意:默认直接通过maven插件打成jar包中没有指定main class信息,因此在运行mapreduce的jar包时必须在指令后明确main class信息 需要在插件进行配置 1 <build> 2 <plugins> 3 <plugin> 4 <gro ...
分类:
其他好文 时间:
2020-01-05 12:11:22
阅读次数:
93
Hadoop Hadoop里面包括几个组件HDFS、MapReduce和YARN,HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面,MapReduce是对数据进行处理计算的,它有个特点就是不管多大的数据只要给它时间它就能把数据跑完,但是时间可能不是很快所以它叫数据的批处理。 YAR ...
分类:
其他好文 时间:
2020-01-03 23:16:37
阅读次数:
82
简介 YARN 提供请求和使用hadoop集群资源的API 向上隐藏细节 提供更高层的API 4.1 YARN应用运行机制 资源请求 应用生命周期 构建yarn应用 4.2 YARN与MapReduce 1相比 (MapReduce特指hadoop1 的版本, 2/3依次对应) 4.3 YARN中的 ...
分类:
其他好文 时间:
2020-01-02 20:42:12
阅读次数:
81
Hbase数据管理 Hbase就是Hadoop database Hbase是列式数据库 因此Hbase特别适合寻找按照时间排序寻找Top n的场景 Hive数据管理 基于 Hadoop 文件系统的数据仓库 Hive是建立在Hadoop上的数据仓库基础架构。它提供了一系列的工具,用来进行数据提取、转 ...
分类:
其他好文 时间:
2020-01-02 15:24:13
阅读次数:
66
一、基础环境 1.虚拟机 VMware 15.0 2.CentOS 6.5 Linux 系统 二、MapReduce的原理分析 三、Yarn集群搭建 1.准备好三台虚拟机(这里我直接拷贝了Ha集群中一个作为主机,其余克隆) 2.修改基础配置: 1.删除每一台机器的Mac地址(CentOS 7 以上不 ...
分类:
其他好文 时间:
2019-12-30 23:15:14
阅读次数:
116
一.简介 1.什么是spark Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行计算框架,Spark拥有Hadoop MapReduc ...
分类:
其他好文 时间:
2019-12-30 14:10:45
阅读次数:
100
一、TestDFSIO 读写性能测试切换到目录: /opt/hadoop/share/hadoop/mapreduce/ 清空数据hadoop jar hadoop-mapreduce-client-jobclient-2.6.4.jar -cleanhadoop fs -ls /benchmark ...
分类:
其他好文 时间:
2019-12-29 23:30:19
阅读次数:
113
本文介绍在mapreduce程序运行中自定义分区实现
分类:
其他好文 时间:
2019-12-29 09:19:27
阅读次数:
71