一、系统参数优化配置 1.1 系统内核参数优化配置 修改文件/etc/sysctl.conf,使用sysctl -p命令即时生效。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 kernel.shmmax = 500000000 kernel. ...
分类:
其他好文 时间:
2018-02-24 16:45:32
阅读次数:
326
一、什么是Hadoop? Hadoop是Apache下的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesystem)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布 ...
分类:
其他好文 时间:
2018-02-07 14:44:49
阅读次数:
208
Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。 YAR ...
分类:
其他好文 时间:
2018-02-02 23:18:29
阅读次数:
198
一.概念 MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",是它们的主要思想。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对 ...
分类:
其他好文 时间:
2018-02-02 21:48:48
阅读次数:
186
Python系列之入门篇——HDFS 简介 HDFS (Hadoop Distributed File System) Hadoop分布式文件系统,具有高容错性,适合部署在廉价的机器上。Python 提供了两种接口方式,分别是hdfscli(Restful Api Call),pyhdfs(RPC ...
分类:
编程语言 时间:
2018-01-22 14:10:46
阅读次数:
198
1. Flume Sinks 1.1 HDFS Sink 该sink把events写进Hadoop分布式文件系统(HDFS)。它目前支持创建文本和序列文件。它支持在两种文件类型压缩。文件可以基于数据的经过时间或者大小或者事件的数量周期性地滚动。它还通过属性(如时间戳或发生事件的机器)把数据划分为桶或 ...
分类:
Web程序 时间:
2018-01-02 01:26:08
阅读次数:
380
一,前提:下载好虚拟机和安装完毕Ubuntu系统。因为我们配置的是hadoop分布式,所以需要两台虚拟机,一台主机(master),一台从机(slave) 选定一台机器作为 Master 在 Master 节点上配置 hadoop 用户、安装 SSH server、安装 Java 环境 在 Mast ...
分类:
其他好文 时间:
2017-12-25 01:01:11
阅读次数:
157
Hadoop 分布式环境slaves节点重启: 忽然无法启动DataNode和NodeManager处理: 在master节点: vim /etc/hosts: 修改slave 节点的IP (这个时候的IP应当登录slave节点ifconfig 查看) 造成这个原因是: slave节点如果是通过有线 ...
分类:
其他好文 时间:
2017-11-29 12:48:48
阅读次数:
134
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。 前提和设计目标 硬件错误 硬件错误是常态而不是异常。H ...
分类:
其他好文 时间:
2017-11-26 13:52:14
阅读次数:
200
要想深入的学习hadoop数据分析技术,首要的任务是必须要将hadoop集群环境搭建起来,可以将hadoop简化地想象成一个小软件,通过在各个物理节点上安装这个小软件,然后将其运行起来,就是一个hadoop分布式集群了。 说来简单,但是应该怎么做呢?不急,本文的主要目的就是让新手看了之后也能够亲自动 ...
分类:
系统相关 时间:
2017-11-09 22:50:48
阅读次数:
421