今天学习了大数据的一些基本的概念。 什么是Hadoop: 大数据主要还是解决海量数据的存储和海量数据的分析计算。 大数据的特点:大量、高效、多样(结构化数据和非结构化数据)、低价值密度。 Hadoop的三大发行版本: Apache、cloundera、hortonworks。 当然现在clounde ...
分类:
其他好文 时间:
2021-07-09 17:52:26
阅读次数:
0
hadoop大数据集群搭建过程中,需要使用到zookeeper进行主从管理和控制,那我们就安装一套集群环境 1、下载zookeeper 登录zookeeper.apache.org官网,找到Getting Started下边的Download。 进去之后我们选择一个版本,比如选择3.6.2,进去后选 ...
分类:
其他好文 时间:
2021-03-06 14:45:39
阅读次数:
0
大数据是指无法在一定时间范围内用常规软件工具进行处理和分析的数据集合,需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能的海量、高增长率和多样性的信息资产
分类:
其他好文 时间:
2020-10-08 18:36:53
阅读次数:
17
//使用MapReduce框架完成二次排序 // 主要原理使用组比较器完成排序再规约 // 环境 由于IDEA不会本地提交MR任务转到eclipse //代码如下 package com.swust.mapreduce; import java.io.IOException; import org. ...
分类:
其他好文 时间:
2020-04-27 19:34:20
阅读次数:
80
1、hadoop 大数据框架 Hadoop 是一个应用Java语言实现的软件框架,廉价的计算机组成的集群运行海量数据的分布式并行计算框架,支持上千个节点和PB级别的数据。Hadoop是项目的总称 分布式: 大数据: 指无法在一定时间范围内用常规软件工具进行捕捉,管理和处理的数据集合。 1024MB= ...
分类:
其他好文 时间:
2020-01-10 12:33:49
阅读次数:
80
原文链接: 组件端口及说明 CDH 7180: Cloudera Manager WebUI端口7182: Cloudera Manager Server 与 Agent 通讯端口 Hadoop 50070:HDFS WEB UI端口8020 : 高可用的HDFS RPC端口9000 : 非高可用的 ...
分类:
其他好文 时间:
2020-01-07 19:56:27
阅读次数:
135
https://blog.csdn.net/hehe_soft_engineer/article/details/102820968 ...
分类:
其他好文 时间:
2019-11-01 22:42:36
阅读次数:
83
hadoop是什么? hadoop是一个由Apache基金会所开发的分布式系统基础架构,hdfs分布式文件存储、MapReduce并行计算。主要是用来解决海量数据的存储和海量数据的分析计算问题,这是狭义上的hadoop。广义上来讲,hadoop通常指的是一个更广泛的概念 hadoop生态圈 hado ...
分类:
其他好文 时间:
2019-10-05 20:12:34
阅读次数:
220
当今互联网已进入大数据时代,大数据技术已广泛应用于金融、医疗、教育、电信、政府等领域。各行各业每天都在产生大量的数据,数据计量单位已从B、KB、MB、GB、TB发展到PB、EB、ZB、YB甚至BB、NB、DB。预计未来几年,全球数据将呈爆炸式增长。谷歌、阿里巴巴、百度、京东等互联网公司都急需掌握大数 ...
分类:
其他好文 时间:
2019-10-02 13:07:34
阅读次数:
99
概述 以 Hortonworks Data Platform (HDP) 平台为例 ,hadoop大数据平台的安全机制包括以下两个方面: 身份认证 即核实一个使用者的真实身份,一个使用者来使用大数据引擎平台,这个使用者需要表明自己是谁,即提供自己的身份证明,大数据平台需要检验这个证明,确定这个证明是 ...
分类:
其他好文 时间:
2019-08-06 01:11:23
阅读次数:
184