Kafka是Apache下的一个子项目,是一个高性能跨语言分布式发布/订阅消息队列系统,吞吐速率非常快,可以作为Hadoop的日志收集。Kafka是一个完全的分布式系统,这一点依赖于Zookeeper的分布式实现。 本文为新手准备,从Kafka的一些术语概念方面去认识Kafka。 Broker Ka ...
分类:
其他好文 时间:
2020-09-18 17:19:41
阅读次数:
37
Hadoop HA 集群搭建 Hadoop HA 集群搭建Hadoop 完全分布式环境搭建集群规划集群部署前提Hadoop伪分布式环境搭建配置IP映射安装 Java 与 Hadoop配置 Hadoop配置 MapReduce 与 YARN集群配置配置基本参数配置 SSH 免密登录格式化 HDFS启动 ...
分类:
其他好文 时间:
2020-09-18 03:33:30
阅读次数:
38
一、大数据 大数据的特性 (一)大体量,可从数百TB,PB,EB (二)多样性,大数据包括各种格式和形态的数据 (三)时效性,很多大数据需要在一定的时间限度下得到及时处理 (四)准确性,处理的结果一定要准备性 (五)大价值,大数据包含很多的深度的价值,大数据分析挖掘和利用将带来巨大的商业价值 二、H ...
分类:
其他好文 时间:
2020-09-18 02:20:12
阅读次数:
35
#1.安装Eclipse EE版本 #2.配置Eclipse 配置Eclipse 将插件hadoop-eclipse-plugin-2.6.0jar拷贝到Eclipse安装目录下的dropins目录 启动Eclipse,增加Map/Reduce功能区 增加Hadoop集群的连接 导入MapReduc ...
分类:
系统相关 时间:
2020-09-18 01:39:40
阅读次数:
46
hive是基于Hadoop的一个数据仓库工具,用来进行数据的ETL,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能。HiveSQL是一种类SQL语言,与关系型数据库所支持的SQL语法存在微小的差异。本文对比MySQL和Hive所支持的SQL语法,发现相同的SQL语句在Hive和MySQL中输出结果的会有所不同
分类:
数据库 时间:
2020-09-17 23:41:17
阅读次数:
49
实验包括:1.使用EMR创建Hadoop集群2.定义schema,创建示例表。3.通过HiveQL分析数据,并将分析结果保存到S3上4.下载已经分析结果数据。Task1:创建一个S3桶创建一个存储桶比如hadoop202006…Task2:创建EMR集群这里我解释一下Hadoop集群中的一些组件,了解大数据的同学直接忽略就好。ApacheHadoop:在分布式服务器集群上存储海量数据并运行分布式分
分类:
其他好文 时间:
2020-09-17 22:02:51
阅读次数:
37
Hadoop环境搭建 #### 安装前准备 查看防火墙状态,若处于激活(inaction)状态,关闭防火墙 sudo ufw status 查看时间服务器是否运行,若NTP尚未安装就运行安装命令 dpkg -l | grep ntp #检查是否安装 apt-get install ntp #NTP安 ...
分类:
其他好文 时间:
2020-09-17 21:43:01
阅读次数:
32
大数据分析平台的搭建有利于帮助企业构建统一的数据存储和数据处理资源,围绕企业业务开展大数据应用建设,最终形成面向服务化的数据资产。而今天我们就来了解一下,常见的大数据平台都包含哪些层次? 1、数据采集层:分3个层面的采集技术进行支持,一是传统业务系统数据库和半结构化、结构化数据的采集和集成,如采用Sqoop技术进行关系数据库和Hadoop系统之间的数据抽取和交换;二是交通实时流数据的采集,包
分类:
其他好文 时间:
2020-09-17 20:18:31
阅读次数:
34
大数据分析平台的搭建有利于帮助企业构建统一的数据存储和数据处理资源,围绕企业业务开展大数据应用建设,最终形成面向服务化的数据资产。而今天我们就来了解一下,常见的大数据平台都包含哪些层次? 1、数据采集层:分3个层面的采集技术进行支持,一是传统业务系统数据库和半结构化、结构化数据的采集和集成,如采用Sqoop技术进行关系数据库和Hadoop系统之间的数据抽取和交换;二是交通实时流数据的采集,包
分类:
其他好文 时间:
2020-09-17 19:57:01
阅读次数:
24