1. 阐述Hadoop生态系统中,HDFS, MapReduce, Yarn, Hbase及Spark的相互关系,为什么要引入Yarn和Spark。 Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。 Hadoop的核心是HDFS和MapReduce,hadoo ...
分类:
其他好文 时间:
2021-03-15 10:30:41
阅读次数:
0
Spark的五种JOIN策略解析 JOIN操作是非常常见的数据处理操作,Spark作为一个统一的大数据处理引擎,提供了非常丰富的JOIN场景。本文分享将介绍Spark所提供的5种JOIN策略,希望对你有所帮助。本文主要包括以下内容: 影响JOIN操作的因素 Spark中JOIN执行的5种策略 Spa ...
分类:
其他好文 时间:
2021-03-10 13:42:57
阅读次数:
0
介绍 分而治之是一个有效的处理大数据的方法,著名的MapReduce就是采用这种分而治之的思路。简单的说,如果要处理1000个数据,但是我们不具备处理1000个数据的能力,只可以处理10个数据。我们可以将这个任务分成100份,每份处理10个,并将最后的结果进行合成,形成1000个数据的处理结果。 把 ...
分类:
编程语言 时间:
2021-03-10 13:02:18
阅读次数:
0
hadoop集群安装 安装环境服务部署规划 服务器IP node01 node02 node03 HDFS NameNode HDFS SecondaryNameNode HDFS DataNode DataNode DataNode YARN ResourceManager YARN NodeMa ...
分类:
其他好文 时间:
2021-03-09 12:59:55
阅读次数:
0
1.union 和 union all 前者可以去重 select sex,address from test where dt='20210218' union all select sex,address from test where dt='20210218'; + + +--+ | sex ...
分类:
其他好文 时间:
2021-03-08 14:17:52
阅读次数:
0
介绍 SqlSugar是一款 老牌 .NET 开源ORM框架,并且在第一时间兼容.NET5,由果糖大数据科技团队维护和更新 ,Github star数仅次于EF 和 Dapper 优点: 简单易用、功能齐全、高性能、轻量级、服务齐全、有专业技术支持一天18小时服务 支持数据库:MySql、SqlSe ...
分类:
数据库 时间:
2021-03-08 13:59:25
阅读次数:
0
hadoop大数据集群搭建过程中,需要使用到zookeeper进行主从管理和控制,那我们就安装一套集群环境 1、下载zookeeper 登录zookeeper.apache.org官网,找到Getting Started下边的Download。 进去之后我们选择一个版本,比如选择3.6.2,进去后选 ...
分类:
其他好文 时间:
2021-03-06 14:45:39
阅读次数:
0
首先,Python作为一门全场景编程语言,当前在IT互联网行业内确实有比较广泛的应用,而且与Java语言主要应用在IT互联网行业不同,Python在传统行业领域的应用也非常普遍,相信随着云计算、大数据、人工智能等技术平台逐渐开始在传统行业领域开始落地应用,Python语言还有较大的上升空间。 当前世 ...
分类:
编程语言 时间:
2021-03-06 14:39:49
阅读次数:
0
配置文件 mapred-site.xml 加入以下代码 <!-- 历史服务器端地址 --> <property> <name>mapreduce.jobhistory.address</name> <value>hadoop102:10020</value> </property> <!-- 历史服 ...
分类:
其他好文 时间:
2021-03-06 14:37:58
阅读次数:
0
杀死进程 $HADOOP_HOME/sbin/stop-yarn.sh $HADOOP_HOME/sbin/stop-dfs.sh 删除所有节点 hadoop 根目录下的 data 和 logs rm -rf data/ logs/ 格式化 在 hadoop 根目录下执行 hdfs namenode ...
分类:
其他好文 时间:
2021-03-06 14:35:10
阅读次数:
0