码迷,mamicode.com
首页 >  
搜索关键字:spark broadcast    ( 8013个结果
MapReduce深入
hadoop中map和reduce都是进程(spark中是线程),map和reduce可以部署在同一个机器上也可以部署在不同机器上。 输入数据是hdfs的block,通过一个map函数把它转化为一个个键值对,并同时将这些键值对写入内存缓存区(100M),内存缓存区的数据每满80M就会将这80M数据写 ...
分类:其他好文   时间:2020-04-01 00:56:20    阅读次数:58
Linux下hadoop和spark的基础环境配置准备
我使用了4台虚拟机centos7来搭建环境, 2个主结点(一般是一个,但为了体验zookeeper,万一其中一个master挂掉呢,另外一个会自动启动接管), 2个从结点 注意:下面的配置主要以主节点为例进行说明 第一步:同步四台机器的时钟 sudo yum install ntpdate,确保已安 ...
分类:系统相关   时间:2020-03-31 22:59:21    阅读次数:97
Window7 开发 Spark 应用
WordCount是大数据学习最好的入门demo,今天就一起开发java版本的WordCount,然后提交到Spark3.0.0环境运行; 版本信息 OS: Window7 JAVA:1.8.0_181 Hadoop:3.2.1 Spark: 3.0.0-preview2-bin-hadoop3.2 ...
分类:Windows程序   时间:2020-03-31 19:06:35    阅读次数:96
spark-2.4.5 安装记录
参考 https://data-flair.training/blogs/install-apache-spark-multi-node-cluster/ 下载 spark 地址为 http://spark.apache.org/downloads.html 准备三个节点 192.168.1.1 [ ...
分类:其他好文   时间:2020-03-31 19:04:21    阅读次数:228
Window7 开发 Spark 分析 Nginx 日志
通过上文 Window7 开发 Spark 应用 ,展示了如何开发一个Spark应用,但文中使用的测试数据都是自己手动录入的。 所以本文讲解一下如何搭建一个开发闭环,本里使用了Nginx日志采集分析为例,分析页面访问最多的10个,404页面的10。 如果把这些开发成果最终展示到一个web网页中,在这 ...
分类:Windows程序   时间:2020-03-31 19:03:20    阅读次数:83
Spark运行流程图总结
1. 整体架构 2. Standalone cluster 模式 3. Driver的运行流程 ...
分类:其他好文   时间:2020-03-31 14:37:16    阅读次数:82
使用SparkSQL编写wordCount的词频统计
# 使用SparkSQL编写wordCount的词频统计 ## word.txt```hello hello scala sparkjava sql html java hellojack jack tom tom you he he sql``` ## spark 代码:```objec ...
分类:数据库   时间:2020-03-30 21:50:35    阅读次数:213
MPI通信的几种模式, Broadcast, Scatter, Gather, Allgather, Reduce, AllReduce
1.Broadcast 2.Scatter 3.Gather 4.Reduce 5.AllGather 6.Allreduce ...
分类:其他好文   时间:2020-03-30 19:33:40    阅读次数:274
IDEA,SparkSql读取HIve中的数据
传统Hive计算引擎为MapReduce,在Spark1.3版本之后,SparkSql正式发布,并且SparkSql与apachehive基本完全兼容,基于Spark强大的计算能力,使用Spark处理hive中的数据处理速度远远比传统的Hive快。在idea中使用SparkSql读取HIve表中的数据步骤如下1、首先,准备测试环境,将hadoop集群conf目录下的core-site.xml、hd
分类:数据库   时间:2020-03-30 14:42:50    阅读次数:141
RDD的cache、persist、checkpoint的区别和StorageLevel存储级别划分
为了增强容错性和高可用,避免上游RDD被重复计算的大量时间开销,Spark RDD设计了包含多种存储级别的缓存和持久化机制,主要有三个概念:cache、persist、checkout。 1、存储级别介绍(StorageLevel) 存储级别以一个枚举类StorageLevel定义,分为以下几种: ...
分类:系统相关   时间:2020-03-30 12:43:50    阅读次数:102
8013条   上一页 1 ... 47 48 49 50 51 ... 802 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!