搜索关键字：spark sort-based shuffle内幕彻底解密，搜索到7004个结果！码迷,mamicode.com！

奈学教育《大数据开发工程师》课程大纲

本课程针对企业不同数据规模技术方案进行讲解，紧贴企业热门需求，深入讲解企业级大数据技术的数据存储技术、数据采集技术、数据处理技术、任务调度技术等；课程针对知识点进行企业级案例式教学，理论结合实战，从0到1构建大数据生态技术的方方面面，内容涵盖大数据平台、Spark、Flink、OLAP等核心技术；用真实的企业级实时数仓项目、离线数仓项目、PB级实时用户行为分析系统、千亿级实时广告系统等多个大型项目

分类：其他好文时间：2020-06-22 19:15:45 阅读次数：50

奈学教育《大数据开发工程师》课程大纲

本课程针对企业不同数据规模技术方案进行讲解，紧贴企业热门需求，深入讲解企业级大数据技术的数据存储技术、数据采集技术、数据处理技术、任务调度技术等；课程针对知识点进行企业级案例式教学，理论结合实战，从0到1构建大数据生态技术的方方面面，内容涵盖大数据平台、Spark、Flink、OLAP等核心技术；用 ...

分类：其他好文时间：2020-06-22 18:50:44 阅读次数：295

想了解大数据的鼻祖Hadoop技术栈，这里有一份优质书单推荐！

? 如何用形象的比喻描述大数据的技术生态？Hadoop、Hive、Spark 之间是什么关系？对于大部分人来说都是傻傻分不清楚。今年来大数据、人工智能获得了IT界大量的关注。如果一个企业不玩大数据，都不好意思说自己是在IT圈混的。我敢打赌，你在中关村西二旗地铁站溜一圈，保准你会听到如下名词：Had ...

分类：其他好文时间：2020-06-20 23:54:38 阅读次数：100

基于Kafka的实时计算引擎：Flink能否替代Spark？

根据IBM的统计报告显示，过去两年内，当今世界上90%的数据产生源于新设备、传感器以及技术的出现，数据增长率也会为此加速。而从技术上将，这意味着大数据领域，处理这些数据将变得更加复杂和具有挑战性。例如移动应用广告、欺诈检测、出租车预订、患者监控等场景处理时，需要对实时数据进行实时处理，以便做出快速可行的决策。目前业界有开源不少实时计算引擎，以Apache基金会的两款开源实时计算引擎最受欢迎，它们分

分类：其他好文时间：2020-06-20 09:12:52 阅读次数：230

spark 参数设置

https://blog.csdn.net/u012102306/article/details/51637366 /bin/spark-submit \ --master yarn-cluster \ --num-executors 100 \ --executor-memory 6G \ --e ...

分类：其他好文时间：2020-06-19 12:03:23 阅读次数：58

spark数据分区数量的原理

原始RDD或数据集中的每一个分区都映射一个或多个数据文件，该映射是在文件的一部分或者整个文件上完成的。 Spark Job RDD/datasets在执行管道中，通过根据分区到数据文件的映射读取数据输入到RDD/dataset。如何根据某些参数确定spark的分区数？影响数据分区数的参数： ( ...

分类：其他好文时间：2020-06-18 13:16:01 阅读次数：66

scala 如何显示大数

1.在使用Spark的 sum() 算子经常遇到结果被自动转化为科学技术如何正常显示呢假如 n结果会是一个科学计数法 val n=data.map(x=>x.toInt).sum() 然后我们 val a = BigDecimal(n) println(a) 这样打印出来的结果就是正常的大数 ...

分类：其他好文时间：2020-06-16 10:24:45 阅读次数：95

Spark Streaming读取Kafka数据两种方式

1.基于Receiver的方式这种方式使用Receiver来接收kafka中的数据，Receiver是基于kafka的高层Consumer API来实现的。Receiver从Kafka中获取的数据都是存储在Spark Executor的内存中的，然后Spark Streaming启动的job会去处 ...

分类：其他好文时间：2020-06-15 22:58:10 阅读次数：60

Spark 双流join代码示例

基本思想与flink流的join原理不同的是，Spark双流join是对俩个流做满外连接，因为网络延迟等关系，不能保证每个窗口中的数据key都能匹配上，这样势必会出现三种情况：（some，some），（None，some），（Some,None）,根据这三种情况，下面做一下详细解析：（some ...

分类：其他好文时间：2020-06-15 21:21:14 阅读次数：156

Spark文档阅读之二：Programming Guides - Quick Start

Spark文档阅读之Programming Guides - Quick Start。学习spark-shell任务提交方法和独立spark任务的创建和提交执行。 ...

分类：其他好文时间：2020-06-15 20:41:53 阅读次数：51