搜索关键字：spark sort-based shuffle内幕彻底解密，搜索到7004个结果！码迷,mamicode.com！

Hadoop、HBase、Spark单机安装

水平有限，本文仅以流水账的方式介绍自己安装三款软件的过程。环境Ubuntu on 虚拟机： $ cat /proc/version Linux version 4.15.0-54-generic (buildd@lgw01-amd64-014) (gcc version 7.4.0 \(U ...

分类：其他好文时间：2020-07-13 13:14:44 阅读次数：63

Could not locate executable null\bin\winutils.exe in the Hadoop binaries

java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries. 出现这个问题的原因是我们在windows上模拟开发环境，但并没有真正的搭建hadoop和spark 解决办法： ...

分类：Windows程序时间：2020-07-12 10:31:00 阅读次数：98

半小时，利用FEDB将你的Spark SQL模型变为在线服务

SparkSQL在机器学习场景中应用第四范式已经在很多行业落地了上万个AI应用，比如在金融行业的反欺诈，媒体行业的新闻推荐，能源行业管道检测，而SparkSQL在这些AI应用中快速实现特征变换发挥着重要的作用SparkSQL在特征变换主要有一下几类1.多表场景，用于表之间拼接操作，比如交易信息表去拼接账户表2.使用udf进行简单的特征变换，比如对时间戳进行hour函数处理3.使用时间窗口和udaf

分类：数据库时间：2020-07-09 17:54:20 阅读次数：99

Spark Streaming

Concept http://spark.apache.org/streaming/ Spark Streaming makes it easy to build scalable fault-tolerant streaming applications. Ease of Use Build ap ...

分类：其他好文时间：2020-07-08 13:26:09 阅读次数：59

Spark SQL : DataFrame repartition、coalesce 对比

repartition repartition 有三个重载的函数： 1) def repartition(numPartitions: Int): DataFrame /** * Returns a new [[DataFrame]] that has exactly `numPartitions` ...

分类：数据库时间：2020-07-08 13:17:49 阅读次数：93

Spark 源码解读（五）SparkContext的初始化之创建和启动DAGScheduler

Spark 源码解读（五）SparkContext的初始化之创建和启动DAGScheduler DAGScheduler主要用于在任务正式提交给TaskSchedulerImpl提交之前做一些准备工作，包括：创建job,将DAG中的RDD划分到不同的Stage,提交Stage等等。SparkCont ...

分类：其他好文时间：2020-07-07 23:39:16 阅读次数：102

spark rdd--分区理解

1.分区的作用 RDD 使用分区来分布式并行处理数据, 并且要做到尽量少的在不同的 Executor 之间使用网络交换数据, 所以当使用 RDD 读取数据的时候, 会尽量的在物理上靠近数据源, 比如说在读取 Cassandra 或者 HDFS 中数据的时候, 会尽量的保持 RDD 的分区和数据源的分 ...

分类：其他好文时间：2020-07-07 13:11:09 阅读次数：164

Kafka Streams与其他流处理平台的差异在哪里？

本文已收录GitHub，更有互联网大厂面试真题，面试攻略，高效学习资料等近些年来，开源流处理领域涌现出了很多优秀框架。光是在Apache基金会孵化的项目，关于流处理的大数据框架就有十几个之多，比如早期的ApacheSamza、ApacheStorm，以及这两年火爆的Spark以及Flink等。应该说，每个框架都有自己独特的地方，也都有自己的缺陷。面对这众多的流处理框架，我们应该如何选择呢？在本文汇

分类：其他好文时间：2020-07-07 11:38:26 阅读次数：67

Spark

1、Spark是什么 Spark是一个高性能内存处理引擎，它提供了基于RDD的数据抽象，能够灵活处理分布式数据集 2、Spark核心概念 RDD：弹性分布式数据集，它是一个只读的、带分区的数据集合，并支持多种分布式算子。由下面5部分构成：一组partition 每个partition的计算函数所 ...

分类：其他好文时间：2020-07-06 19:30:48 阅读次数：57

Spark快速入门之RDD编程模型

RDD(Resilient Distributed Dataset)叫做分布式数据集，是Spark中最基本的数据抽象，它代表一个可分区，不可变，里面的元素可并行计算的结合。RDD具有自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显示地将工作集换存在内存中，后续的查询能够重用工作集 ...

分类：其他好文时间：2020-07-06 16:20:23 阅读次数：61

共7004条上一页 1 ... 20 21 22 23 24 ... 701 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)