搜索关键字：spark broadcast，搜索到8013个结果！码迷,mamicode.com！

从源码看Spark读取Hive表数据小文件和分块的问题

前言有同事问到，Spark读取一张Hive表的数据Task有一万多个，看了Hive表分区下都是3MB~4MB的小文件，每个Task只处理这么小的文件，实在浪费资源浪费时间。而我们都知道Spark的Task数由partitions决定，所以他想通过repartition(num)的方式来改变分区数， ...

分类：其他好文时间：2020-05-03 12:43:20 阅读次数：54

spark系列-2、Spark 核心数据结构：弹性分布式数据集 RDD

一、RDD(弹性分布式数据集) RDD 是 Spark 最核心的数据结构，RDD（Resilient Distributed Dataset）全称为弹性分布式数据集，是 Spark 对数据的核心抽象，也是最关键的抽象，它实质上是一组分布式的 JVM 不可变对象集合，不可变决定了它是只读的，所以 RD ...

分类：其他好文时间：2020-05-02 14:51:21 阅读次数：56

隐式装换

1 package com.ds 2 3 import org.apache.spark.sql.{Dataset, SparkSession} 4 5 object DataSet { 6 7 def main(args: Array[String]): Unit = { 8 val spark: ...

分类：其他好文时间：2020-05-02 12:10:05 阅读次数：46

spark_sql_DataFromMysql_InferringSchema_SparkSqlSchema_SparkSqlToMysql_SparkStreaming_Flume_Poll

1 package com.spark_sql 2 3 import java.util.Properties 4 import org.apache.spark.sql.{DataFrame, SparkSession} 5 6 object DataFromMysql { 7 def main( ...

分类：数据库时间：2020-05-02 11:31:58 阅读次数：63

Spark Streaming

流计算概述流数据是指在时间分布上和数量上无线的一系列动态数据集合。数据记录是流数据的最小组成单元。流数据特征数据快速持续到达，无穷无尽数据来源众多，格式复杂数据量大，不关心存储注重数据的整体价值，不过分关注个别数据数据顺序颠倒或者不完整流计算流数据被处理后，一部分进入数据库成为静态 ...

分类：其他好文时间：2020-05-01 17:08:46 阅读次数：96

spark dataFrame 相关知识点

相关函数：操作DataFrame 1.data.printSchema:打印出每一列的名称和类型 2.data.show(numRows:Int):输出data 3.Data.head(n:int).foreach(println): 这个函数也需要输入一个参数标明需要采样的行数，而且这个函数返回 ...

分类：其他好文时间：2020-04-29 15:01:03 阅读次数：60

Spark Streaming实时计算

spark批处理模式： receiver模式：接收数据流，负责数据的存储维护，缺点：数据维护复杂（可靠性，数据积压等），占用计算资源（core，memory被挤占） direct模式：数据源由三方组件完成，spark只负责数据拉取计算，充分利用资源计算 window计算： def windowApi ...

分类：其他好文时间：2020-04-29 14:30:19 阅读次数：68

Spark WARN Utils: Service 'sparkDriver' could not bind on port 0. Attempting port 1.

问题执行 spark-submit --master local模式时产生warn并达重试数限制失败，导致spark local不能启动： ... WARN Utils: Service 'sparkDriver' could not bind on port 0. Attempting port ...

分类：其他好文时间：2020-04-29 12:46:42 阅读次数：126

数据源Data Source--通用的数据加载/保存功能

Spark SQL支持通过DataFrame接口在各种数据源上进行操作。DataFrame可以使用关系变换进行操作，也可以用来创建临时视图。将DataFrame注册为临时视图允许您对其数据运行SQL查询。本节介绍使用Spark Data Sources加载和保存数据的一般方法，然后介绍可用于内置数据 ...

分类：其他好文时间：2020-04-29 10:49:26 阅读次数：64

四、Hadoop搭建Spark

一、Scala安装 1.1下载并解压Scala 1.2 将Scala添加到环境变量 1.3激活配置二、安装Spark 2.1下载并解压Spark 2.2 修改文件夹名字 2.3配置环境变量三、配置Spark 需要修改的配置文件有两个 Spark env.sh, spark defaults.co ...

分类：其他好文时间：2020-04-28 20:13:43 阅读次数：57

共8013条上一页 1 ... 40 41 42 43 44 ... 802 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)