码迷,mamicode.com
首页 >  
搜索关键字:spark shuffle    ( 7773个结果
spark (Java API) 在Intellij IDEA中开发并运行
概述:Spark 程序开发,调试和运行,intellij idea开发Spark java程序。分两部分,第一部分基于intellij idea开发Spark实例程序并在intellij IDEA中运行Spark程序.第二部分,将开发程序提交到Spark local或者hadoop YARN集群运行 ...
分类:编程语言   时间:2021-01-08 10:56:23    阅读次数:0
Spark SQL 之 RDD、DataFrame 和 Dataset 如何选择
引言 Apache Spark 2.2 以及以上版本提供的三种 API - RDD、DataFrame 和 Dataset,它们都可以实现很多相同的数据处理,它们之间的性能差异如何,在什么情况下该选用哪一种呢? RDD 从一开始 RDD 就是 Spark 提供的面向用户的主要 API。从根本上来说, ...
分类:数据库   时间:2021-01-08 10:40:55    阅读次数:0
Spark UDAF实现举例 -- average pooling
1.UDAF定义 spark中的UDF(UserDefinedFunction)大家都不会陌生, UDF其实就是将一个普通的函数, 包装为可以按 行 操作DataFrame中指定Columns的函数. 例如, 对某一列的所有元素进行+1操作, 它对应mapreduce操作中的map操作. 这种操作有 ...
分类:其他好文   时间:2021-01-04 11:31:11    阅读次数:0
Spark 取前几行,先sort再limit
scala> val df = sc.parallelize(Seq( | (0,"cat26",30.9), | (1,"cat67",28.5), | (2,"cat56",39.6), | (3,"cat8",35.6))).toDF("Hour", "Category", "Value") ...
分类:其他好文   时间:2021-01-02 11:32:57    阅读次数:0
Spark 创建一个简单的DataFrame示例
scala> val df = sc.parallelize(Seq( | (0,"cat26",30.9), | (1,"cat67",28.5), | (2,"cat56",39.6), | (3,"cat8",35.6))).toDF("Hour", "Category", "Value") ...
分类:其他好文   时间:2021-01-02 11:32:37    阅读次数:0
使用yarn安装spark集群
由于之前已经搭建好了,今天是看视频回顾下,然后做下记录。 之前已经搭建好了Yarn集群,现在在Yarn集群上搭建spark。 1、安装spark 下载源码包:wget http://mirror.bit.edu.cn/apache/spark/spark-1.3.0/spark-1.3.0.tgz ...
分类:其他好文   时间:2021-01-01 12:18:40    阅读次数:0
记Hive SQL中TEMPORARY VIEW的一个数据对不上的坑
问题背景: (无关操作已省略) Spark ETL执行以下SQL: CREATE TEMPORARY VIEW A select user_id, ...; CREATE TEMPORARY VIEW B select user_id, ... from A ...; INSERT OVERWRIT ...
分类:数据库   时间:2020-12-29 11:28:30    阅读次数:0
学好Spark/Kafka必须要掌握的Scala技术点(三)高阶函数、方法、柯里化、隐式转换
建议在用Scala编写相关功能实现时,边学习、边应用、边摸索以加深对Scala的理解和应用 ...
分类:其他好文   时间:2020-12-21 11:32:22    阅读次数:0
hadoop Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out
hadoop Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out 程序里面需要打开多个文件,进行分析,系统一般默认数量是1024,(用ulimit -a可以看到)对于正常使用是够了,但是对于程序来讲,就太少了。修改办法:修改2 ...
分类:其他好文   时间:2020-12-19 13:37:26    阅读次数:3
学好Spark/Kafka必须要掌握的Scala技术点(二)类、单例/伴生对象、继承和trait,模式匹配、样例类(case class)
Scala是以JVM为运行环境的面向对象的函数式编程语言,它可以直接访问Java类库并且与Java框架进行交互操作 ...
分类:其他好文   时间:2020-12-19 13:14:39    阅读次数:1
7773条   上一页 1 ... 13 14 15 16 17 ... 778 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!