Spark学习笔记

时间：2018-02-24 16:51:13 阅读：129 评论：0 收藏：0 [点我收藏+]

注意：
问题：Failed:execution error: return code 1 from org.apache.hadoop.hive.ql.exec.DDL Task MetaException(message:For direct metaStore DB connections,we dont‘t support retries)
解决方法：数据库字符集的问题。ALTER DATABASE hive CHARACTER SET latin1;

一、Scala基础
　　1. foreach：无返回值
　　　map：有返回值
　　2.在Scala中重写非抽象方法必须用override修饰

二、Akka架构
　　1 ActorSystem是这个进程中的Actor的老大，负责创建和监控所有的actor
　　2 ActorSystem是单例的
　　3 actor负责通信
　　4.每个actor内部都是顺序执行的

三、Spark
　　1.Spark角色
　　　　Master -->管理所有的Worker，进而进行资源的调度
　　　　Worker -->管理当前计算节点,Worker会启动一个Executor来完成真正的任务
　　　　Executor -->
　　2.Spark算子分两类
　　　　Transformation 转换(延迟执行)，只会记录元数据信息和操作
　　　　Actions 动作
　　3.创建RDD有两种方式
　　　　a.通过HDFS支持的文件系统创建RDD，RDD里面没有真正要计算的数据，只记录了元数据
　　　　b.通过Scala集合或数组以并行化的方式创建RDD
　　4.RDD的特点
　　　　1)A list of partitions
　　　　2)A function for computing each split
　　　　3)A list of dependencies on each RDDS
　　　　4)Optionally, a Partitioner for key-value RDDS (e.g. to say that the RDD is hash-partitioned)
　　　　5)Optionally, a list of preferred locations to compute each split on

Spark学习笔记

标签：数组基础问题返回值笔记 return cut worker 方式

原文地址：https://www.cnblogs.com/yezl/p/8466147.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行