标签:eva mat 业务 处理 stack 判断 filter form ret
Spark Core: (回顾)
Speed
disk 10x
memory 100x
Easy
code
interactive shell
Unified Stack
Batch
Streaming
ML
Graph
Deployment
Local
Standalone
YARN
K8S
Multi Language
Scala
Python
R
Java
RDD: Resilient Distributed Dataset
five <==> source code
Create way:
textFile: local HDFS s3
parallelize: test
Transformation
lazy evaluated
map filter flatMap
Action
eager
return a value to Driver
collect reduce count take top
Cache
处理的日志: (有问题,就是有脏数据,(考虑代码的健壮性,所以要在代码中进行判断))
别想当然是正确的
虽然说日志中每个字段的含义以及分隔符是什么都是事先定义好的
一行核心代码,需要N多行代码来保障
LogApp: 目的性
了解Spark如何进行大数据业务处理
掌握生产上边界值 ==》 使的你的代码
运行架构是什么样子的呢? ********
一个task就是一个分区
一个core上有多个线程 看并行度
标签:eva mat 业务 处理 stack 判断 filter form ret
原文地址:https://www.cnblogs.com/suixingc/p/spark-core-hui-gu.html