码迷,mamicode.com
首页 > 其他好文 > 详细

spark 教程一 RDD和核心概念

时间:2017-07-07 15:26:01      阅读:154      评论:0      收藏:0      [点我收藏+]

标签:方法   分区   mapr   reg   mat   gre   求职   bsp   lte   

1.RDD 的介绍

  RDD 是spark的核心概念,可以将RDD是做数据库中的一张表,RDD可以保存任何类型的数据,可以用API来处理RDD及RDD中的数据,类似于Mapreduce, RDD 也有分区的概念。RDD是不可变的可以变换(Transformation)操作RDD,但是这个变换返回的是一个全新的RDD,原先的RDD保持不变

2.RDD的两种操作 Transformation 和 Action

  transformation 变换,变换的返回值是一个新的RDD集合,而不是单个值调用一个变换方法,不会有任何求职计算,它只获取一个RDD作为参数,返回一个全新的RDD,变换函数包括,map、filter、flatMap、groupByKey、reduceByKey、aggregateByKay、pipe、coalesce等

  action 行动,行动操作计算并返回一个新的值,当在RDD中操作一个行动函数时,会在这一刻计算全部的数据处理和查询,并返回所有的结果,行动操作包括,redeuce、collect、count、first、take、countByKey、foreach等

 

spark 教程一 RDD和核心概念

标签:方法   分区   mapr   reg   mat   gre   求职   bsp   lte   

原文地址:http://www.cnblogs.com/IChing/p/7131974.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!