码迷,mamicode.com
首页 >  
搜索关键字:parallelize    ( 65个结果
spark
创建rdd的两种方式:1)loading an external dataset eg:lines = sc.parallelize(List("pandas","numpy"))#一次性导入整个dataset 因而不被广泛使用 2) distrbuting a collection of obje ...
分类:其他好文   时间:2018-04-04 23:24:00    阅读次数:169
Spark:如何替换sc.parallelize(List(item1,item2)).collect().foreach(row=>{})为并行?
代码场景: 1)设定的几种数据场景,遍历所有场景:依次统计满足每种场景条件下的数据,并把统计结果存入hive; 2)已有代码如下: 备注: 在generateSampleBySenceType()函数内部包含有: 如果把代码修改: 则会提示:generateSampleBySenceType()内部 ...
分类:其他好文   时间:2018-03-04 18:05:14    阅读次数:703
Spark 学习笔记 —— 常见API
一、RDD 的创建 1)通过 RDD 的集合数据结构,创建 RDD sc.parallelize(List(1,2,3),2) 其中第二个参数代表的是整个数据,分为 2 个 partition,默认情况会讲数据集进行平分,注意不是两个副本 2)通过文件来读取 sc.textFile("file.tx ...
分类:Windows程序   时间:2018-02-27 14:04:38    阅读次数:247
Spark之常用操作
-- 筛选 val rdd = sc.parallelize(List("ABC","BCD","DEF")) val filtered = rdd.filter(_.contains("C")) filtered.collect() Result: Array[String] = Array(AB... ...
分类:其他好文   时间:2018-01-09 20:24:25    阅读次数:132
Spark RDD操作记录(总结)
创建ListintRDD = sc.parallelize(List(1,2,3,4,5))过滤包含stringRDD.filter(_.contains("a")).collect()去重stringRDD.distinct.collect()RDD拆分val sRDD = intRDD.rand ...
分类:其他好文   时间:2017-11-19 02:07:19    阅读次数:159
Spark(Python) 从内存中建立 RDD 的例子
Spark(Python) 从内存中建立 RDD 的例子: myData = ["Alice","Carlos","Frank","Barbara"]myRdd = sc.parallelize(myData)myRdd.take(2) In [52]: myData = ["Alice","Car ...
分类:编程语言   时间:2017-09-24 18:18:34    阅读次数:514
02、创建RDD(集合、本地文件、HDFS文件)
Spark Core提供了三种创建RDD的方式,包括:使用程序中的集合创建RDD;使用本地文件创建RDD;使用HDFS文件创建RDD。1、并行化集合如果要通过并行化集合来创建RDD,需要针对程序中的集合,调用SparkContext的parallelize()方法。Spark会将集合中的数据拷贝到集... ...
分类:其他好文   时间:2017-07-26 19:24:24    阅读次数:263
python spark 通过key来统计不同values个数
distinct(numPartitions=None) Return a new RDD containing the distinct elements in this RDD. >>> sorted(sc.parallelize([1, 1, 2, 3]).distinct().collect ...
分类:编程语言   时间:2017-07-12 15:07:40    阅读次数:280
spark
/* * spark算子是RDD中定义的函数,可以对RDD中的数据进行转换和操作。 * spark算子的作用: * 1.输入:在spark程序运行中,数据从外部数据空间(如分布式存储:textFile读取HDFS等,parallelize方法输入scala集合或数据)输入spark, * 数据进入s... ...
分类:其他好文   时间:2017-02-04 18:18:49    阅读次数:328
RDD之三:RDD创建方式
RDD创建方式 1)从Hadoop文件系统(如HDFS、Hive、HBase)输入创建。2)从父RDD转换得到新RDD。3)通过parallelize或makeRDD将单机数据创建为分布式RDD。 4)基于DB(Mysql)、NoSQL(HBase)、S3(SC3)、数据流创建。 从集合创建RDD ...
分类:其他好文   时间:2017-01-20 22:01:33    阅读次数:331
65条   上一页 1 2 3 4 5 6 7 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!