搜索关键字：parallelize，搜索到65个结果！码迷,mamicode.com！

spark

创建rdd的两种方式：1）loading an external dataset eg：lines = sc.parallelize(List("pandas","numpy"))#一次性导入整个dataset 因而不被广泛使用 2) distrbuting a collection of obje ...

分类：其他好文时间：2018-04-04 23:24:00 阅读次数：169

Spark：如何替换sc.parallelize(List(item1,item2)).collect().foreach(row=>{})为并行？

代码场景： 1）设定的几种数据场景，遍历所有场景：依次统计满足每种场景条件下的数据，并把统计结果存入hive； 2）已有代码如下：备注：在generateSampleBySenceType()函数内部包含有: 如果把代码修改：则会提示：generateSampleBySenceType()内部 ...

分类：其他好文时间：2018-03-04 18:05:14 阅读次数：703

Spark 学习笔记 —— 常见API

一、RDD 的创建 1）通过 RDD 的集合数据结构，创建 RDD sc.parallelize(List(1,2,3),2) 其中第二个参数代表的是整个数据，分为 2 个 partition，默认情况会讲数据集进行平分，注意不是两个副本 2）通过文件来读取 sc.textFile("file.tx ...

分类：Windows程序时间：2018-02-27 14:04:38 阅读次数：247

Spark之常用操作

-- 筛选 val rdd = sc.parallelize(List("ABC","BCD","DEF")) val filtered = rdd.filter(_.contains("C")) filtered.collect() Result: Array[String] = Array(AB... ...

分类：其他好文时间：2018-01-09 20:24:25 阅读次数：132

Spark RDD操作记录(总结)

创建ListintRDD = sc.parallelize(List(1,2,3,4,5))过滤包含stringRDD.filter(_.contains("a")).collect()去重stringRDD.distinct.collect()RDD拆分val sRDD = intRDD.rand ...

分类：其他好文时间：2017-11-19 02:07:19 阅读次数：159

Spark(Python) 从内存中建立 RDD 的例子

Spark(Python) 从内存中建立 RDD 的例子： myData = ["Alice","Carlos","Frank","Barbara"]myRdd = sc.parallelize(myData)myRdd.take(2) In [52]: myData = ["Alice","Car ...

分类：编程语言时间：2017-09-24 18:18:34 阅读次数：514

02、创建RDD（集合、本地文件、HDFS文件）

Spark Core提供了三种创建RDD的方式，包括：使用程序中的集合创建RDD；使用本地文件创建RDD；使用HDFS文件创建RDD。1、并行化集合如果要通过并行化集合来创建RDD，需要针对程序中的集合，调用SparkContext的parallelize()方法。Spark会将集合中的数据拷贝到集... ...

分类：其他好文时间：2017-07-26 19:24:24 阅读次数：263

python spark 通过key来统计不同values个数

distinct(numPartitions=None) Return a new RDD containing the distinct elements in this RDD. >>> sorted(sc.parallelize([1, 1, 2, 3]).distinct().collect ...

分类：编程语言时间：2017-07-12 15:07:40 阅读次数：280

spark

/* * spark算子是RDD中定义的函数，可以对RDD中的数据进行转换和操作。 * spark算子的作用： * 1.输入：在spark程序运行中，数据从外部数据空间（如分布式存储：textFile读取HDFS等，parallelize方法输入scala集合或数据）输入spark， * 数据进入s... ...

分类：其他好文时间：2017-02-04 18:18:49 阅读次数：328

RDD之三：RDD创建方式

RDD创建方式 1）从Hadoop文件系统（如HDFS、Hive、HBase）输入创建。2）从父RDD转换得到新RDD。3）通过parallelize或makeRDD将单机数据创建为分布式RDD。 4）基于DB(Mysql)、NoSQL(HBase)、S3(SC3)、数据流创建。从集合创建RDD ...

分类：其他好文时间：2017-01-20 22:01:33 阅读次数：331

共65条上一页 1 2 3 4 5 6 7 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)