标签:default com cal doc index 分割 分组 val sample
入参:
返回:
下面是对一组数进行累加,并计算数据的长度的例子
# sum, sum1, sum2 的数据类型跟zeroValue一样, 是一个tuple(int, int)
seqOp = (lambda sum, item: (sum[0] + item, sum[1] + 1))
combOp = (lambda sum1, sum2: (sum1[0] + sum2[0], sum1[1] + sum2[1]))
result = sc.parallelize([1, 2, 3, 4]).aggregate((0, 0), seqOp, combOp)
print(result) # (10, 4)
基本跟aggregate类似,在相同的key下进行聚合操作
入参:
返回:
下面是对一队成员的成绩进行累加,并计算成员的总分和参加科目的总数
seqFunc = (lambda sum, item: (sum[0] + item, sum[1] + 1))
combFunc = (lambda sum1, sum2: (sum1[0] + sum2[0], sum1[1] + sum2[1]))
result = sc.parallelize(
[("A", 83), ("A", 74), ("A", 91), ("A", 82),
("B", 69), ("B", 62), ("B", 97), ("B", 80), ("B", 60),
("C", 78), ("C", 73), ("C", 68)]) .aggregateByKey((0, 0), seqFunc, combFunc)
print(result.collect()) # [(‘B‘, (368, 5)), (‘C‘, (219, 3)), (‘A‘, (330, 4))]
将RDD结果存储在内存中,以便再次利用
以下两条语句相等
result = sc.parallelize([1, 2, 3, 4]).cache()
result2 = sc.parallelize([1, 2, 3, 4]) .persist(storageLevel=StorageLevel.MEMORY_ONLY)
返回自己与传入rdd的笛卡尔积
入参:
返回:
num_rdd = sc.parallelize([1, 2])
str_rdd = sc.parallelize([‘a‘, ‘y‘])
result = num_rdd.cartesian(str_rdd)
print(result.collect()) # [(1, ‘a‘), (1, ‘y‘), (2, ‘a‘), (2, ‘y‘)]
常用于压缩任务,当分区过多时,将造成并行计算效率降低,调度器在不同分区中频繁切换,没有充分时间去完成计算任务。
入参:
返回:
num_rdd = sc.parallelize([i for i in range(0, 12)], 5)
print(num_rdd.glom().collect()) # [[0, 1], [2, 3], [4, 5], [6, 7], [8, 9, 10, 11]]
new_rdd = num_rdd.coalesce(2, shuffle=True)
print(new_rdd.glom().collect()) # [[0, 1, 4, 5, 6, 7], [2, 3, 8, 9, 10, 11]]
new_rdd2 = num_rdd.coalesce(2, shuffle=False)
print(new_rdd2.glom().collect()) # [[0, 1, 2, 3], [4, 5, 6, 7, 8, 9, 10, 11]]
将两个RDD中相同key进行合并,
入参:
返回:
x = sc.parallelize([("a", 1), ("b", 4)])
y = sc.parallelize([("a", 2), ("y", 4)])
z = x.cogroup(y) .map(lambda item: (item[0], list(item[1][0]), list(item[1][1])))
print(z.collect()) # [(‘b‘, [4], []), (‘y‘, [], [4]), (‘a‘, [1], [2])]
将数据以List取回本地
(官网)[https://spark.apache.org/docs/latest/api/python/pyspark.html]提示,建议只在任务结束时在调用collect方法,否则很容易OOM
将数据以key-value对的形式取回本地
基本跟aggregate类似,在相同的key下进行聚合操作, 计算过程发生在Driver端
init = (lambda val: [val])
seqFunc = (lambda sum_list, item: sum_list + [item])
combFunc = (lambda sum_list1, sum_list2: sum_list1 + sum_list2)
result = sc.parallelize(
[("A", 83), ("A", 74), ("A", 91), ("A", 82),
("B", 69), ("B", 62), ("B", 97), ("B", 80), ("B", 60),
("C", 78), ("C", 73), ("C", 68)]) .combineByKey(init, seqFunc, combFunc)
print(result.collect())
# [(‘B‘, [69, 62, 97, 80, 60]), (‘C‘, [78, 73, 68]), (‘A‘, [83, 74, 91, 82])]
返回RDD内存储的数据长度(List形式)
计算结果的估计数量;返回在timeout时间内完成的计算任务 的数据长度(List形式)
入参:
返回:
rdd = sc.parallelize([("a", 1), ("b", 1), ("a", 1)])
print(rdd.countApprox(100)) # 3
返回每个key对应的元素数量
rdd = sc.parallelize([("a", 1), ("b", 1), ("a", 1)])
print(rdd.countByKey()) # defaultdict(<class ‘int‘>, {‘a‘: 2, ‘b‘: 1})
返回每个value出现的次数
rdd2 = sc.parallelize([1, 2, 1, 2, 2], 2)
print(rdd2.countByValue()) # defaultdict(<class ‘int‘>, {1: 2, 2: 3})
遍历全部元素,并返回包含的不同元素的总数
入参:
返回:
遍历全部元素,筛选符合传入方法的元素
入参:
返回:
rdd = sc.parallelize([1, 2, 3, 4, 5])
rdd.filter(lambda x: x % 2 == 0)
print(rdd.collect()) # [2, 4]
遍历全部元素,将传入方法应用到每个元素上,并将最后结果展平(压成一个List)
入参:
返回:
rdd = sc.parallelize([2, 3, 4])
sorted(rdd.flatMap(lambda x: range(1, x)).collect()) #[1, 1, 1, 2, 2, 3]
sorted(rdd.flatMap(lambda x: [(x, x), (x, x)]).collect()) #[(2, 2), (2, 2), (3, 3), (3, 3), (4, 4), (4, 4)]
遍历某个元素的元素值,将传入方法应用到每个元素值上,并将最后结果展平(压成一个List)
入参:
返回:
x = sc.parallelize([("a", ["x", "y", "z"]), ("b", ["p", "r"])])
x.flatMapValues(lambda val: val).collect() # [(‘a‘, ‘x‘), (‘a‘, ‘y‘), (‘a‘, ‘z‘), (‘b‘, ‘p‘), (‘b‘, ‘r‘)]
fold()与reduce()类似,接收与reduce接收的函数签名相同的函数,另外再加上一个初始值作为第一次调用的结果。(例如,加法初始值应为0,乘法初始值应为1)
入参:
返回:
x = sc.parallelize([1, 2, 3, 4, 5])
x.fold(0, add) # 15
基本跟fold()类似,在相同的key下进行聚合操作
入参:
返回:
x = sc.parallelize([("a", 1), ("b", 1), ("a", 1)])
x.foldByKey(0, add).collect() # [(‘a‘, 2), (‘b‘, 1)]
用于遍历RDD中的元素,将函数func应用于每一个元素。
入参:
返回:
def f(x): print(x)
sc.parallelize([1, 2, 3, 4, 5]).foreach(f)
遍历某个分区下的全部元素,将函数func应用于每一个元素。
入参:
返回:
def f(iterator):
for x in iterator:
print(x)
sc.parallelize([1, 2, 3, 4, 5]).foreachPartition(f)
按分区对元素进行聚合, 返回一个二维列表
rdd = sc.parallelize([1, 2, 3, 4], 2)
sorted(rdd.glom().collect()) # [[1, 2], [3, 4]]
这个算子接收一个Func,应用函数后的返回值作为key,然后通过这个key来对里面的元素进行分组。
入参:
返回:
rdd = sc.parallelize([1, 1, 2, 3, 5, 8])
result = rdd.groupBy(lambda x: x % 2).collect()
sorted([(x, sorted(y)) for (x, y) in result]) # [(0, [2, 8]), (1, [1, 1, 3, 5])]
与groupBy类似,不需要再传入func
cogroup的加强版,可以用于多于两个的RDD合并
入参:
返回:
x = sc.parallelize([("a", 1), ("b", 4)])
y = sc.parallelize([("a", 2), ("y", 4)])
w = sc.parallelize([("c", 3), ("a", 6)])
z = x.groupWith(y, w) .map(lambda item: (item[0], list(item[1][0]), list(item[1][1])))
print(z.collect()) # [(‘b‘, [4], []), (‘y‘, [], [4]), (‘a‘, [1], [2]), (‘c‘, [], [])]
内连接,将两个RDD中具有相同的key时进行连接
入参:
返回:
x = sc.parallelize([("a", 1), ("b", 4)])
y = sc.parallelize([("a", 2), ("a", 3)])
sorted(x.join(y).collect()) # [(‘a‘, (1, 2)), (‘a‘, (1, 3))]
左外连接, 与join类似
入参:
返回:
入参:
返回:
入参:
返回:
入参:
返回:
入参:
返回:
入参:
返回:
入参:
返回:
入参:
返回:
入参:
返回:
入参:
返回:
入参:
返回:
入参:
返回:
右外连接, 与join类似
x = sc.parallelize(range(0,5))
y = sc.parallelize(range(1000, 1005))
x.zip(y).collect() # [(0, 1000), (1, 1001), (2, 1002), (3, 1003), (4, 1004)]
rdd = sc.parallelize(["a", "b", "c", "d"], 3).zipWithIndex().collect()
print(rdd.collect()) #[(‘a‘, 0), (‘b‘, 1), (‘c‘, 2), (‘d‘, 3)]
rdd = sc.parallelize(["a", "b", "c", "c", "e"], 3).zipWithUniqueId()
print(rdd.collect())
标签:default com cal doc index 分割 分组 val sample
原文地址:https://www.cnblogs.com/sight-tech/p/12990579.html