搜索关键字：shuf，搜索到240个结果！码迷,mamicode.com！

小记--------sparkSQL - spark基础知识

1.RDD 是spark的核心数据结构，全称是弹性分布式数据集。本质上是一种分布式的内存抽象，表示一个只读的数据分区集合。一个RDD通常只能通过其他的RDD转换而创建，RDD定义了各种丰富的转换操作，通过转换操作，新的RDD包含了如何从其他RDD衍生所必须的信息。这些信息构成了RDD之间的依赖关系 ...

分类：数据库时间：2020-04-19 01:15:39 阅读次数：108

numpy 统计函数与随机数

一、统计函数可以通过以下的基本统计方法对整个数组或者数组的某个轴的数据进行统计：方法说明 sum 求和 mean 算术平均数 std 标准差 var 方差 min 最小值 max 最大值 argmax 最大元素在指定轴上的索引 argmin 最小元素在指定轴上的索引 cumsum 累积的和 c ...

分类：其他好文时间：2020-04-08 09:35:43 阅读次数：93

Hadoop （六）：MapReduce基本使用

MapReduce原理背景因为如果要对海量数据进行计算，计算机的内存可能会不够。因此可以把海量数据切割成小块多次计算。而分布式系统可以把小块分给多态机器并行计算。 MapReduce概述 MapReduce是一种分布式计算模型，由Google提出主要用于搜索领域，解决海量数据的计算问题。适 ...

分类：其他好文时间：2020-04-05 00:49:37 阅读次数：74

spark常用提交任务的基本的参数配置

#!/bin/bash #队列名根据yarn的队列提交 realtime_queue=root #提交的任务名 my_job_name="OrderQZ" spark-shell --master yarn --deploy-mode client \ --queue $realtime_queu ...

分类：其他好文时间：2020-03-26 01:02:34 阅读次数：81

python列表（二）列表排序

一、列表排序 1.sort方法排序原址排序 list.sort(key=None,reverse=False(or True)) 当reverse=False时：为正向排序；当reverse=True时：为反向排序。默认为False。 2.key：排序关键字，值为一个函数，此函数只有一个参数且返 ...

分类：编程语言时间：2020-03-21 16:25:08 阅读次数：72

NumPy数据存取与函数

一、数据的存取 1.CSV文件 1.1简介： 1.2 存，存到CSV文件中实例： 1.3 取，加载CSV文件到数组实例： 1.4 局限性： CSV只能有效存储一维和二维数组 np.savetxt() 和 np.loadtxt()只能有效存储一维和二维数组 2.多维数据 2.1 存，存到文件中实 ...

分类：其他好文时间：2020-03-14 14:40:49 阅读次数：57

string.php

<?php /** * 产生UUID */ function uuid() { $uuiqId = md5(uuiqid(mt_rand() . microtiome())); $uuid = substr($uniqId, 0, 8) . '-' $uuid = substr($uniqId, 8 ...

分类：Web程序时间：2020-03-11 23:49:33 阅读次数：104

【猫狗数据集】划分验证集并边训练边验证

数据集下载地址：链接：https://pan.baidu.com/s/1l1AnBgkAAEhh0vI5_loWKw提取码：2xq4 创建数据集：https://www.cnblogs.com/xiximayou/p/12398285.html 读取数据集：https://www.cnblogs. ...

分类：其他好文时间：2020-03-11 19:43:17 阅读次数：98

Hadoop【2.1】 Shuffle概述

在每个maptask的结束，我们拿到的是<K,V>的队列，在Reduce中，输入的是<K,Iterable V>。在中间有一个被称为Shuffle的工作，将Maptask的数据按Key排序。其主要的工作，大体上讲1.完整地从map task端拉取数据到reduce端。2.在跨节点拉取数据时，尽可能地 ...

分类：其他好文时间：2020-02-26 01:11:33 阅读次数：80

Spark内存管理

1、spark的一大特性就是基于内存计算，Driver只保存任务的宏观性的元数据，数据量较小，且在执行过程中基本不变，不做重点分析，而真正的计算任务Task分布在各个Executor中，其中的内存数据量大，且会随着计算的进行会发生实时变化，所以Executor的内存管理才分析的重点。 2、在执行Sp ...

分类：其他好文时间：2020-02-20 19:53:27 阅读次数：56

共240条上一页 1 2 3 4 5 6 ... 24 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)