码迷,mamicode.com
首页 >  
搜索关键字:shuf    ( 240个结果
小记--------sparkSQL - spark基础知识
1.RDD 是spark的核心数据结构,全称是弹性分布式数据集。 本质上是一种分布式的内存抽象,表示一个只读的数据分区集合。一个RDD通常只能通过其他的RDD转换而创建,RDD定义了各种丰富的转换操作,通过转换操作,新的RDD包含了如何从其他RDD衍生所必须的信息。这些信息构成了RDD之间的依赖关系 ...
分类:数据库   时间:2020-04-19 01:15:39    阅读次数:108
numpy 统计函数与随机数
一、统计函数 可以通过以下的基本统计方法对整个数组或者数组的某个轴的数据进行统计: 方法 说明 sum 求和 mean 算术平均数 std 标准差 var 方差 min 最小值 max 最大值 argmax 最大元素在指定轴上的索引 argmin 最小元素在指定轴上的索引 cumsum 累积的和 c ...
分类:其他好文   时间:2020-04-08 09:35:43    阅读次数:93
Hadoop (六):MapReduce基本使用
MapReduce原理 背景 因为如果要对海量数据进行计算,计算机的内存可能会不够。 因此可以把海量数据切割成小块多次计算。 而分布式系统可以把小块分给多态机器并行计算。 MapReduce概述 MapReduce是一种分布式计算模型,由Google提出主要用于搜索领域,解决海量数据的计算问题。 适 ...
分类:其他好文   时间:2020-04-05 00:49:37    阅读次数:74
spark常用提交任务的基本的参数配置
#!/bin/bash #队列名 根据yarn的队列提交 realtime_queue=root #提交的任务名 my_job_name="OrderQZ" spark-shell --master yarn --deploy-mode client \ --queue $realtime_queu ...
分类:其他好文   时间:2020-03-26 01:02:34    阅读次数:81
python列表(二)列表排序
一、列表排序 1.sort方法排序原址排序 list.sort(key=None,reverse=False(or True)) 当reverse=False时:为正向排序; 当reverse=True时:为反向排序。 默认为False。 2.key:排序关键字,值为一个函数,此函数只有一个参数且返 ...
分类:编程语言   时间:2020-03-21 16:25:08    阅读次数:72
NumPy数据存取与函数
一、数据的存取 1.CSV文件 1.1简介: 1.2 存,存到CSV文件中 实例: 1.3 取,加载CSV文件到数组 实例: 1.4 局限性: CSV只能有效存储一维和二维数组 np.savetxt() 和 np.loadtxt()只能有效存储一维和二维数组 2.多维数据 2.1 存,存到文件中 实 ...
分类:其他好文   时间:2020-03-14 14:40:49    阅读次数:57
string.php
<?php /** * 产生UUID */ function uuid() { $uuiqId = md5(uuiqid(mt_rand() . microtiome())); $uuid = substr($uniqId, 0, 8) . '-' $uuid = substr($uniqId, 8 ...
分类:Web程序   时间:2020-03-11 23:49:33    阅读次数:104
【猫狗数据集】划分验证集并边训练边验证
数据集下载地址: 链接:https://pan.baidu.com/s/1l1AnBgkAAEhh0vI5_loWKw提取码:2xq4 创建数据集:https://www.cnblogs.com/xiximayou/p/12398285.html 读取数据集:https://www.cnblogs. ...
分类:其他好文   时间:2020-03-11 19:43:17    阅读次数:98
Hadoop【2.1】 Shuffle概述
在每个maptask的结束,我们拿到的是<K,V>的队列,在Reduce中,输入的是<K,Iterable V>。在中间有一个被称为Shuffle的工作,将Maptask的数据按Key排序。其主要的工作,大体上讲1.完整地从map task端拉取数据到reduce端。2.在跨节点拉取数据时,尽可能地 ...
分类:其他好文   时间:2020-02-26 01:11:33    阅读次数:80
Spark内存管理
1、spark的一大特性就是基于内存计算,Driver只保存任务的宏观性的元数据,数据量较小,且在执行过程中基本不变,不做重点分析,而真正的计算任务Task分布在各个Executor中,其中的内存数据量大,且会随着计算的进行会发生实时变化,所以Executor的内存管理才分析的重点。 2、在执行Sp ...
分类:其他好文   时间:2020-02-20 19:53:27    阅读次数:56
240条   上一页 1 2 3 4 5 6 ... 24 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!