码迷,mamicode.com
首页 >  
搜索关键字:spark sort-based shuffle内幕彻底解密    ( 7004个结果
解决 SPARK_MASTER_OPTS is not allowed to specify max heap(Xmx) memory settings
SPARK_MASTER_OPTS is not allowed to specify max heap(Xmx) memory settings (was -Xms512m -Xmx1024m -Dcom.sun.management.jmxremote=true -Dcom.sun.manage ...
分类:其他好文   时间:2020-07-02 16:40:58    阅读次数:87
pandas、spark计算相关性系数速度对比
pandas、spark计算相关性系数速度对比 相关性计算有三种算法:pearson、spearman,kenall。 在pandas库中,对一个Dataframe,可以直接计算这三个算法的相关系数correlation,方法为:data.corr() 底层是依赖scipy库的算法。 为了提升计算速 ...
分类:其他好文   时间:2020-07-02 16:38:40    阅读次数:126
spark | 手把手教你用spark进行数据预处理
本文始发于个人公众号:TechFlow,原创不易,求个关注 今天是spark专题的第七篇文章,我们一起看看spark的数据分析和处理。 过滤去重 在机器学习和数据分析当中,对于数据的了解和熟悉都是最基础的。所谓巧妇难为无米之炊,如果说把用数据构建一个模型或者是支撑一个复杂的上层业务比喻成做饭的话。那 ...
分类:其他好文   时间:2020-07-02 13:20:51    阅读次数:67
DataFrame DataSet Spark SQL学习
RDD加上结构,比如说类名,就可以变成DataFrame,DataFrame,将每一类同这一类的类名绑定在一起就可以称为DataSet. spark sql 就是来处理dataframe和dataset这样的结构数据的。 spark sql使用的时候需要提供spark session环境。 // S ...
分类:数据库   时间:2020-07-01 18:40:18    阅读次数:60
Zookeeper概述、环境搭建及基本API使用和相关应用场景
一.Zookeeper基本概念 分布式系统是同时跨越多个物理主机,独立运行的多个软件所组成的系统。分布式系统的协调工作就是通过某种方式,让某个节点的信息能够同步和共享。这依赖于服务进程之间的通信。通信方式有两种: 通过网络进行信息共享 通过共享存储 Zookeeper是作为分布式系统的分布式协同服务 ...
分类:Windows程序   时间:2020-07-01 09:20:10    阅读次数:80
通过集合构建RDD或者DataFrame
利用字典构建dataframe。 from pyspark.sql import SparkSession,Row spark = SparkSession.builder.appName("get_app_category").enableHiveSupport().config("spark.d ...
分类:其他好文   时间:2020-06-30 14:51:17    阅读次数:59
MapReduce模型中数据关联使用or语句导致计算效率低下
MapReduce计算模型中,如果两个数据集的关联,并不是通过数据集的一个唯一键和另一个数据集的一个唯一键关联,那么会导致大量数据分发到一个节点计算,使其效率极其低下。 这里的MapReduce并不是仅仅是hive中的mapreduce模型,而是计算思想模型,比如spark、flink等,甚至更广阔 ...
分类:其他好文   时间:2020-06-30 00:16:31    阅读次数:68
COMP9313 Lab1 SPARK pyspark 安装
遇到的问题: 1. SPARK & HADOOP 不能安装在有空格的目录下 比如 programs file这种 2. 需要设置环境变量 PYSPARK_PYTHON PYSPARK_DRIVER_PYTHON 到3.6.5的环境,不然3.6 3.7会撞车 ...
分类:其他好文   时间:2020-06-29 21:28:22    阅读次数:66
scala
scala 一: scala基础 1 概念 Scala就是一门语言, 是spark的框架语言. 继承了面向对象编程和函数式编程. Scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序。htt ...
分类:其他好文   时间:2020-06-29 18:52:39    阅读次数:75
spark读取文件时对字符编码的支持
在spark中常使用textFile读取文件,默认的是UTF-8编码,但在实际读取文件时,存在不同的文件编码,如果不是UTF-8编码的文件,便不能直接使用这个方法读文件。 以下是2种读取不同编码文件的方法,下面以ANSI的中文简体编码为例,codepage是1252. 方法1:使用decode方法 ...
分类:其他好文   时间:2020-06-29 17:21:19    阅读次数:202
7004条   上一页 1 ... 22 23 24 25 26 ... 701 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!