搜索关键字：spark shuffle，搜索到7773个结果！码迷,mamicode.com！

数据积压

数据积压指的是消费者因为一些外部的IO、一些比较耗时的操作（full GC--stop the world），就会造成消息在partition中一直存在得不到消费，就会产生数据积压。所以需要监控系统（kafka的监控系统Eagle），如果出现这种情况，需要尽快处理，虽然后续的spark strea ...

分类：其他好文时间：2021-07-13 17:40:18 阅读次数：0

《机器学习Python实现_10_10_集成学习_xgboost_原理介绍及回归树的简单实现》

一.简介 xgboost在集成学习中占有重要的一席之位，通常在各大竞赛中作为杀器使用，同时它在工业落地上也很方便，目前针对大数据领域也有各种分布式实现版本，比如xgboost4j-spark,xgboost4j-flink等。xgboost的基础也是gbm，即梯度提升模型，它在此基础上做了进一步优化 ...

分类：编程语言时间：2021-07-05 19:03:36 阅读次数：0

[源码解析] 深度学习分布式训练框架 horovod (9) --- 启动 on spark

Horovod 是Uber于2017年发布的一个易于使用的高性能的分布式训练框架，在业界得到了广泛应用。本文是系列第九篇，介绍 horovod on spark 如何启动。 ...

分类：其他好文时间：2021-07-05 17:30:40 阅读次数：0

Spark分析sogou日志， RDD

import com.hankcs.hanlp.HanLPimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}import scala.collection.immutable.StringO ...

分类：其他好文时间：2021-07-02 16:33:14 阅读次数：0

sparkStreaming

import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}// 创建一个本地模式的StreamingContext, 两个工作线程， 1s的批处理间隔//Master要求 ...

分类：其他好文时间：2021-07-02 16:32:11 阅读次数：0

【推荐系统算法实战】基于网页的 Notebook：Zeppelin 交互式数据分析如果有一个工具，可以让你在同一个Web页面上写Shell代码，Python代码，Scala代码，你想要么？如果还可以执行PySpark代码和Spark代码呢？心动了吗？如果还可以写Hive-SQL，Spark- ...

分类：编程语言时间：2021-07-02 15:35:46 阅读次数：0

看CarbonData如何用四招助力Apache Spark

摘要：CarbonData 在 Apache Spark 和存储系统之间起到中介服务的作用，为 Spark 提供的4个重要功能。本文分享自华为云社区《Make Apache Spark better with CarbonData》，原文作者：大数据修行者。 Spark 无疑是一个强大的处理引擎 ...

分类：Web程序时间：2021-06-30 18:44:44 阅读次数：0

delta lake minio+dremio 集成试用

参考集成模式环境准备基于docker 运行 spark 环境准备 docker run -it -p 8080:8080 datamechanics/spark:jvm-only-3.1-latest sh // 启动master /opt/spark/sbin/start-master.sh ...

分类：其他好文时间：2021-06-25 16:43:35 阅读次数：0

c++提高编程 5 STL-常用算法

概念：算法主要由头文件 <algorithm> <functional> <numeric>组成 <algorithm>是所有STL头文件中最大的一个，范围涉及到比较/交换/查找/遍历/赋值/修改等 <numeric>体积很小，只包括几个在序列上面进行简单数学运算的模板函数 <functional ...

分类：编程语言时间：2021-06-24 17:48:14 阅读次数：0

Azkaban 简介（一）

什么是任务调度大数据平台技术框架支持的开发语言多种多样，开发人员的背景差异也很大，这就产生出很多不同类型的程序（任务）运行在大数据平台之上，如：MapReduce、Hive、Pig、Spark、Java、Shell、Python 等。这些任务需要不同的运行环境，并且除了定时运行，各种类型之间的任 ...

分类：其他好文时间：2021-06-23 17:16:53 阅读次数：0

共7773条 1 2 3 4 ... 778 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)