摘要:CarbonData 在 Apache Spark 和存储系统之间起到中介服务的作用,为 Spark 提供的4个重要功能。 本文分享自华为云社区《Make Apache Spark better with CarbonData》,原文作者:大数据修行者 。 Spark 无疑是一个强大的处理引擎 ...
分类:
Web程序 时间:
2021-06-30 18:44:44
阅读次数:
0
官方说明 具体原因 继续用原来的配置的方法 配置文件里删掉最后一行的 Le_API='https://acme.zerossl.com/v2/DV90' (之前配置应该没有这一行),再执行 acme.sh --set-default-ca --server letsencrypt 使用新的配置的办法 ...
分类:
其他好文 时间:
2021-06-28 20:41:52
阅读次数:
0
基本知识:Sqoop导出的基本用法:https://sqoop.apache.org/docs/1.4.6/SqoopUserGuide.html#_syntax_4 的10. sqoop-export 内容摘要:本文主要是对--update-mode参数的用法进行了验证。结论如下: --updat ...
分类:
数据库 时间:
2021-06-25 17:26:06
阅读次数:
0
参考集成模式 环境准备 基于docker 运行 spark 环境准备 docker run -it -p 8080:8080 datamechanics/spark:jvm-only-3.1-latest sh // 启动master /opt/spark/sbin/start-master.sh ...
分类:
其他好文 时间:
2021-06-25 16:43:35
阅读次数:
0
什么是任务调度 大数据平台技术框架支持的开发语言多种多样,开发人员的背景差异也很大,这就产生出很多不同类型的程序(任务)运行在大数据平台之上,如:MapReduce、Hive、Pig、Spark、Java、Shell、Python 等。 这些任务需要不同的运行环境,并且除了定时运行,各种类型之间的任 ...
分类:
其他好文 时间:
2021-06-23 17:16:53
阅读次数:
0
1.spark内存分配 MemoryManager |__StaticMemoryManager 静态内存管理机制 |__UnifiedMemoryManger 统一内存管理机制 1.静态内存管理机制 静态内存管理机制实现起来较为简单,但没有根据具体的数据规模和计算任务做相应的配置,很容易造成"一半 ...
分类:
其他好文 时间:
2021-06-23 17:02:31
阅读次数:
0
spark-RDD缓存,checkpoint机制,有向无环图,stage 1.RDD依赖关系 RDD依赖关系有2种不同类型,窄依赖和宽依赖。 窄依赖(narrow dependency):是指每个父RDD的Partition最多被子RDD一个Partition使用。就好像独生子女一样。窄依赖的算子包 ...
分类:
其他好文 时间:
2021-06-22 18:39:47
阅读次数:
0
HIVE中处理的数据往往比较多,在处理数据的时候希望给处理得到的数据一个ID标识,这时候可以用到UUID。 UUID的算法的核心思想是结合机器的网卡、当地时间、一个随即数来生成UUID。从理论上讲,如果一台机器每秒产生10000000个UUID,则可以保证(概率意义上)3240年不重复。UUID 的 ...
分类:
其他好文 时间:
2021-06-21 20:24:19
阅读次数:
0
MongoDB概述 MongoDB是一款NoSQL类型的文档型数据库。 NoSQL NoSQL是一种非关系型DMS,不需要固定的架构,可以避免joins链接,并且易于扩展。NoSQL数据库用于具有庞大数据存储需求的分布式数据存储。NoSQL用于大数据和实时Web应用程序。 MongoDB特点 面向文 ...
分类:
数据库 时间:
2021-06-20 18:39:42
阅读次数:
0
Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据 ...
分类:
数据库 时间:
2021-06-19 19:26:27
阅读次数:
0