码迷,mamicode.com
首页 >  
搜索关键字:spark sort-based shuffle内幕彻底解密    ( 7004个结果
03 Spark RDD编程基础
1. 准备文本文件从文件创建RDD lines=sc.textFile()筛选出含某个单词的行 lines.filter()lambda 参数:条件表达式 2. 生成单词的列表从列表创建RDD words=sc.parallelize()筛选出长度大于2 的单词 words.filter() ...
分类:其他好文   时间:2021-03-29 12:04:28    阅读次数:0
02 Spark框架与运行流程
1、为什么要引入Yarn和Spark。 (1)现有的hadoop生态系统中存在的问题 1)使用mapreduce进行批量离线分析; 2)使用hive进行历史数据的分析; 3)使用hbase进行实时数据的查询; 4)使用storm进行实时的流处理; (2)选用spark的原因 1) 应用于流式计算的S ...
分类:其他好文   时间:2021-03-16 13:32:12    阅读次数:0
01 Spark架构与运行流程
1. 阐述Hadoop生态系统中,HDFS, MapReduce, Yarn, Hbase及Spark的相互关系,为什么要引入Yarn和Spark。 HDFS是Hadoop体系中数据存储管理的基础,它是一个高度容错的系统,能检测和应对硬件故障,在低成本的通用硬件上运行。 HBase构建在HDFS之上 ...
分类:其他好文   时间:2021-03-16 13:21:18    阅读次数:0
数仓OLAP技术
数据应用,是真正体现数仓价值的部分,包括且又不局限于 数据可视化、BI、OLAP、即席查询,实时大屏,用户画像,推荐系统,数据分析,数据挖掘,人脸识别,风控反欺诈,ABtest等等 OLAP(On-Line Analytical Processing):在线分析处理,主要用于支持企业决策管理分析。 ...
分类:其他好文   时间:2021-03-16 11:54:33    阅读次数:0
02 Spark架构与运行流程
1. 为什么要引入Yarn和Spark。 从开源角度看,YARN的提出,从一定程度上弱化了多计算框架的优劣之争。YARN是在Hadoop MapReduce基础上演化而来的,在MapReduce时代,很多人批评MapReduce不适合迭代计算和流失计算,于是出现了Spark和Storm等计算框架,而 ...
分类:其他好文   时间:2021-03-15 11:29:44    阅读次数:0
ApacheCN 数据科学译文集 20210313 更新
新增了五个教程: Python 和 Jupyter 机器学习入门 零、前言 一、Jupyter 基础知识 二、数据清理和高级机器学习 三、Web 爬取和交互式可视化 Python 数据科学和机器学习实践指南 零、前言 一、入门 二、统计和概率回顾和 Python 实践 三、Matplotlib 和高 ...
分类:Web程序   时间:2021-03-15 11:11:19    阅读次数:0
01 Spark架构与运行流程
1. 阐述Hadoop生态系统中,HDFS, MapReduce, Yarn, Hbase及Spark的相互关系。 Hadoop对应于Google三驾马车:HDFS对应于GFS,即分布式文件系统,MapReduce即并行计算框架,HBase对应于BigTable,即分布式NoSQL列数据库,外加Zo ...
分类:其他好文   时间:2021-03-15 10:45:14    阅读次数:0
01 Spark架构与运行流程
1. 阐述Hadoop生态系统中,HDFS, MapReduce, Yarn, Hbase及Spark的相互关系,为什么要引入Yarn和Spark。 答: Hadoop对应于Google三驾马车:HDFS对应于GFS,即分布式文件系统,MapReduce即并行计算框架,HBase对应于BigTabl ...
分类:其他好文   时间:2021-03-15 10:30:53    阅读次数:0
spark架构与运行流程
1. 阐述Hadoop生态系统中,HDFS, MapReduce, Yarn, Hbase及Spark的相互关系,为什么要引入Yarn和Spark。 Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。 Hadoop的核心是HDFS和MapReduce,hadoo ...
分类:其他好文   时间:2021-03-15 10:30:41    阅读次数:0
spark-sql-04-on_hive
设置metastore 机器: ke01、ke02、ke03、ke04 ke03 为元数据库 ke01、ke02、ke04 连接到元数据库 、 hive-metastore搭建 ke03: <configuration> <property> <name>hive.metastore.warehou ...
分类:数据库   时间:2021-03-12 13:42:56    阅读次数:0
7004条   上一页 1 ... 8 9 10 11 12 ... 701 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!