搜索关键字：flume spark sparkflumeprotocol，搜索到7976个结果！码迷,mamicode.com！

Spark RDD编程

1.准备文本文件，从文件创建RDD lines=sc.textFile()，筛选出含某个单词的行 lines.filter()，lambda 参数：条件表达式 2.生成单词的列表，从列表创建RDD words=sc.parallelize()，筛选出长度大于2 的单词 words.filter() ...

分类：其他好文时间：2021-03-29 12:44:51 阅读次数：0

02 Spark RDD编程

1.准备文本文件,从文件创建RDD lines=sc.textFile(),筛选出含某个单词的行 lines.filter(),lambda 参数：条件表达式 2.生成单词的列表,从列表创建RDD words=sc.parallelize(),筛选出长度大于2 的单词 words.filter() ...

分类：其他好文时间：2021-03-29 12:30:29 阅读次数：0

03 Spark RDD编程基础

1. 准备文本文件从文件创建RDD lines=sc.textFile()筛选出含某个单词的行 lines.filter()lambda 参数：条件表达式 2. 生成单词的列表从列表创建RDD words=sc.parallelize()筛选出长度大于2 的单词 words.filter() ...

分类：其他好文时间：2021-03-29 12:04:28 阅读次数：0

大数据技术01---学习路径

大数据技术板块划分数据采集 flume kafka logstash filebeat ... 数据存储 mysql redis hbase hdfs ... 虽然mysql不属于大数据范畴但是我在这也列出来了，因为你在工作中离不开它数据查询 hive impala elasticsearch ...

分类：其他好文时间：2021-03-17 14:04:41 阅读次数：0

02 Spark框架与运行流程

1、为什么要引入Yarn和Spark。 (1)现有的hadoop生态系统中存在的问题 1）使用mapreduce进行批量离线分析； 2）使用hive进行历史数据的分析； 3）使用hbase进行实时数据的查询； 4）使用storm进行实时的流处理； (2)选用spark的原因 1）应用于流式计算的S ...

分类：其他好文时间：2021-03-16 13:32:12 阅读次数：0

01 Spark架构与运行流程

1. 阐述Hadoop生态系统中，HDFS, MapReduce, Yarn, Hbase及Spark的相互关系，为什么要引入Yarn和Spark。 HDFS是Hadoop体系中数据存储管理的基础，它是一个高度容错的系统，能检测和应对硬件故障，在低成本的通用硬件上运行。 HBase构建在HDFS之上 ...

分类：其他好文时间：2021-03-16 13:21:18 阅读次数：0

数仓OLAP技术

数据应用，是真正体现数仓价值的部分，包括且又不局限于数据可视化、BI、OLAP、即席查询，实时大屏，用户画像，推荐系统，数据分析，数据挖掘，人脸识别，风控反欺诈，ABtest等等 OLAP（On-Line Analytical Processing）：在线分析处理，主要用于支持企业决策管理分析。 ...

分类：其他好文时间：2021-03-16 11:54:33 阅读次数：0

02 Spark架构与运行流程

1. 为什么要引入Yarn和Spark。从开源角度看，YARN的提出，从一定程度上弱化了多计算框架的优劣之争。YARN是在Hadoop MapReduce基础上演化而来的，在MapReduce时代，很多人批评MapReduce不适合迭代计算和流失计算，于是出现了Spark和Storm等计算框架，而 ...

分类：其他好文时间：2021-03-15 11:29:44 阅读次数：0

ApacheCN 数据科学译文集 20210313 更新

新增了五个教程： Python 和 Jupyter 机器学习入门零、前言一、Jupyter 基础知识二、数据清理和高级机器学习三、Web 爬取和交互式可视化 Python 数据科学和机器学习实践指南零、前言一、入门二、统计和概率回顾和 Python 实践三、Matplotlib 和高 ...

分类：Web程序时间：2021-03-15 11:11:19 阅读次数：0

01 Spark架构与运行流程

1. 阐述Hadoop生态系统中，HDFS, MapReduce, Yarn, Hbase及Spark的相互关系。 Hadoop对应于Google三驾马车：HDFS对应于GFS，即分布式文件系统，MapReduce即并行计算框架，HBase对应于BigTable，即分布式NoSQL列数据库，外加Zo ...

分类：其他好文时间：2021-03-15 10:45:14 阅读次数：0

共7976条上一页 1 ... 8 9 10 11 12 ... 798 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)