数据处理框架 数据处理是一个非常宽泛的概念,数据处理框架在数据架构中,主要是用于数据移动和分析这两大功能当中.对于数据移动,有离线数据移动和实时数据移动,也可以叫做是批量数据移动和流式数据移动.而对于分析这一块,有离线数据分析和实时数据分析,也可以称作是批量数据分析和流式数据分析.离线和实时,批量和 ...
分类:
其他好文 时间:
2020-03-03 11:24:43
阅读次数:
95
大数据处理目前比较流行的是两种方法,一种是离线处理,一种是在线处理,基本处理架构如下: ...
分类:
其他好文 时间:
2019-10-06 16:48:10
阅读次数:
114
MongoDB 是最早热门非关系数据库的之一,使用也比较普遍,一般会用做离线数据分析来使用,放到内网的居多。由于很多公司使用了云服务,服务器默认都开放了外网地址,导致前一阵子大批 MongoDB 因配置漏洞被攻击,数据被删,引起了人们的注意,同时也说明了很多公司生产中大量使用 Mongodb。 Mo ...
分类:
数据库 时间:
2019-07-16 10:39:56
阅读次数:
218
2019/2/16星期六大数据领域技术总体介绍(各个组件的作用)1、大数据技术介绍大数据技术生态体系:Hadoop元老级分布式海量数据存储、处理技术系统,擅长离线数据分析Hbase基于hadoop的分布式海量数据库,离线分析和在线业务通吃Hivesql基于hadoop的数据仓库工具,使用方便,功能丰富,使用方法类似SQLZookeeper集群协调服务Sqoop数据导入导出工具Flume数据采集框架
分类:
其他好文 时间:
2019-02-17 09:17:32
阅读次数:
201
Storm对比Hadoop,前者更擅长的是实时流式数据处理,后者更擅长的是基于HDFS,通过MapReduce方式的离线数据分析计算。对于Hadoop,本身不擅长实时的数据分析处理。两者的共同点都是分布式架构,而且都类似有主/从关系的概念。 本文不会具体阐述Storm集群和Zookeeper集群如何 ...
分类:
其他好文 时间:
2019-01-13 10:21:39
阅读次数:
236
ETL项目2:大数据清洗,处理:使用MapReduce进行离线数据分析并报表显示完整项目 思路同我之前的博客的思路 https://www.cnblogs.com/symkmk123/p/10197467.html 但是数据是从web访问的数据 avro第一次过滤 观察数据的格式,我们主要分析第四个 ...
分类:
其他好文 时间:
2018-12-29 21:13:48
阅读次数:
188
mongodb是最早热门非关系数据库的之一,使用也比较普遍,一般会用做离线数据分析来使用,放到内网的居多。由于很多公司使用了云服务,服务器默认都开放了外网地址,导致前一阵子大批 MongoDB 因配置漏洞被攻击,数据被删,引起了人们的注意,感兴趣的可以看看这篇文章:场屠戮MongoDB的盛宴反思:超 ...
分类:
数据库 时间:
2018-06-09 00:08:20
阅读次数:
185
大数据采集、清洗、处理:使用MapReduce进行离线数据分析完整案例
分类:
其他好文 时间:
2018-04-09 00:14:41
阅读次数:
367
本文出自 http://www.ityouknow.com/ mongodb是最早热门非关系数据库的之一,使用也比较普遍,一般会用做离线数据分析来使用,放到内网的居多。由于很多公司使用了云服务,服务器默认都开放了外网地址,导致前一阵子大批 MongoDB 因配置漏洞被攻击,数据被删,引起了人们的注意 ...
分类:
数据库 时间:
2018-03-26 19:06:20
阅读次数:
185
主要包括以下几大块: 大数据基础课程 离线数据分析 离线数据分析hbase 实时数据分析 Scala函数式编程 Spark内存计算 机器学习增强 前五天的课程都是基础课,主要包含Linux基础,shell编程基础以及Java中的多线程、JVM等基础知识,如果你没有相关的基础知识,请自己提前学习。 离 ...
分类:
其他好文 时间:
2018-01-11 20:40:40
阅读次数:
159