利用云计算、大数据技术,构建涵盖关系型数据库、分布式文件系统、NOSQL数据库、内存数据库等混合型数据资源中心,建立高安全、高可用、高扩展的智慧环保大数据中心数据架构,更好地解决未来5-10年大流量、高并发、高响应、高实时需求所带来的计算、存储、扩容、负载均衡等问题。 同时按照标准先行的思路,整合环 ...
分类:
其他好文 时间:
2020-03-13 15:58:44
阅读次数:
67
把RDD写入到文本文件中 分布式文件系统HDFS的数据读写 JSON文件数据读写 (注scala 2.11.8运行不了) ...
分类:
其他好文 时间:
2020-03-10 21:53:58
阅读次数:
76
数据操作 加载数据 LOAD DATA 加载数据 LOCAL 本地数据,不加LOCAL就是分布式文件系统数据 OVERWRITE表示覆盖表中已有数据,否则表示追加 通过查询语言插入数据 这里使用了OVERWRITE关键字,之前分区内容会被覆盖掉。这是一次插入。 以下为多次插入,对多个分区目录插入数据 ...
分类:
其他好文 时间:
2020-03-10 12:11:23
阅读次数:
88
[toc] 1. "Kafka简介" Kafka是一种计算框架,结合了之前的MapReduce批处理和流式计算为一体,可以处理历史数据和实时数据。 流平台具有三个关键功能: 发布和订阅记录流,类似于消息队列或企业消息传递系统。 以容错的持久方式存储记录流。 处理记录流。 Kafka通常用于两大类应用 ...
分类:
其他好文 时间:
2020-03-07 21:04:52
阅读次数:
77
注:文中大部分素材为网络取材,文字叙述大部分为个人学习和搭建经验所理解,如有误,请谅解辛苦指出。 一. FastDfs简介 FastDFS是一个开源的轻量级分布式文件系统,它对文件进行管理,功能包括:文件存储、文件同步、文件访问(文件上传、文件下载)等,解决了大容量存储和负载均衡的问题。 FastD ...
分类:
其他好文 时间:
2020-03-03 13:20:40
阅读次数:
101
Hadoop初学思维导图 1,Hadoop ··· Hadoop: Hadoop的核心由HDFS和MapReduce组成。HDFS是分布式文件系统,是Hadoop生态圈的分布式数据存储基石;MapReduce是计算组件,会被Spark取代。 ··· Hadoop生态圈: Hadoop生态圈是一系列用 ...
分类:
其他好文 时间:
2020-02-29 00:17:31
阅读次数:
101
HDFS简介 HDFS的运用非常广泛,基本上很多大数据平台大部分都会选用HDFS(或者类似HDFS)这样的分布式文件系统、来作为海量数据存储的一个解决方案。 优缺点 优势 1. 高容错性,HDFS提供了非常好的“副本冗余机制”,简单来说就是一份数据在HDFS当中存放,包含它自身在内至少会有(默认) ...
分类:
其他好文 时间:
2020-02-25 19:49:39
阅读次数:
69
一、MFS概述: MooseFS(moose 驼鹿)是一款网络分布式文件系统。它把数据分散在多台服务器上,但对于用户来讲,看到的只是一个源。MFS也像其他类unix文件系统一样,包含了层级结构(目录树),存储着文件属性(权限,最后访问和修改时间),可以创建特殊的文件(块设备,字符设备,管道,套接字) ...
分类:
其他好文 时间:
2020-02-23 14:35:46
阅读次数:
75
序言 hdfs文件系统主要设计为了存储大文件的文件系统;如果有个TB级别的文件,我们该怎么存储呢?分布式文件系统未出现的时候,一个文件只能存储在个服务器上,可想而知,单个服务器根本就存储不了这么大的文件;退而求其次,就算一个服务器可以存储这么大的文件,你如果想打开这个文件,效率会高吗? hdfs的出 ...
分类:
其他好文 时间:
2020-02-23 11:16:39
阅读次数:
47
HDFS(Hadoop Distributed File System)就是hadoop分布式文件系统,fs是操作HDFS文件的一个常用命令。 1.hadoop fs help 查看fs使用帮助 2.hadoop fs mkdir 在HDFS文件系统下的根路径下创建一个文件 这个根目录是独立于虚拟机 ...
分类:
其他好文 时间:
2020-02-22 00:08:28
阅读次数:
120