HDFS是什么:一种分布式文件管理系统 HDFS使用场景:适合一次写入,多次读出的场景,且不支持文件的修改 高容错性:当副本丢失时,自动增加副本 数据规模:GB,TB,PB 文件规模:百万 不适合快速访问 不适合大量的小文件:无法高效存储,会占用大量的namenode内存,寻址时间会大于读取时间 不 ...
分类:
其他好文 时间:
2020-06-24 19:30:01
阅读次数:
45
在王启军的公众号里,有一篇《My Team》的文章,里面记录了早年他所带团队成长的心得。 这个被他称为完美组合的团队,并不是来自大厂名企,彼时王启军给不起高待遇,团队核心成员中还有很多人是专科学历。 但就是这样一支团队,建立了IaaS平台,搭建了私有云,云缓存,分布式文件中心……甚至还有自己的开发框 ...
分类:
其他好文 时间:
2020-06-23 17:11:54
阅读次数:
65
HDFS分布式文件系统 一、课前准备 1. 安装VMware 15虚拟化软件 2. 安装Centos 7虚拟机3个 3. 安装3节点的hadoop2.X集群 4. 某台虚拟机节点安装IDEA 二、课堂主题 本堂课主要围绕HDFS进行讲解,主要包括三方面 1. 架构原理 2. 核心概念 3. HDFS ...
分类:
其他好文 时间:
2020-06-23 00:55:02
阅读次数:
109
一、先配置好自己的分布式文件系统,参考另一篇文章: https://www.cnblogs.com/vevian/p/13170228.html 二、安装第三方库py3Fdfs pip install py3Fdfs 三、实际应用,参考文档 https://pypi.org/project/py3F ...
分类:
编程语言 时间:
2020-06-21 11:56:32
阅读次数:
108
1、安装libfastcommon-1.0.43,安装包可以在大佬的https://github.com/happyfish100/libfastcommon/releases下载 [root@localhost Downloads]# tar -zxvf libfastcommon-1.0.43. ...
分类:
其他好文 时间:
2020-06-20 21:35:21
阅读次数:
60
简介 什么是MongoDB? MongoDB 是由C++语言编写的,是一个基于分布式文件存储的开源数据库系统。 在高负载的情况下,添加更多的节点,可以保证服务器性能。 MongoDB 旨在为WEB应用提供可扩展的高性能数据存储解决方案。 MongoDB 将数据存储为一个文档,数据结构由键值(key= ...
分类:
数据库 时间:
2020-06-19 12:17:25
阅读次数:
52
1、HDFS(Hadoop Distributed File System)是一个分布式文件系统,具有良好的扩展性、容错性以及易用的API。它的核心思想是将文件切分成等大的数据块,以多副本的形式存储到多个节点上。HDFS采用了经典的主从软件架构,其中主服务被称为NameNode,管理文件系统的元信息 ...
分类:
其他好文 时间:
2020-06-18 14:33:17
阅读次数:
67
互联网时代中想要企业更好的发展,利用好从互联网所获取到的大量数据是至关重要的一点,互联网时代又被称为大数据时代。大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力。 适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储
分类:
其他好文 时间:
2020-06-16 11:32:17
阅读次数:
411
1.基于Receiver的方式 这种方式使用Receiver来接收kafka中的数据,Receiver是基于kafka的高层Consumer API来实现的。Receiver从Kafka中获取的数据都是存储在Spark Executor的内存中的,然后Spark Streaming启动的job会去处 ...
分类:
其他好文 时间:
2020-06-15 22:58:10
阅读次数:
60
概述 定义 HDFS是一个分布式文件管理系统 优缺点 优点 (1)高容错 多副本提高容错、某个副本丢失可以自动恢复 (2)适合处理大数据 ? 能处理PB级别数据、能处理百万的文件数据量 (3)可构建在廉价机器上 缺点 (1)不适合低时延数据访问 (2)无法高效存储小文件 (3)不支持并发写入和文件修 ...
分类:
其他好文 时间:
2020-06-14 20:26:42
阅读次数:
58