一、过程 1、修改配置文件 vim etc/hadoop/hdfs-site.xml <property> <name>dfs.datanode.data.dir</name> <value>file:///${hadoop.tmp.dir}/dfs/data1,file:///${hadoop.t ...
分类:
其他好文 时间:
2020-09-15 21:01:05
阅读次数:
37
#MapReduce Google File System提供了大数据存储的方案,这也为后来HDFS提供了理论依据,但是在大数据存储之上的大数据计算则不得不提到MapReduce。 虽然现在通过框架的不断发展,MapReduce已经渐渐的淡出人们的视野,越来越多的框架提供了简单的SQL语法来进行大数 ...
分类:
其他好文 时间:
2020-09-12 21:52:03
阅读次数:
61
一、格式 1、父类 bin/hadoop fs 命令 2、子类 bin/hdfs dfs 命令 二、命令 1、help 作用:获取帮助文档格式:hadoop fs -help 命令名称 2、ls 作用:查看HDFS路径的文件 格式: hadoop fs -ls 路径 hadoop fs -ls -R ...
分类:
系统相关 时间:
2020-09-10 23:08:31
阅读次数:
47
1.hive本身对union这样的命令进行了优化 2.hdfs数据本地化率对hive性能产生影响 在数据大小一定的情况下,500个128M的文件和2个30G的文件 跑hive任务,性能是有差异的,两者最大的区别在于,后者在读取文件时,需要跨网络传输,而前者为本地读写。数据本地化率问题。 3.不同数据 ...
分类:
其他好文 时间:
2020-09-09 19:07:41
阅读次数:
34
HDFS概述 HDFS(Hadoop Distributed File System)是 Apache Hadoop 项目的一个子项目. Hadoop 非常 适于存储大型数据 (比如 TB 和 PB), 其就是使用 HDFS 作为存储系统. HDFS 使用多台计算机存 储文件, 并且提供统一的访问接 ...
分类:
其他好文 时间:
2020-09-08 20:40:45
阅读次数:
34
Block是文件块,HDFS中是以Block为单位进行文件的管理的,一个文件可能有多个块,每个块默认是3个副本,这些块分别存储在不同机器上。块与文件之前的映射关系会定时上报Namenode。HDFS中一个块的默认大小是64M,其大小由参数dfs.block.size控制。这里面先引申几个问题出来: ...
分类:
其他好文 时间:
2020-09-03 16:43:21
阅读次数:
40
主攻个人数据分布式存储的HDFS的优势在哪?互联网的纪元中,数据就是一切,互联网环境下任何人的一切活动都会在网络中留下属于自己的印迹—数据碎片,这些我们不经意间留下的数据碎片如果被有心人收集、利用起来会对我们个人的兴趣爱好甚至是隐私产生不利的影响。不知道你有没有这样的体验,当你用搜索引擎了解某种商品之后,某些电商平台会给你不断的推送类似的商品,显然这不是巧合而是你的某些数据“出卖”了你的意图。随着
分类:
其他好文 时间:
2020-09-02 16:46:50
阅读次数:
47
本文整理自 2020 年云原生微服务大会主论坛白海石的分享《Capability Oriented Architecture for cloud and edge》,主要介绍了一种新的体系结构范式——面向能力的体系结构(COA),旨在为跨云和边缘的分布式、自适应和健壮的应用程序提供一个设计框架。
分类:
其他好文 时间:
2020-08-28 14:58:55
阅读次数:
58
一、hdfs的命令行使用 1、ls 格式:hdfs dfs -ls URI 作用:类似于Linux的ls命令,显示文件列表 2、-ls -R 格式 : hdfs dfs -ls -R URI 作用: 在整个目录下递归执行ls, 与UNIX中的ls-R类似 3、mkdir 格式:hdfs dfs [- ...
分类:
其他好文 时间:
2020-08-28 11:45:33
阅读次数:
51
1.flume简介 Flume是Cloudera提供的日志收集系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 2.安装和使用说明 ...
分类:
Web程序 时间:
2020-08-13 22:07:34
阅读次数:
83