码迷,mamicode.com
首页 >  
搜索关键字:HDFS    ( 4980个结果
一、hadoop基本介绍
1.Hadoop的整体框架 Hadoop是由许多元素构成的,最核心的是HDFS(分布式文件系统),它存储了Hadoop集群中所有DataNode文件,HDFS的上一层是MapReduce引擎,MapReduce是一种计算模型,用以进行大数据量的计算。 HDFS HDFS是Hadoop项目的核心子项目 ...
分类:其他好文   时间:2020-04-27 13:27:50    阅读次数:70
单词统计
package hdfs;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.h ...
分类:其他好文   时间:2020-04-27 09:35:22    阅读次数:59
hadoop 简单安装部署
hadoop第一课:虚拟机搭建和安装hadoop及启动 hadoop第二课:hdfs集群集中管理和hadoop文件操作 hadoop第三课:java开发hdfs hadoop第四课:Yarn和Map/Reduce配置启动和原理讲解 hadoop第五课:java开发Map/Reduce ...
分类:其他好文   时间:2020-04-26 09:15:01    阅读次数:50
HBase入门配置
1.修改hbase env.sh文件 2.修改hbase site.xml文件 3.在conf文件夹中创建hadoop配置文件的软链接 4.分发配置 5.启动RegionServer、Master,只能在指定master节点启动master服务(与Yarn中ResourceManager类似) == ...
分类:其他好文   时间:2020-04-26 01:22:24    阅读次数:78
hadoop三大核心组件介绍
1、Hadoop概述 1.1 Hadoop是什么 Hadoop是Apache旗下的一个用java语言实现开源软件框架,是一个开发和运行处理大规模数据的软件平台 1.2 核心组件 分布式存储系统 HDFS(Hadoop Distributed File System),提供了高可靠性、高扩展性和高吞吐 ...
分类:其他好文   时间:2020-04-25 19:07:28    阅读次数:107
如何将mysql数据导入hive中
1.首先在hive中建表(尽量与mysql字段对应) 2. 将mysql中的表导出 txt格式 3.通过hadoop 上传到HDFS上 命令 hadoop dfs -put /home/hadoop/dim_station_trans_com_info.txt /user/hive/external ...
分类:数据库   时间:2020-04-24 18:41:58    阅读次数:109
星环大数据组件hyperbase在hdfs上的目录结构分析
hyperbase和hbase一样,底层数据结构的存储依托于hdfs;今天我们对星环的大数据平台组件hyperbase在hdfs上的存储做一下简单的介绍; TDH: 4.x系列 TDH4.9.2之后开始使用的版本是对应开源的1.3.1,之前版本对应的开源的0.98.6 5.x系列 TDH5.2.3之 ...
分类:其他好文   时间:2020-04-21 11:23:59    阅读次数:139
Ranger安装部署 - 扩展组件安装
1. ranger-hdfs plugin安装 1.1 安装ranger hdfs plugin软件包 # pwd /opt/app/ranger-release-ranger-1.2.0/target # tar -zxvf ranger-1.2.0-hdfs-plugin.tar.gz 1.2  ...
分类:其他好文   时间:2020-04-20 16:24:01    阅读次数:169
hive优化
1. 概述 1.1 hive的特征: 可以通过SQL轻松访问数据的工具,从而实现数据仓库任务,如提取/转换/加载(ETL),报告和数据分析; 它可以使已经存储的数据结构化; 可以直接访问存储在Apache HDFS或其他数据存储系统(如Apache HBase)中的文件; Hive除了支持MapRe ...
分类:其他好文   时间:2020-04-19 19:49:32    阅读次数:86
hive中的小文件问题
小文件问题原因: ① 众所周知,小文件在HDFS中存储本身就会占用过多的内存空间,那么对于MR查询过程中过多的小文件又会造成启动过多的Mapper Task, 每个Mapper都是一个后台线程,会占用JVM的空间。 ② 在Hive中,动态分区会造成在插入数据过程中,生成过多零碎的小文件。 ③ 不合理 ...
分类:其他好文   时间:2020-04-19 13:17:44    阅读次数:89
4980条   上一页 1 ... 26 27 28 29 30 ... 498 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!