由于本地测试和服务器不在一个局域网,安装的hadoop配置文件是以内网ip作为机器间通信的ip. 在这种情况下,我们能够访问到 机器, 会给我们数据所在机器的ip地址供我们访问数据传输服务, 但是返回的的是 内网的ip,我们无法根据该 访问 服务器. 报错如下 为了能够让开发机器访问到hdfs,我们 ...
分类:
其他好文 时间:
2018-06-06 22:20:32
阅读次数:
657
1.Hive简述 1.1 Hive是什么 Hive是数据仓库.它是构建在Hadoop之上的,通过解析QL(Hive SQL),转换成MR任务(Tez,Spark......)去提交执行. 1.2 Hive的优缺点 优点: 可以直接访问HDFS,或者其它的标准分布式文件系统(s3,oss等),并将这些 ...
分类:
其他好文 时间:
2018-06-03 10:51:29
阅读次数:
149
Hadoop自带HDFS,即 Hadoop Distributed FileSystem(不是HaDoop FileSystem 的简称) 适用范围 超大文件:最新的容量达到PB级 流式数据访问:HDFS的构建思路:一次写入、多次读取时最高效的访问模式 低时间延迟的数据访问不适用HDFS 大量的小文 ...
分类:
其他好文 时间:
2018-04-07 11:28:21
阅读次数:
136
社区提供的读写分离架构图如下:通过架构图可以看到Kylin会访问两个集群的HDFS,建议两个集群的NameService务必不能相同,尤其是集群启用NameNodeHA时,相同的NameService会导致组件在跨集群访问HDFS时因无法区分NameService而出现问题。两个集群:cluster1(hive集群):hdfs.hive,yarn,zookeeper,mrcluster2(hbas
分类:
其他好文 时间:
2018-03-05 12:00:52
阅读次数:
469
HDFS文件系统的JAVA-API操作(一) 要点导航 实例1:使用java.net.URL访问HDFS文件系统 实例2:使用FileSystem访问HDFS文件系统 实例3:创建HDFS目录 实例4:删除HDFS目录 实例5:查看文件或目录是否存在 实例6:列出目录下的文件或目录名称 实例7:查看 ...
分类:
编程语言 时间:
2017-12-28 17:15:24
阅读次数:
283
前言 HDFS(Hadoop Distributed File System)是一个分布式文件系统。它具有高容错性并提供了高吞吐量的数据访问,非常适合大规模数据集上的应用,它提供了一个高度容错性和高吞吐量的海量数据存储解决方案。 优点是: 高吞吐量访问:HDFS的每个Block分布在不同的Rack上 ...
分类:
其他好文 时间:
2017-10-18 01:54:49
阅读次数:
193
一.Hdfs简介 hdfs是一个文件系统,用于存储文件,通过统一的命名空间——目录树来定位文件,并且是分布式的,由很多服务器联合起来实现其功能,集群中的服务器各自负责角色; 重要特征: 1.HDFS中的文件在物理上是分块存储(block),块的大小可以通过配置参数( dfs.blocksize)来规 ...
分类:
其他好文 时间:
2017-09-12 16:07:48
阅读次数:
178
一、Hive是什么,作用是什么? 可以这么简单得理解,Hive是一个工具。它得作用是查询hdfs文件系统上得海量数据,方式是通过HQL语句查询(类似sql)。 或许你又有疑问了,明明可以在java程序里直接访问HDFS的数据了啊,为什么还出来一个Hive工具,不是多此一举吗?这种想法的确是对的,而为 ...
分类:
其他好文 时间:
2017-08-17 22:48:59
阅读次数:
243
HDFS设计的主要目的是对海量数据进行存储,也就是说在其上能够存储很大量文件(可以存储TB级的文件)。HDFS将这些文件分割之后,存储在不同的DataNode上, HDFS 提供了两种访问接口:Shell接口和Java API 接口,对HDFS里面的文件进行操作,具体每个Block放在哪台DataN ...
分类:
编程语言 时间:
2017-08-08 09:28:50
阅读次数:
166
客户端需要指定ns名称,节点配置,ConfiguredFailoverProxyProvider等信息。 代码示例: 【Hadoop】HA 场景下访问 HDFS JAVA API Client 【Hadoop】HA 场景下访问 HDFS JAVA API Client ...
分类:
编程语言 时间:
2017-07-19 19:30:42
阅读次数:
271