有时候我们start-dfs.sh启动了hadoop但是发现datanode进程不存在 一、原因 当我们使用hadoop namenode -format格式化namenode时,会在namenode数据文件夹(这个文件夹为自己配置文件中dfs.name.dir的路径)中保存一个current/VE ...
分类:
其他好文 时间:
2018-08-17 19:57:32
阅读次数:
203
1、安装使用hadoop之前要首先安装java JDK,若无安装JDk,请先安装JDK :https://www.cnblogs.com/dongxiucai/p/9391841.html 2、安装Hadoop 1、下载tar包 hadoop-2.7.3.tar.gz 2、tar开 tar -xzv ...
分类:
其他好文 时间:
2018-08-11 01:31:55
阅读次数:
167
之前我们介绍了HBase,并且实战了如何通过HBase+SpringBoot实战分布式文件存储,我们为什么要使用HBase来实现文件存储呢,究其原因还是因为HDFS本身具有一定的局限性。而且大多数的公司在使用Hadoop的时候一般只用到了它的MR部分(分布式计算框架),对于HDFS这个文件存储服务的 ...
分类:
其他好文 时间:
2018-08-07 18:54:10
阅读次数:
177
数据仓库简介:有些人不理解数据仓库,认为数据仓库就是获取数据,只要会使用hadoop、spark等大数据工具就懂数据仓库,这样的认识太片面。如果要从海量数据中总结出一个报表或者是多个报表,大数据工程师足以;如果在有限的资源动态的数据情况下,向前可历史追溯,向后对不断增加的报表实现兼容,这就需要一套科 ...
分类:
其他好文 时间:
2018-07-29 16:32:49
阅读次数:
156
前言:该文章是基于 Hadoop2.7.6_01_部署 进行的。 1. Hive基本概念 1.1. 什么是Hive Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 1.2. 为什么使用Hive 直接使用hadoop所面临的问题 人员学 ...
分类:
其他好文 时间:
2018-07-22 11:29:38
阅读次数:
142
1.先下载hadoop包,这里使用hadoop-2.7.3.tar.gz 2.配置hadoop环境变量:修改/etc/profile文件 :vi /etc/profile HADOOP_HOME=/soft/hadoop PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOM ...
分类:
其他好文 时间:
2018-07-13 17:41:38
阅读次数:
171
Hadoop中自己提供了一个RPC的框架。集群中各节点的通讯都使用了那个框架 1.服务端 1.1.业务接口:ClientNamenodeProtocol 1.2.业务接口实现类:MyNameNode 1.3.服务端类:将业务实现类发布为一个服务 2.客户端 我们也可以在自己的项目中使用Hadoop的 ...
分类:
其他好文 时间:
2018-06-19 13:53:05
阅读次数:
162
用户行为日志概述用户行为日志:用户每次访问网站时所有的行为数据访问、浏览、搜索、点击...用户行为轨迹、流量日志(用户行为日志的其他名称)为什么要记录用户访问行为日志:进行网站页面的访问量的统计分析网站的黏性训练推荐系统用户行为日志生成渠道:web服务器记录的web访问日志ajax记录的访问日志以及其他相关的日志用户行为日志大致内容:访问时间访问者所使用的客户端(UserAgent)访问者的IP地
分类:
其他好文 时间:
2018-04-02 16:02:41
阅读次数:
200
??Hadoop自身是没有安全认证的,所以需要引入第三方的安全认证机制。kerberos是hadoop比较受欢迎的一种认证方式。kerberos配置比较简单。但是实际使用的时候,如果不严格遵守游戏规则。你会经常遇到“奇怪”的问题。
分类:
其他好文 时间:
2018-03-26 17:57:16
阅读次数:
679
云地址:https://pan.baidu.com/s/1CmBAJMdcwCxLGuCwSTcJNw 密码:qocw 前提条件:启动集群 ,配置好JDK和hadoop环境变量 有必要删除 虚拟机中的output文件 使用 给hadoop文件权限 1.打开eclopse的安装包 把下载好的hadoo ...
分类:
系统相关 时间:
2018-03-19 00:28:52
阅读次数:
315