运行环境 centos 5.6 hadoop hivesqoop是让hadoop技术支持的clouder公司开发的一个在关系数据库和hdfs,hive之间数据导入导出的一个工具 在使用过程中可能遇到的问题: sqoop依赖zookeeper,所以必须配置ZOOKEEPER_HOME到环境变量中。sq ...
分类:
数据库 时间:
2021-06-07 20:36:05
阅读次数:
0
1. 安装启动检查Mysql服务。##netstat -tunlp (3306) cd /usr/local/hive/lib ls mysql* cp mysql-connector-java-5.1.40-bin.jar /usr/local/spark/jars/ cd /usr/local/ ...
分类:
数据库 时间:
2021-06-07 20:10:49
阅读次数:
0
1. 阐述Hadoop生态系统中,HDFS, MapReduce, Yarn, Hbase及Spark的相互关系,为什么要引入Yarn和Spark。 HDFS是Hadoop体系中数据存储管理的基础,它是一个高度容错的系统,能检测和应对硬件故障,在低成本的通用硬件上运行。 HBase构建在HDFS之上 ...
分类:
其他好文 时间:
2021-06-07 20:05:58
阅读次数:
0
HDFS客户端环境准备 1.根据拷贝编译后的hadoop jar包到非中文路径 2.配置HADOOP_HOME环境变量 3. 配置Path环境变量 4.创建一个Maven工程HdfsClientDemo 5.导入相应的依赖坐标+日志添加 <dependencies> <dependency> <gr ...
分类:
其他好文 时间:
2021-06-06 19:12:37
阅读次数:
0
1.安装启动检查Mysql服务。netstat -tunlp (3306) 2.spark 连接mysql驱动程序。–cp /usr/local/hive/lib/mysql-connector-java-5.1.40-bin.jar /usr/local/spark/jars 3.启动 Mysql ...
分类:
数据库 时间:
2021-06-06 19:08:48
阅读次数:
0
@ Hadoop RPC 框架解析 网络通信模块是分布式系统中最底层的模块。它直接支撑了上层分布式环境下复杂的进程间通信(Inter-Process Communication, IPC)逻辑,是所有分布式系统的基础。远程过程调用(Remote Procedure Call, RPC)是一种常用的分 ...
分类:
其他好文 时间:
2021-06-02 19:49:37
阅读次数:
0
@ 前言-MR概述 MapReduce是一个分布式计算框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。主要由两部分组成:编程模型和运行时环 境。其中,编程模型为用户提供了非常易用的编程接口,用户只需要像编写串行程序 一样实现几个简单的函数即可实现一个分布式程序,而其他比较复杂的工作,如 ...
分类:
其他好文 时间:
2021-06-02 19:46:24
阅读次数:
0
spark连接mysql数据库 安装启动检查Mysql服务。netstat -tunlp (3306) spark 连接mysql驱动程序。 cd /usr/local/hive/lib ls mysql* cp mysql-connector-java-5.1.40-bin.jar /usr/lo ...
分类:
数据库 时间:
2021-06-02 19:08:19
阅读次数:
0
1. 安装启动检查Mysql服务。##netstat -tunlp (3306) cd /usr/local/hive/lib ls mysql* cp mysql-connector-java-5.1.40-bin.jar /usr/local/spark/jars/ cd /usr/local/ ...
分类:
数据库 时间:
2021-06-02 19:00:44
阅读次数:
0
09 spark连接mysql数据库 spark连接mysql数据库 1、安装启动检查Mysql服务。 netstat -tunlp (3306) 2、spark 连接mysql驱动程序。 –cp /usr/local/hive/lib/mysql-connector-java-5.1.40-bin ...
分类:
数据库 时间:
2021-06-02 18:54:48
阅读次数:
0