第1章 Sqoop 简介 Sqoop 是一款开源的工具,主要用于在 Hadoop(Hive) 与传统的数据库 (mysql,postgresql,...) 间进行数据的高校传递,可以将一个关系型数据库(例如:MySQL,Oracle,Postgres等)中的数据导入到 Hadoop 的 HDFS 中 ...
分类:
其他好文 时间:
2020-05-30 20:21:57
阅读次数:
82
第4章 DDL数据定义 4.1 创建数据库 1)创建一个数据库,数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db。 hive (default)> create database db_hive; 2)避免要创建的数据库已经存在错误,增加 if not exist ...
分类:
其他好文 时间:
2020-05-30 19:43:40
阅读次数:
64
Hadoop 简介: 两大核心:HDFS+MapReduce Hadoop1.0,Hadoop2.0 Linux:基础 shell,sudo Hadoop集群的部署与使用 先访问nameNode 存储DataNode JobTracker TaskTracker 分布式文件系统 伪分布式:就是吧名称 ...
分类:
其他好文 时间:
2020-05-29 17:44:12
阅读次数:
71
前言 一个简单的理解:把SQL的一些操作应用在hadoop的HDFS上面。 数据库与数据仓库 数据库:传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。 数据仓库:数据仓库系统的主要应用主要是OLAP(On-Line Analytical Processing),支持复杂的分 ...
分类:
其他好文 时间:
2020-05-28 23:08:21
阅读次数:
62
概览 首先我们来认识一下HDFS, HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。它其实是将一个大文件分成若干块保存在不同服务器的多个节点中。通过联网让用户感觉像是在本地一样查看文件,为了降低文件丢失造成的错误,它会为每个小文件复制多个副本(默 ...
分类:
其他好文 时间:
2020-05-28 18:13:32
阅读次数:
84
create table toys.test (id int, x0 double, x1 double, x2 double, x3 double) row format delimited fields terminated by ',' stored as textfile; 先在hive 数 ...
分类:
其他好文 时间:
2020-05-28 16:09:46
阅读次数:
82
(1)flink的任务提交流程(无Dispatcher提交) 1、client向yarn提交application后,同时向HDFS上传flink的Jar包和配置。ResourceManager为application分配Container资源并通知对应的NodeManager启动Applicati ...
分类:
其他好文 时间:
2020-05-27 18:53:08
阅读次数:
80
KafkaConnect基本概念介绍KafkaConnect是一个用于将数据流输入和输出Kafka的框架。Confluent平台附带了几个内置connector,可以使用这些connector进行关系数据库或HDFS等常用系统到Kafka的数据传输,也是用来构建ETL的一种方案。KafkaConnect基本概念:KafkaConnect实际上是Kafka流式计算的一部分KafkaConnect主要
一、 设计思路 分布式文件系统 二、设计目标 三 HDFS架构图 四、HDFS元数据管理 五、HDFS元数据合并 6、HDFS上传文件 7、HDFS文件读取 注意 八、JAVA API ...
分类:
编程语言 时间:
2020-05-25 17:28:44
阅读次数:
62
hdfs基本特性 hdfs操作命令 hdfs高级命令 文件数量限制以及空间大小限制 安全模式 基准测试 ...
分类:
其他好文 时间:
2020-05-24 16:37:58
阅读次数:
74