Mysql数据库简介 什么是数据? ? 数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材,数据是信息的表现形式和载体,可以是符号,文字,数字,语音,图像,视频等,数据和信息是不可分离的,数据是信息的表达,信息是数据的内涵,数据本身没有任何意义,数据只 ...
分类:
数据库 时间:
2020-05-06 19:33:35
阅读次数:
78
1)处理超大文件 这里的超大文件通常是指百MB、设置数百TB大小的文件。目前在实际应用中,HDFS已经能用来存储管理PB级的数据了。 2)流式的访问数据 HDFS的设计建立在更多地响应"一次写入、多次读写"任务的基础上。这意味着一个数据集一旦由数据源生成,就会被复制分发到不同的存储节点中,然后响应各 ...
分类:
其他好文 时间:
2020-05-06 14:01:03
阅读次数:
102
1.将下载的hadoop的jar包解压到自己想要存放的目录下,然后再hadoop的根目录下复制它的完整路径 2.配置环境变量,创建一个系统变量“HADOOP_HOME”,变量值就是hadoop的路径 3.将这个变量添加到Path变量中: 4.保存后退出 5.打开cmd命令行窗口,输出命令“hadoo ...
本文源码:GitHub·点这里||GitEE·点这里一、DataX工具简介1、设计理念DataX是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源。当
分类:
其他好文 时间:
2020-05-06 10:30:40
阅读次数:
73
HBase分布式数据库,面向列存储(准确的说是面向列族),支持实时、随机读写。HDFS 为 Hbase 提供可靠的底层数据存储服务,MapReduce 为 Hbase 提供高性能的计算能力,Zookeeper 为 Hbase 提供 稳定服务和Failover机制,因此,Hbase 是一个通过大量廉价 ...
分类:
其他好文 时间:
2020-05-06 01:13:24
阅读次数:
103
文件系统 HDFS Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。 GlusterFS 是一个集群的文件系统,支持PB级的数据量 ...
分类:
其他好文 时间:
2020-05-05 18:09:27
阅读次数:
70
一、简介 Hadoop是使用Java编写,允许分布在集群,使用简单的编程模型的计算机大型数据集处理的Apache的开源框架。 解决的问题: (1)海量数据的存储 [HDFS] (2)海量数据的分析 [MapReduce] (3)资源管理调度 [YARN] 二、hadoop架构 在其核心,Hadoop ...
分类:
其他好文 时间:
2020-05-03 10:26:41
阅读次数:
66
Hadoop 2.x 集群安装,包括 HDFS 集群、Yarn 集群以及 MapReduce 的安装
分类:
其他好文 时间:
2020-04-29 10:44:59
阅读次数:
76
我们知道一般的热点数据我们直接存到数据库,但是类似一些表格模板,附件等静态资源放在哪里呢? 数据库 数据库 + 本地文件(IO流) 数据库 + 缓存 + 文件服务器(Hdfs 、fastDFS、服务器集群) 数据库 + 缓存 + 文件存储(对象存储服务OSS) 因为阿里云提供了各种常用语言的SDK, ...
分类:
其他好文 时间:
2020-04-29 10:26:48
阅读次数:
69
Hive是什么? 个人理解是把存储在hdfs上的数据映射位一张数据库表,提供类sql(HQL)语句的查询,方便数据的分析,查询。另外一点就是自动的把HQL转化为MapRudecu、Tez、Spark执行。 Hive的架构 用户接口:可以是hive shell,jdbc(java 访问hive),we ...
分类:
其他好文 时间:
2020-04-27 15:21:33
阅读次数:
59