os 就是operation system os.name Python 运行所在的环境: posix,nt,java os.environ os.walk() os.listdir() “list directories”,列出(当前)目录下的全部路径(及文件) os.mkdir() “make ...
分类:
编程语言 时间:
2020-01-25 23:29:18
阅读次数:
84
Hbase:基于hdfs的数据库,来源于google的一篇论文bigtable.基于HDFS实现高可用、分布式、列式存储、核心包括:-Rowkey: 可以简单理解成mysql中的主键-列簇,列-时间戳按照Rowkey字典顺序存储,基于rowkey的高效检索,同时继承hdfs的高吞吐能力。Hbase用 ...
分类:
其他好文 时间:
2020-01-25 15:31:49
阅读次数:
94
我们都知道 Kettle 是用 Java 语言开发,并且可以在 JavaScript 里面直接调用 java 类方法。所以有些时候,我们可以自定义一些方法,来供 JavaScript 使用。 本篇文章有参考自: 一、在 java 项目中创建工具类 <! more 在项目中,创建 utils 工具类, ...
分类:
编程语言 时间:
2020-01-25 01:02:43
阅读次数:
125
最近有一个将 mysql 数据导入到 MongoDB 中的需求,打算使用 Kettle 工具实现。本文章记录了数据导入从0到1的过程,最终实现了每秒钟快速导入约 1200 条数据。一起来看吧~ 一、Kettle 连接图 简单说下该转换流程,增量导入数据: <! more 1)根据 source 和 ...
分类:
数据库 时间:
2020-01-24 23:40:06
阅读次数:
116
大数据环境需要的安装包合集,包括: apache flume 1.7.0 bin.tar.gz apache hive 1.2.1 bin.tar.gz hadoop 2.7.2.tar.gz hbase 1.3.1 bin.tar.gz jdk 8u144 linux x64.tar kafka_ ...
分类:
其他好文 时间:
2020-01-24 17:25:13
阅读次数:
88
1、pom.xml 版本号 <properties> <hbase.version>2.2.2</hbase.version> <hadoop.version>2.10.0</hadoop.version> <spark.version>2.4.2</spark.version> </propert ...
分类:
其他好文 时间:
2020-01-22 12:57:25
阅读次数:
62
1、认识Hadoop和Hbase 1.1 hadoop简单介绍 Hadoop是一个使用java编写的Apache开放源代码框架,它允许使用简单的编程模型跨大型计算机的大型数据集进行分布式处理。Hadoop框架工作的应用程序可以在跨计算机群集提供分布式存储和计算的环境中工作。Hadoop旨在从单一服务 ...
分类:
其他好文 时间:
2020-01-16 13:00:17
阅读次数:
97
接下来记录一下HBase存储原理相关的知识,理解尚浅,后续再补充。 索引 hbase中没有索引,但是mysql有,区别在于mysql是行级存储,hbase是列级存储,索引对行级存储有意义,对于列级存储意义不大。 如下图所示,不管是mysql还是hbase,最终数据都会落地成文件,当给行级存储建立索引 ...
分类:
其他好文 时间:
2020-01-16 01:15:32
阅读次数:
86
HBase行健的设计 在设计HBase表的时候,行健是唯一重要的事情。应该基于预期的访问模式来为行健进行建模 行健决定了访问HBase表时可以得到的性能。这个结论根植于两个事实: 1、region基于行健为一个区间的行提供服务,并且负责区间内的每一行。 2、HFile在硬盘上存储有序的行。 当reg ...
分类:
其他好文 时间:
2020-01-16 01:05:01
阅读次数:
74
1 Hbase特点 容量大:Hbase单表可以有百亿行、百万列,数据矩阵横向和纵向两个纬度所支持的数据量级都非常具有弹性。 面向列 :Hbase是面向列的存储和权限控制,并支持独立检索。列式存储,其数据在表中是按照某列存储的,这样在查询只需要少数几个字段的时候,能大大减少读取的数据量。 多版本: H ...
分类:
其他好文 时间:
2020-01-15 19:57:46
阅读次数:
78