https://orc.apache.org Optimized Row Columnar (ORC) file 层次结构: file -> stripes -> row groups(10000 rows) 行列混合存储 Background Back in January 2013, we cr ...
分类:
其他好文 时间:
2018-11-07 18:41:19
阅读次数:
272
一、大数据概念 1.大数据的定义: 指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。补充:主要解决,海量数据的存储和海量数据的分析计算问题。 2.数据的单位: bit、Byte、KB ...
分类:
其他好文 时间:
2018-11-05 01:14:02
阅读次数:
214
1 oozie如何查看任务日志? 通过oozie job id可以查看流程详细信息,命令如下: oozie job -info 0012077-180830142722522-oozie-hado-W 流程详细信息如下: Job ID : 0012077-180830142722522-oozie- ...
分类:
其他好文 时间:
2018-11-02 16:00:33
阅读次数:
328
五 源代码解析 简单来说,zookeeper启动的核心类是QuorumPeerMain,启动之后会加载配置,同时启动QuorumPeer,QuorumPeer会从本地数据目录加载数据,然后开始选举,选举的核心类是FastLeaderElection,选举完成之后会设置状态,根据状态的不同,启动不同的 ...
分类:
其他好文 时间:
2018-10-31 17:05:06
阅读次数:
125
本文适合有一定大数据基础的读者朋友们阅读,但如果你没有技术基础,照样可以继续看(这就好比你看《葵花宝典》第一页:欲练此功,必先自宫,然后翻到第二页:若不自宫,也可练功,没错就是这种感觉→_→)。 大数据的数据采集工作是大数据技术中非常重要、基础的部分,数据不会平白无故地跑到你的数据平台软件中,你得用 ...
分类:
Web程序 时间:
2018-09-25 14:41:36
阅读次数:
228
什么是大数据?用于①数据的存储:分布式文件系统(分布式存储)②数据的计算:分布式计算。简单一点就是存储和计算的问题,解决日常海量数据的分析。学习大数据需要什么基础呢?Java基础(Javase):类、类、继承、I/O、反射、泛型等;Linux基础(Linux的操作):创建文件、目录、vi编辑器的使用;Java和大数据都有哪些关系呢?基于Java语言开发→→→Hadoop体系结构、原理、编程第一阶段
分类:
其他好文 时间:
2018-09-01 17:31:34
阅读次数:
160
DKhadoop大数据处理平台架构的安装相关文章已经分享过,详细的内容可以找一下看看。在上一篇中已经就集群平均负载、集群磁盘使用情况、HDFS监控界面、Hbase监控界面等监控参数进行说明。今天就把剩下的一些监控参数一起介绍完,关于大快大数据处理平台监控参数的介绍就完整了。
分类:
其他好文 时间:
2018-08-15 14:58:49
阅读次数:
180
数据预处理技术在地学大数据中应用(知网) 数据预处理技术在地学大数据中应用:成矿规律、智能矿床模型、壳幔对流模型、岩石构造环境判别、矿物生态系统、地学本体及语义网等地质数据不仅数量巨大, 数据类型多样, 同时还具有噪音强、混合型强、区域性强的特点, 具有明显大数据的特征。 ...
分类:
其他好文 时间:
2018-05-27 12:14:13
阅读次数:
119
很多小伙伴不知道对应版本的Centos怎么下载,最近小编整理了一份Centos详细的下载教程,希望小伙伴们不在为下不到对应版本的Centos而苦恼。1、进入Centos官网:https://www.centos.org/download/不要点击黄颜色背景的下载框,如:DVD ISO,Everything ISO,Minimal ISO,而是点击红色框框内的alternative download
分类:
其他好文 时间:
2018-05-19 00:12:07
阅读次数:
139
大数据平台基础框架是很多初学者必然要掌握的内容,大数据太过抽象,有时候写分享的时候难免感觉写的很多困难。还是通过具体的案例来写会比较好理解。关于大数据平台基础框架我还是用自己熟悉的DKhadoop为例。
分类:
其他好文 时间:
2018-05-15 17:38:54
阅读次数:
120