Hadoop读书笔记(一)Hadoop介绍:http://blog.csdn.net/caicongyang/article/details/39898629 Hadoop读书笔记(二)HDFS的shell操作:http://blog.csdn.net/caicongyang/article/det ...
分类:
其他好文 时间:
2018-01-17 10:11:57
阅读次数:
115
安装hive 1、下载hive-2.1.1(搭配hadoop版本为2.7.3) 2、解压到文件夹下 /wdcloud/app/hive-2.1.1 3、配置环境变量 4、在mysql上创建元数据库hive_metastore编码选latin,并授权 5、新建hive-site.xml,内容如下: < ...
分类:
其他好文 时间:
2017-01-24 17:58:29
阅读次数:
436
P573 从mysql导入数据到hdfs 第一步:在mysql中创建待导入的数据 1、创建数据库并允许所有用户访问该数据库 mysql -h 192.168.200.250 -u root -p 2、创建表widgets 3、导入测试数据 第二步:执行sqoop导入命令 缺少mysql连接器 先导入 ...
分类:
其他好文 时间:
2017-01-24 14:42:10
阅读次数:
644
P92 压缩 P102 序列化 序列化:将结构化对象转为字节流便于在网上传输或写到磁盘进行永久性存储的过程 用于进程之间的通信或者数据的永久存储 反序列化:将字节流转为结构化对象的逆过程 Hadoop中的序列化:在Hadoop中,系统中多个节点上进程间的通信是通过远程过程传输RPC来实现的。 RPC ...
分类:
其他好文 时间:
2017-01-22 13:37:33
阅读次数:
157
1、数据采集 使用Hadoop分析处理数据,需要装载大量从不同来源的数据到Hadoop集群。从不同来源大容量的数据加载到Hadoop,然后这个过程处理它,这具有一定的挑战。维护和确保数据的一致性,并确保资源的有效利用,选择正确的方法进行数据加载前有一些因素是要考虑的。 http://www.68dl ...
分类:
其他好文 时间:
2017-01-22 13:28:49
阅读次数:
210
P49 当数据集的大小超过一台计算机存储能力时,就有必要对数据集分区(partition)并将分区存储到若干台独立的计算机上。 管理网络中跨多台计算机存储的系统就叫分布式文件系统 Distributed FileSystem 而基于Hadoop构建的DFS就称之为HDFS。 P49-50 HDFS的 ...
分类:
其他好文 时间:
2017-01-20 17:26:28
阅读次数:
260
P3-P4: 目前遇见的问题很简单:硬盘容量不断提升,1TB的已成为主流,然而数据传输速度从1990年的4.4MB/s仅上升到当前约100MB/s 读取一个1TB的硬盘数据需要耗时至少2.5个小时。写入数据则会消耗更多时间。解决方法是从多个硬盘上读取,试想,若当前有100个盘,每个盘存储1%数据,则 ...
分类:
其他好文 时间:
2017-01-20 14:23:12
阅读次数:
208
本文从Hadoop是什么、能做什么、谁使用三个主要问题去讲解。对于重点知识如MapReduce、YARN、Hadoop生态系统内的其他组件(HBase、Pig、Hive、Zookeeper等)的介绍和使用这里不做详细说明,需要大家对这些内容扩展并深入学习。1、Hadoop是什么及功能1、2002年,Hadoop作为一个..
分类:
其他好文 时间:
2016-12-05 02:54:44
阅读次数:
164
Hadoop1.x中MapReduce中TopK算法(Top100算法)...
分类:
编程语言 时间:
2014-12-11 22:25:32
阅读次数:
245
Hadoop读书笔记(十二)MapReduce自定义排序...
分类:
编程语言 时间:
2014-12-03 00:32:03
阅读次数:
228