码迷,mamicode.com
首页 >  
搜索关键字:hadoop学习笔记    ( 191个结果
Hadoop学习笔记(8) ——实战 做个倒排索引
Hadoop学习笔记(8) ——实战 做个倒排索引 倒排索引是文档检索系统中最常用数据结构。根据单词反过来查在文档中出现的频率,而不是根据文档来,所以称倒排索引(Inverted Index)。结构如下: 这张索引表中, 每个单词都对应着一系列的出现该单词的文档,权表示该单词在该文档中出现的次数。....
分类:其他好文   时间:2014-08-14 23:43:36    阅读次数:302
Hadoop学习笔记_8_实施Hadoop集群 --分布式安装Hadoop
实施Hadoop集群--分布式安装Hadoop  说明:以Ubuntu配置为例,其中与CentOS不同之处会给出详细说明 现有三台服务器:其IP与主机名对应关系为:192.168.139.129 master #NameNode/JobTrackerr结点 192.168.139.132 slave01 #DataNode/TaskTracker结点 192.168.139.137 slave...
分类:其他好文   时间:2014-08-12 17:28:24    阅读次数:297
Hadoop学习笔记_7_分布式文件系统HDFS --DataNode体系结构
分布式文件系统HDFS--DataNode体系结构 1.概述 DataNode作用:提供真实文件数据的存储服务。 文件块(block):最基本的存储单位[沿用的Linux操作系统地概念]。对于文件内容而言,一个文件的长度大小是size,那么从文件的0偏移开始,按照固定的大小,顺序对文件进行划分并编号,划分好的每一个块称一个Block。 与Linux操作系统不同的是,一旦上传了一个小于Block大小...
分类:其他好文   时间:2014-08-08 21:20:36    阅读次数:364
Hadoop学习笔记_5_分布式文件系统HDFS --shell操作
分布式文件系统HDFS 分布式文件系统[Distributed File System]概述数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统 。分布式文件系统特点:是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和存储空间。通透性。让实际...
分类:其他好文   时间:2014-08-08 18:11:06    阅读次数:245
Hadoop学习笔记_6_分布式文件系统HDFS --NameNode体系结构
分布式文件系统HDFS--NameNode体系结构NameNode是整个文件系统的管理节点。它维护着整个文件系统的文件目录树[为了使得检索速度更快,该目录树放在内存中], 文件/目录的元信息和每个文件对应的数据块列表。接收用户的操作请求。Hadoop确保了NameNode的健壮性,不容易死亡.文件目录树以及文件/目录的元信息等归根到底是存放在硬盘中的,但是在Hadoop运行时,需要将其加载到内存中...
分类:其他好文   时间:2014-08-08 18:10:26    阅读次数:198
Hadoop学习笔记_4_实施Hadoop集群 --伪分布式安装
实施Hadoop集群--伪分布式安装准备与配置安装环境  安装虚拟机和linux,虚拟机推荐使用vmware,PC可以使用workstation,服务器可以使用ESXi,在管理上比较方便。ESXi还可以通过拷贝镜像文件复制虚拟机,复制后自动修改网卡号和ip,非常快捷。如果只是实验用途,硬盘大约预留20-30G空间。  以Centos为例,分区可以选择默认[如果想要手动分区,请参考博客:http:/...
分类:其他好文   时间:2014-08-08 09:40:15    阅读次数:505
Hadoop学习笔记一
第一个hands-on入门程序:参考http://blog.csdn.net/sim_szm/article/details/12578055搭建环境并跑WordCount程序,区别是我安装的是最新的hadoop版本0.23.11,JDK我使用的是SunJDK,Linux使用的是国产的Kylin。问题一:Error:JAVA_HOMEisnotsetandcouldnotbefound.解决方案:/..
分类:其他好文   时间:2014-08-04 14:39:48    阅读次数:219
Hadoop学习笔记(7) ——高级编程
Hadoop学习笔记(7) ——高级编程 从前面的学习中,我们了解到了MapReduce整个过程需要经过以下几个步骤: 1.输入(input):将输入数据分成一个个split,并将split进一步拆成。 2.映射(map):根据输入的进生处理, 3.合并(combiner):合并中间相两同的key....
分类:其他好文   时间:2014-08-02 23:20:14    阅读次数:415
Hadoop学习笔记_2_Hadoop源起与体系概述[续]
Hadoop源起与体系概述 Hadoop的源起——Lucene Lucene是Doug Cutting开创的开源软件,用java书写代码,实现与Google类似的全文搜索功能,它提供了全文检索引擎的架构,包括完整的查询引擎和索引引擎早期发布在个人网站和SourceForge,2001年年底成为apache软件基金会jakarta的一个子项目 Lucene的目的是为软件开发人员提供一个简单易用的工具...
分类:其他好文   时间:2014-08-01 23:09:52    阅读次数:388
Hadoop学习笔记(三)——zookeeper的一致性协议:ZAB
Zookeeper使用了一种称为Zab(ZookeeperAtomic Broadcast)的协议作为其一致性复制的核心,其特点为高吞吐量、低延迟、健壮、简单,但不过分要求其扩展性。 Zookeeper的实现是有Client、Server构成,Server端提供了一个一致性复制、存储服务,Client端会提供一些具体的语义,比如分布式锁、选举算法、分布式互斥等。从存储内容来说,Server端更多...
分类:其他好文   时间:2014-08-01 19:53:12    阅读次数:309
191条   上一页 1 ... 16 17 18 19 20 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!