搜索关键字：hadoop学习笔记，搜索到191个结果！码迷,mamicode.com！

Hadoop学习笔记(8) ——实战做个倒排索引

Hadoop学习笔记(8) ——实战做个倒排索引倒排索引是文档检索系统中最常用数据结构。根据单词反过来查在文档中出现的频率，而不是根据文档来，所以称倒排索引(Inverted Index)。结构如下: 这张索引表中，每个单词都对应着一系列的出现该单词的文档，权表示该单词在该文档中出现的次数。....

分类：其他好文时间：2014-08-14 23:43:36 阅读次数：302

Hadoop学习笔记_8_实施Hadoop集群 --分布式安装Hadoop

实施Hadoop集群--分布式安装Hadoop 说明:以Ubuntu配置为例,其中与CentOS不同之处会给出详细说明现有三台服务器:其IP与主机名对应关系为:192.168.139.129 master #NameNode/JobTrackerr结点 192.168.139.132 slave01 #DataNode/TaskTracker结点 192.168.139.137 slave...

分类：其他好文时间：2014-08-12 17:28:24 阅读次数：297

Hadoop学习笔记_7_分布式文件系统HDFS --DataNode体系结构

分布式文件系统HDFS--DataNode体系结构 1.概述 DataNode作用:提供真实文件数据的存储服务。文件块（block）：最基本的存储单位[沿用的Linux操作系统地概念]。对于文件内容而言，一个文件的长度大小是size，那么从文件的０偏移开始，按照固定的大小，顺序对文件进行划分并编号，划分好的每一个块称一个Block。与Linux操作系统不同的是,一旦上传了一个小于Block大小...

分类：其他好文时间：2014-08-08 21:20:36 阅读次数：364

Hadoop学习笔记_5_分布式文件系统HDFS --shell操作

分布式文件系统HDFS 分布式文件系统[Distributed File System]概述数据量越来越多，在一个操作系统管辖的范围存不下了，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，因此迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。分布式文件系统特点:是一种允许文件通过网络在多台主机上分享的文件系统，可让多机器上的多用户分享文件和存储空间。通透性。让实际...

分类：其他好文时间：2014-08-08 18:11:06 阅读次数：245

Hadoop学习笔记_6_分布式文件系统HDFS --NameNode体系结构

分布式文件系统HDFS--NameNode体系结构NameNode是整个文件系统的管理节点。它维护着整个文件系统的文件目录树[为了使得检索速度更快,该目录树放在内存中]，文件/目录的元信息和每个文件对应的数据块列表。接收用户的操作请求。Hadoop确保了NameNode的健壮性,不容易死亡.文件目录树以及文件/目录的元信息等归根到底是存放在硬盘中的,但是在Hadoop运行时,需要将其加载到内存中...

分类：其他好文时间：2014-08-08 18:10:26 阅读次数：198

Hadoop学习笔记_4_实施Hadoop集群 --伪分布式安装

实施Hadoop集群--伪分布式安装准备与配置安装环境安装虚拟机和linux，虚拟机推荐使用vmware，PC可以使用workstation，服务器可以使用ESXi，在管理上比较方便。ESXi还可以通过拷贝镜像文件复制虚拟机，复制后自动修改网卡号和ip，非常快捷。如果只是实验用途，硬盘大约预留20-30G空间。以Centos为例，分区可以选择默认[如果想要手动分区,请参考博客:http:/...

分类：其他好文时间：2014-08-08 09:40:15 阅读次数：505

Hadoop学习笔记一

第一个hands-on入门程序：参考http://blog.csdn.net/sim_szm/article/details/12578055搭建环境并跑WordCount程序，区别是我安装的是最新的hadoop版本0.23.11，JDK我使用的是SunJDK，Linux使用的是国产的Kylin。问题一：Error:JAVA_HOMEisnotsetandcouldnotbefound.解决方案：/..

分类：其他好文时间：2014-08-04 14:39:48 阅读次数：219

Hadoop学习笔记(7) ——高级编程

Hadoop学习笔记(7) ——高级编程从前面的学习中，我们了解到了MapReduce整个过程需要经过以下几个步骤： 1.输入(input):将输入数据分成一个个split，并将split进一步拆成。 2.映射(map)：根据输入的进生处理， 3.合并(combiner)：合并中间相两同的key....

分类：其他好文时间：2014-08-02 23:20:14 阅读次数：415

Hadoop学习笔记_2_Hadoop源起与体系概述[续]

Hadoop源起与体系概述 Hadoop的源起——Lucene Lucene是Doug Cutting开创的开源软件，用java书写代码，实现与Google类似的全文搜索功能，它提供了全文检索引擎的架构，包括完整的查询引擎和索引引擎早期发布在个人网站和SourceForge，2001年年底成为apache软件基金会jakarta的一个子项目 Lucene的目的是为软件开发人员提供一个简单易用的工具...

分类：其他好文时间：2014-08-01 23:09:52 阅读次数：388

Hadoop学习笔记（三）——zookeeper的一致性协议：ZAB

Zookeeper使用了一种称为Zab（ZookeeperAtomic Broadcast）的协议作为其一致性复制的核心，其特点为高吞吐量、低延迟、健壮、简单，但不过分要求其扩展性。 Zookeeper的实现是有Client、Server构成，Server端提供了一个一致性复制、存储服务，Client端会提供一些具体的语义，比如分布式锁、选举算法、分布式互斥等。从存储内容来说，Server端更多...

分类：其他好文时间：2014-08-01 19:53:12 阅读次数：309

共191条上一页 1 ... 16 17 18 19 20 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)