搜索关键字：mahout hadoop canopy 聚类大数据，搜索到26726个结果！码迷,mamicode.com！

社会化海量数据采集爬虫框架搭建

如果你对项目管理、系统架构有兴趣，请加微信订阅号“softjg”，加入这个PM、架构师的大家庭随着BIG DATA大数据概念逐渐升温，如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间...

分类：其他好文时间：2014-05-12 17:06:14 阅读次数：396

修改HDFS块大小

环境：OS：Centos 6.5 x64 & Soft：Hadoop 1.2.11、查看当前块大小，默认64M。[huser@master hadoop-1.2.1]$ bin/hadoop fs -stat "%o" ./in/test1.txt671088642、修改hdfs-site.conf...

分类：其他好文时间：2014-05-06 08:59:21 阅读次数：368

secondary namenode和namenode分离

namenode 和 secondaryNamenode 运行在同一机器上，分离配置到新节点上。环境：OS：Centos 6.5 x64 & Soft：Hadoop 1.2.1master中的配置不是决定谁是namenode，而是决定谁是secondarynamenode。决定谁是namenode的...

分类：其他好文时间：2014-05-06 01:08:13 阅读次数：388

Hadoop集群实施成功后，再次格式化名称节点

Hadoop集群实施成功后，再次格式化名称节点。环境：OS：Centos 6.5 x64 & Soft：Hadoop 1.2.11、格式化之前hadoop集群正常。[huser@master hadoop-1.2.1]$ jps7927 SecondaryNameNode7773 NameNode8...

分类：其他好文时间：2014-05-06 00:52:59 阅读次数：491

Hadoop初学指南(5)--MapReduce入门

本文将介绍Hadoop中的重点MapReduce的入门知识。(1)MapReduce概述MapReduce是一种分布式计算模型，由Google提出，主要用于搜索领域，解决海量数据的计算问题。MR由两个阶段组成：Map和Reduce，在Hadoop中用户只需要实现map()和reduce()两个函数，即可实现分布式计算，非常简单..

分类：其他好文时间：2014-05-03 01:53:48 阅读次数：519

Hadoop初学指南(6)--MapReduce的简单实例及分析

本文在上一节的基础上通过一个简单的MR示例对MapReduce的运行流程进行分析。假设有两行数据，分别是helloyou，hellome,我们要统计其中出现的单词以及每个单词出现的次数。所得的结果为hello2you1me1(1)大致运行流畅1.解析成2个<k,v>，分别是<0,helloyou><10,hel..

分类：其他好文时间：2014-05-03 01:51:40 阅读次数：382

HDFS追本溯源：租约，读写过程的容错处理及NN的主要数据结构

Lease 的机制：hdfs支持write-once-read-many，也就是说不支持并行写，那么对读写的互斥同步就是靠Lease实现的。Lease说白了就是一个有时间约束的锁。客户端写文件时需要先申请一个Lease，对应到namenode中的LeaseManager，客户端的client name就作为一个lease的holder，即租约持有者。LeaseManager起什么作用呢？读写过程的容错是怎么做的？数据块是如何复制的？数据块的恢复机制？本文都有涉及。...

分类：其他好文时间：2014-05-02 23:22:14 阅读次数：450

Ubuntu14下Hadoop开发<1> 基础环境安装

在Ubuntu14.04下使用Hadoop2.4进行大数据开发之基础环境准备篇...

分类：其他好文时间：2014-05-02 19:56:21 阅读次数：367

通过secondary namenode恢复崩溃的namenode

模拟namenode崩溃，将name目录的内容全部删除，然后通过secondary namenode恢复namenode。环境：OS：Centos 6.5 x64 & Soft：Hadoop 1.2.11、进入name目录下，删除name目录内容。[huser@master name]$ pwd/h...

分类：其他好文时间：2014-05-02 14:44:28 阅读次数：517

关系型数据库与非关系型数据库

关系型数据库与非关系型数据库自1970年，埃德加·科德提出关系模型之后，关系数据库便开始出现，经过了40多年的演化，如今的关系型数据库具备了强大的存储、维护、查询数据的能力。但在关系数据库日益强大的时候，人们发现，在这个信息爆炸的“大数据”时代，关系型数据库遇到了性能方面的瓶颈，面对一个表中上亿条的...

分类：数据库时间：2014-05-02 09:02:06 阅读次数：365

共26726条上一页 1 ... 2666 2667 2668 2669 2670 ... 2673 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)