搜索关键字：大数据开发 Hadoop Spark，搜索到19831个结果！码迷,mamicode.com！

Hadoop集群维护

HDFS小文件问题及解决方案：http://dongxicheng.org/mapreduce/hdfs-small-files-solution/Hadoop升级方案（一）：Hadoop 1.0内部版本升级（初稿）：http://dongxicheng.org/mapreduce-nextgen/...

分类：其他好文时间：2014-05-10 02:08:24 阅读次数：327

Hadoop下面WordCount运行详解

单词计数是最简单也是最能体现MapReduce思想的程序之一，可以称为MapReduce版"Hello World"，该程序的完整代码可以在Hadoop安装包的"src/examples"目录下找到。单词计数主要完成功能是：统计一系列文本文件中每个单词出现的次数，如下图所示。现在我们以"hadoop...

分类：其他好文时间：2014-05-10 01:54:48 阅读次数：445

Hadoop MapReduce开发最佳实践（上篇）

Hadoop MapReduce开发最佳实践（上篇）本文是Hadoop最佳实践系列第二篇，上一篇为《Hadoop管理员的十个最佳实践》。MapRuduce开发对于大多数程序员都会觉得略显复杂，运行一个WordCount（Hadoop中hello word程序）不仅要熟悉MapRuduce模型，还要了...

分类：其他好文时间：2014-05-08 21:45:46 阅读次数：640

dataguru（炼数成金）大数据培训基地印象

dataguru访问地址：http://f.dataguru.cn/?fromuid=99611课程优惠码：C4B6这段时间一直在dataguru（炼数成金）上学习《hadoop数据分析平台（第十四期）》，说说我对炼数成金的印象。最开始听说dataguru是通过它的广告邮件中的链接，发送的对象是it...

分类：其他好文时间：2014-05-08 21:19:30 阅读次数：727

Hadoop集群（第9期）_MapReduce初级案例 - 虾皮 - 博客园

Hadoop集群（第9期）_MapReduce初级案例 - 虾皮 - 博客园1、数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1....

分类：其他好文时间：2014-05-08 20:38:16 阅读次数：669

hadoop学习笔记——基础知识及安装

1.核心 HDFS 分布式文件系统主从结构，一个namenoe和多个datanode，分别对应独立的物理机器 1)NameNode是主服务器，管理文件系统的命名空间和客户端对文件的访问操作。NameNode执行文件系统的命名空间操作，比如打开关闭重命名文件或者目录等，它也负责...

分类：其他好文时间：2014-05-05 10:35:14 阅读次数：432

为Linux集群创建新账户，并配置hadoop集群

转自:http://blog.csdn.net/bluesky8640/article/details/6945776之前装python、jdk、hadoop都是用的root账户，这是一个绝对的失策，linux对用户访问权限很严格，新创的hod账户根本无法启动hadoop，而root在hod模式下使...

分类：系统相关时间：2014-05-05 10:09:20 阅读次数：753

ubuntu下hadoop环境配置

软件环境：虚拟机：VMware Workstation 10 操作系统：ubuntu-12.04-desktop-amd64 JAVA版本：jdk-7u55-linux-x64 Hadoop版本：hadoop-1.2.1 Hadoop下载地址：http://mirrors.cnnic.cn/apa...

分类：其他好文时间：2014-05-04 10:43:51 阅读次数：370

使用hadoop multipleOutputs对输出结果进行不一样的组织

MapReduce job中,可以使用FileInputFormat和FileOutputFormat来对输入路径和输出路径来进行设置。在输出目录中，框架自己会自动对输出文件进行命名和组织，如:part-(m|r)-00000之类。但有时为了后续流程的方便，我们常需要对输出结果进行一定的分类和组织。...

分类：其他好文时间：2014-05-04 10:22:15 阅读次数：341

Spark中的Scheduler

Spark中的Scheduler scheduler分成两个类型，一个是TaskScheduler与其实现，一个是DAGScheduler。 TaskScheduler:主要负责各stage中传入的task的执行与调度。 DAGScheduler:主要负责对JOB中的各种依赖进行解析，根据RDD的依赖生成stage并通知TaskScheduler执行。实例生成 TaskSchedule...

分类：其他好文时间：2014-05-04 09:08:02 阅读次数：379

共19831条上一页 1 ... 1975 1976 1977 1978 1979 ... 1984 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)