搜索关键字：mapreduce 实战，搜索到20951个结果！码迷,mamicode.com！

优化技巧汇总_通用优化+Linux 优化+HDFS 优化+MapReduce 优化+HBase 优化+内存优化+JVM 优化+Zookeeper 优化

一、通用优化 1.1、NameNode 的元数据备份使用 SSD 1.2、定时备份 NameNode 上的元数据建议每小时或者每天备份，如果数据极其重要，可以5~10分钟备份一次。备份可以通过定时任务复制元数据目录即可。 1.3、为 NameNode 指定多个元数据目录使用 dfs.name.d ...

分类：系统相关时间：2020-05-30 21:52:59 阅读次数：105

hive从入门到实战五

第10章 Hive实战之谷粒影音 10.1 需求描述统计硅谷影音视频网站的常规指标，各种TopN指标：统计视频观看数Top10 统计视频类别热度Top10 统计出视频观看数最高的20个视频的所属视频类别以及对应视频类别的个数统计视频观看数Top50所关联视频的所属类别Rank 统计每个类别中的 ...

分类：其他好文时间：2020-05-30 20:22:47 阅读次数：68

Sqoop从入门到实战

第1章 Sqoop 简介 Sqoop 是一款开源的工具，主要用于在 Hadoop(Hive) 与传统的数据库 (mysql,postgresql,...) 间进行数据的高校传递，可以将一个关系型数据库（例如：MySQL,Oracle,Postgres等）中的数据导入到 Hadoop 的 HDFS 中 ...

分类：其他好文时间：2020-05-30 20:21:57 阅读次数：82

Scrapy项目实战：爬取某社区用户详情

get_cookies.py from selenium import webdriver from pymongo import MongoClient from scrapy.crawler import overridden_settings # from segmentfault impor ...

分类：其他好文时间：2020-05-30 20:06:36 阅读次数：60

azkaban从入门到实战

一概述 1.1 为什么需要工作流调度系统 1）一个完整的数据分析系统通常都是由大量任务单元组成： shell 脚本程序，java 程序，mapreduce 程序、hive 脚本等。2）各任务单元之间存在时间先后及前后依赖关系。3）为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行 ...

分类：其他好文时间：2020-05-30 20:00:49 阅读次数：59

Flume从入门到实战

第1章 Flume概述 1.1 Flume定义 Flume(水槽) 是 Cloudera 提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。在2009年Flume被捐赠了apache软件基金会，为hadoop相关组件之一。尤其近几年随着flum ...

分类：Web程序时间：2020-05-30 19:56:36 阅读次数：89

hive从入门到实战二

第4章 DDL数据定义 4.1 创建数据库 1）创建一个数据库，数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db。 hive (default)> create database db_hive; 2）避免要创建的数据库已经存在错误，增加 if not exist ...

分类：其他好文时间：2020-05-30 19:43:40 阅读次数：64

hive从入门到实战四

第8章压缩和存储（Hive高级） 8.1 Hadoop源码编译支持Snappy压缩 8.1.1 资源准备 1、CentOS联网配置CentOS能连接外网。Linux虚拟机 ping www.baidu.com 是畅通的。注意：采用root角色编译，减少文件夹权限出现问题。2、jar包准备(ha ...

分类：其他好文时间：2020-05-30 19:42:06 阅读次数：53

Kafka从入门到实战

第1章 Kafka概述 1.1 消息队列 1）点对点模式（一对一，消费者主动拉取数据，消息收到后消息清除）点对点模型通常是一个基于拉取或者轮询的消息传送模型，这种模型从队列中请求信息，而不是将消息推送到客户端。这个模型的特点是发送到队列的消息被一个且只有一个接收者接收处理，即使有多个消息监听者也是 ...

分类：其他好文时间：2020-05-30 19:39:36 阅读次数：63

hive从入门到实战一

第1章 Hive入门 1.1 什么是Hive Hive：由Facebook开源用于解决海量结构化日志的数据统计（分析数据的框架）。 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质是：将HQL转化成MapReduce程序。 1）Hive ...

分类：其他好文时间：2020-05-30 19:36:05 阅读次数：56

共20951条上一页 1 ... 99 100 101 102 103 ... 2096 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)