码迷,mamicode.com
首页 >  
搜索关键字:hbase hadoop    ( 16410个结果
oracleSQL 转 SPARKSQL(hiveSql) 及常用优化
背景 数据处理平台从oracle迁移到hadoop平台后,原有的数据处理过程需要改写为sparkSql。由于sparkSql执行环境和数据的不确定,经常有资源竞争导致处理过程意外停止,数据倾斜导致任务执行失败。 为减少出错概率,需要对sparkSql进行规范与优化。 转换 1. exist 转换 为 ...
分类:数据库   时间:2020-05-25 19:47:59    阅读次数:94
Flink核心概念
分布式缓存 分布式缓存的思想在hadoop和spark中都有体现,Flink 提供的分布式缓存类似 Hadoop,目的是为了在分布式环境中让每一个 TaskManager 节点保存一份相同的数据或者文件,当前计算节点的 task 就像读取本地文件一样拉取这些配置。 比如在进行表与表 Join 操作时 ...
分类:其他好文   时间:2020-05-25 19:29:56    阅读次数:60
HBase与Hive的集成操作
1.介绍 Hive提供了与HBase的集成,使得能够在HBase表上使用HQL语句进行查询 插入操作以及进行Join和Union等复杂查询,同时也可以将hive表中的数据映射到HBase中; 2.模型概念 2.1 将ETL操作的数据存入HBase 2.2 HBase作为Hive的数据源 2.3 构建 ...
分类:其他好文   时间:2020-05-25 14:00:35    阅读次数:51
Hadoop最简单入门实战
[toc] 一、部署Hadoop本地模式 1. 搭建linux环境 我用的centos7 2. 在/opt目录下创建目录 3. 安装jdk 4. 下载hadoop https://hadoop.apache.org/releases.html 并解压到/opt/module目录 5. 配置hadoo ...
分类:其他好文   时间:2020-05-24 23:42:50    阅读次数:64
kafka群启脚本
```shell #!/bin/bash case $1 in "start"){ for i in hadoop120 hadoop121 hadoop 122 do echo "************$i*************" ssh $i "/.../kafka/bin/kafka-s... ...
分类:其他好文   时间:2020-05-24 21:00:57    阅读次数:111
YARN调度架构中的AppMaster
YARN调度架构 esourceScheduler是YARN的调度器,负责Container的分配。 AsyncDispatcher是单线程的事件分发器,负责向调度器发送调度事件。 ResourceTrackerService是资源跟踪服务,主要负责接收处理NodeManager的心跳信息。 App... ...
分类:移动开发   时间:2020-05-24 20:59:39    阅读次数:118
花6个月写的付费专栏,免费送|仿开源框架从零到一完整实现高性能、可扩展的RPC框架
作者 渡码,阿里巴巴码农,公众号:渡码 作者,专注大数据开发、数据分析和Python技术。 关注公众号 渡码 回复关键字 manis,可获取电子书、各章节和完整源代码,并且可加入读者群一起交流问题。 简介 19年上半年,我阅读了Hadoop RPC模块的源代码,读完后发现这个模块设计的非常好,与其他 ...
分类:其他好文   时间:2020-05-24 19:17:26    阅读次数:73
Spark之Yarn Cluster运行机制
简介 Spark有3种集群管理器: Standalone Hadoop YARN 又分为yarn client与yarn cluser Apache Mesos 生产环境中一般使用yarn cluser模式 个人理解 yarn主要有两个作用. 一个是创建container以此来分配计算资源 另外一个 ...
分类:其他好文   时间:2020-05-24 11:33:26    阅读次数:64
在Eclipse下搭建Hadoop开发环境
为了方便远程提交代码运行,我们在Eclipse下搭建Hadoop开发环境。 1.JDK安装配置 首先得先安装并配置好JDK,然后下载安装Eclipse。这一部分不做过多介绍,使用java这一步应该都已经达成,接下来开始对Hadoop开发环境进行搭建。 2.Hadoop插件安装和配置 Eclipse  ...
分类:系统相关   时间:2020-05-24 09:56:20    阅读次数:70
数据科学家访谈录 摘录(二)
第十二章 如何锻炼数据科学技能 (资深数据科学家 & 创新领袖) 数据科学是一个结合了应用数学,计算机科学,商业资讯和新产品研发的综合职位。统计学,机器学习,sql,hadoop,java(数据科学家应该像瑞士军刀一样多才多艺,能够在诸多领域多才多艺,并且在一两个领域内拥有深邃的真知灼见。)商业资讯 ...
分类:其他好文   时间:2020-05-24 09:17:20    阅读次数:65
16410条   上一页 1 ... 52 53 54 55 56 ... 1641 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!