Hadoop原生的计算框架MapReduce,简单概括一下:进程量级很重,启动很慢,但能承载的数据量很大,效率相较于Spark微批处理和Flink实时来讲很慢,Shuffle任何一个写MR同学都必须掌握的东西,说难不难,说简单也不简单 MapReduce程序的五个阶段: input map shuf ...
分类:
其他好文 时间:
2020-07-15 15:53:30
阅读次数:
58
执行报错如下: 20/07/15 14:02:34 ERROR hive.HiveConfig: Could not load org.apache.hadoop.hive.conf.HiveConf. Make sure HIVE_CONF_DIR is set correctly. 20/07/ ...
分类:
数据库 时间:
2020-07-15 15:29:36
阅读次数:
88
hadoop Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out 程序里面打开文件数达到上限,系统一般默认数量是1024,(用ulimit -a可以看到)vi /etc/security/limits.conf 添加 :sof ...
分类:
其他好文 时间:
2020-07-15 12:46:25
阅读次数:
86
商业智能的应用在国外已广为普及,并且开始不断应用大数据和云技术。而国内,商业智能BI工具在这几年才开始慢慢被接受,企业开始有意识地建立一体化数据分析平台,为经营决策提供分析。近几年,商业智能的几大趋势:对于大数据更好的支持,对海量数据块的快速响应,各大商业智能软件基本都支持了hadoop作为数据库;可视化分析的重要性,也日益明显,比如国内的亿信华辰跟国外的Tableau,QLK,PowerBI都有
分类:
其他好文 时间:
2020-07-14 20:00:26
阅读次数:
165
一、系统相关 cat /etc/redhat-release 查看系统版本uname -a 查看系统位数su - hadoop 切换系统账户source /etc/profile 重装配置文件 二、防火墙 firewall-cmd --add-port=3306/tcp 开放3306端口 https ...
分类:
系统相关 时间:
2020-07-14 18:00:46
阅读次数:
79
这个事情的背景是公司的Hadoop生态集群都是原生的,不是基于CDH的,所以基本所有的东西都需要自己手动管理,比如集群修改一些属性,然后批量分发重启或者动态生效之类的。这次也算不上事故,因为没对生产环境造成什么影响,但是差一点就变成事故,写出来分享一下。 事情简单概括就是,60+台hadoop的集群 ...
分类:
其他好文 时间:
2020-07-14 13:10:45
阅读次数:
72
1.Hadoop (1)安装配置 基础只需要配置core-site.xml和hdfs-site.xml就行。 参考: https://www.jianshu.com/p/aa8cfaa26790【这个教程的core-site.xml和hdfs-site.xml的内容弄反了,交换一下就行】 http: ...
数据算法 Hadoop Spark大数据处理技巧 ...
分类:
编程语言 时间:
2020-07-13 18:11:22
阅读次数:
80
hadoop生产环境的使用是很复杂的,有些公司是CDH或者Ambari等管理工具运维的,有些是原生的集群俗称裸奔,前者优缺点是运维,查看监控等容易,对于底层理解不友好;裸奔集群反之,裸奔集群的很多东西都需要定制和自己开发,比如监控用zabbix,告警用企业微信,节点的异构严重的,需要二次开发配置文件 ...
分类:
其他好文 时间:
2020-07-13 13:17:45
阅读次数:
65
水平有限,本文仅以流水账的方式 介绍自己 安装 三款软件 的过程。 环境Ubuntu on 虚拟机: $ cat /proc/version Linux version 4.15.0-54-generic (buildd@lgw01-amd64-014) (gcc version 7.4.0 \(U ...
分类:
其他好文 时间:
2020-07-13 13:14:44
阅读次数:
63