搜索关键字：hadoop sqoop，搜索到14272个结果！码迷,mamicode.com！

Linux 集群时间同步(Ubuntu)

在配置hadoop集群时，时间同步是必须要做的，否则会出现各种意想不到的问题。 hadoop102 为 ntp server，hadoop103以及hadoop104 为ntp client（即需要同步时间机器） 1.全部机器都要安装ntp以及ntpdate sudo apt-get install ...

分类：系统相关时间：2020-07-18 16:09:18 阅读次数：143

谷粒微博-项目进度--完成环境准备

1.完成环境准备 a.开启hadoop服务 b.开启Mysql服务进入HIVE命令行界面 c.开启zookeeper服务 d.开启hbase服务进入命令行界面 ...

分类：其他好文时间：2020-07-17 11:26:18 阅读次数：54

Hadoop基础（十七）：MapReduce框架原理（一）切片机制（一）

1 InputFormat数据输入 1.1 切片与MapTask并行度决定机制 1．问题引出 MapTask的并行度决定Map阶段的任务处理并发度，进而影响到整个Job的处理速度。思考：1G的数据，启动8个MapTask，可以提高集群的并发处理能力。那么1K的数据，也启动8个MapTask，会提高 ...

分类：其他好文时间：2020-07-17 09:35:30 阅读次数：65

Hadoop基础（十八）：MapReduce框架原理（二）切片机制（二）

1.5 CombineTextInputFormat案例实操 1．需求将输入的大量小文件合并成一个切片统一处理。（1）输入数据准备4个小文件（2）期望期望一个切片处理4个文件 2．实现过程（1）不做任何处理，运行1.6节的WordCount案例程序，观察切片个数为4。（2）在Wordc ...

分类：其他好文时间：2020-07-17 09:33:01 阅读次数：73

Flume、Logstash、Filebeat对比

Flume、Logstash、Filebeat对比日志采集工具对比 1、Flume简介 Flume的设计宗旨是向Hadoop集群批量导入基于事件的海量数据。系统中最核心的角色是agent，Flume采集系统就是由一个个agent所连接起来形成。每一个agent相当于一个数据传递员，内部有三个组件： ...

分类：Web程序时间：2020-07-15 23:42:18 阅读次数：161

MapReduce之Shuffle详解

Hadoop原生的计算框架MapReduce，简单概括一下：进程量级很重，启动很慢，但能承载的数据量很大，效率相较于Spark微批处理和Flink实时来讲很慢，Shuffle任何一个写MR同学都必须掌握的东西，说难不难，说简单也不简单 MapReduce程序的五个阶段： input map shuf ...

分类：其他好文时间：2020-07-15 15:53:30 阅读次数：58

sqoop 导入从mysql导入数据到hive报类找不到

执行报错如下： 20/07/15 14:02:34 ERROR hive.HiveConfig: Could not load org.apache.hadoop.hive.conf.HiveConf. Make sure HIVE_CONF_DIR is set correctly. 20/07/ ...

分类：数据库时间：2020-07-15 15:29:36 阅读次数：88

MR错误问题的记录

hadoop Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out 程序里面打开文件数达到上限，系统一般默认数量是1024，（用ulimit -a可以看到）vi /etc/security/limits.conf 添加：sof ...

分类：其他好文时间：2020-07-15 12:46:25 阅读次数：86

bi软件排名--Smartbi大数据分析软件

商业智能的应用在国外已广为普及，并且开始不断应用大数据和云技术。而国内，商业智能BI工具在这几年才开始慢慢被接受，企业开始有意识地建立一体化数据分析平台，为经营决策提供分析。近几年，商业智能的几大趋势：对于大数据更好的支持，对海量数据块的快速响应，各大商业智能软件基本都支持了hadoop作为数据库；可视化分析的重要性，也日益明显，比如国内的亿信华辰跟国外的Tableau，QLK，PowerBI都有

分类：其他好文时间：2020-07-14 20:00:26 阅读次数：165

Linux部署

一、系统相关 cat /etc/redhat-release　查看系统版本uname -a 查看系统位数su - hadoop 切换系统账户source /etc/profile 重装配置文件二、防火墙 firewall-cmd --add-port=3306/tcp 开放3306端口 https ...

分类：系统相关时间：2020-07-14 18:00:46 阅读次数：79

共14272条上一页 1 ... 26 27 28 29 30 ... 1428 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)