Kafka最早是由LinkedIn公司开发的,作为其自身业务消息处理的基础,后LinkedIn公司将Kafka捐赠给Apache,现在已经成为Apache的一个顶级项目了,Kafka作为一个高吞吐的分布式的消息系统,目前已经被很多公司应用在实际的业务中了,并且与许多数据处理框架相结合,比如Hadoo ...
分类:
其他好文 时间:
2021-07-26 16:51:13
阅读次数:
0
kafka reassign过程详见:reassign过程 最近kafka集群发生reassign过程卡住的情况,问题发生过程如下 问题日志 2021-07-16 10:35:41,193 INFO kafka.controller.KafkaController: [Controller id=3 ...
分类:
其他好文 时间:
2021-07-19 16:41:55
阅读次数:
0
1、启动过程中出现Configuration has multiple addresses that match local node's address. Please configure the system with dfs.nameservice.id and dfs.ha.namenode ...
分类:
其他好文 时间:
2021-07-16 17:32:09
阅读次数:
0
数据积压指的是消费者因为一些外部的IO、一些比较耗时的操作(full GC--stop the world),就会造成消息在partition中一直存在得不到消费,就会产生数据积压。 所以需要监控系统(kafka的监控系统Eagle),如果出现这种情况,需要尽快处理,虽然后续的spark strea ...
分类:
其他好文 时间:
2021-07-13 17:40:18
阅读次数:
0
在使用MapReduce的小测试的时候,Driver类启动,或报下面的错误 log4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.MutableMetricsFactory). log4j: ...
分类:
编程语言 时间:
2021-07-12 18:06:41
阅读次数:
0
今天学习了大数据的一些基本的概念。 什么是Hadoop: 大数据主要还是解决海量数据的存储和海量数据的分析计算。 大数据的特点:大量、高效、多样(结构化数据和非结构化数据)、低价值密度。 Hadoop的三大发行版本: Apache、cloundera、hortonworks。 当然现在clounde ...
分类:
其他好文 时间:
2021-07-09 17:52:26
阅读次数:
0
一.简介 xgboost在集成学习中占有重要的一席之位,通常在各大竞赛中作为杀器使用,同时它在工业落地上也很方便,目前针对大数据领域也有各种分布式实现版本,比如xgboost4j-spark,xgboost4j-flink等。xgboost的基础也是gbm,即梯度提升模型,它在此基础上做了进一步优化 ...
分类:
编程语言 时间:
2021-07-05 19:03:36
阅读次数:
0
IPFS分布式存储全面运用落地之后,FIL币的价值才达到最巅峰。恐怕每个人都明白了一个道理,顺势而为,即做事要顺势,不能逆势而行,这样才更容易成功。现实的法则,生存的法则是这样的。?如今,区块链、数字经济也是如此,抓住“机会”,就能被时代潮流推到成功的彼岸,而这一机遇也是 IPFS作为整个区块链唯一 ...
分类:
其他好文 时间:
2021-07-05 18:21:09
阅读次数:
0
问题描述: (1)使用Java API创建HDFS文件并写入内容的副本系数为3 (2)使用命令上传至HDFS中的文件副本数为1:举例[hadoop@hadoop000 software]$ hadoop fs -put jdk-8u91-linux-x64.tar.gz / 问题回答: (1)使用J ...
分类:
编程语言 时间:
2021-07-05 16:38:12
阅读次数:
0
如今大数据行业十分火热,本人认为python是比较强大的分析工具,在网易云课堂上学习了python数据分析。做了案例,写下代码分析过程以及分析结论。 以下是电商打折套路的python数据分析项目。 # -*- coding: utf-8 -*- """ Created on Wed Jan 9 15 ...
分类:
编程语言 时间:
2021-07-02 16:39:07
阅读次数:
0