背景 目前 机器学习平台 后端采用k8s架构进行GPU和CPU资源的调度和容器编排。总所周知,k8s的后端核心存储使用etcd进行metadata持久化存储。机器学习平台采取[External etcd topology](http://way.xiaojukeji.com/article/Exte ...
分类:
其他好文 时间:
2020-07-15 23:14:34
阅读次数:
90
基于x-pack的用户管理(一) “域”(realms) Elasticsearch安全管理插件通过用户认证、用户授权、加密通信、审计日志、IP过滤等多种手段来保证集群的安全。x-pack的安全插件可以通过用户名密码、证书、令牌和其他多种方法实现用户认证。Elasticsearch支持通过多种服务实 ...
分类:
其他好文 时间:
2020-07-15 23:07:42
阅读次数:
94
普通模式 默认的集群模式,以两个节点(rabbit01、rabbit02)为例来进行说明。对于Queue来说,消息实体只存在于其中一个节点rabbit01(或者rabbit02),rabbit01和rabbit02两个节点仅有相同的元数据,即队列的结构。当消息进入rabbit01节点的Queue后, ...
分类:
其他好文 时间:
2020-07-15 15:35:46
阅读次数:
64
课程内容: 1. 简单的操作一下集群 2. 简单的介绍几个工具(企业) 3. Producer的原理(核心,重点) 4. 简单kafka的代码 5. 介绍里面的核心参数(重点) 消费者原理 --replica-factor 2 --partitions 2我们一般设置分区数,建议是节点的倍数 Pro ...
分类:
其他好文 时间:
2020-07-15 01:03:51
阅读次数:
81
简述 RabbitMQ是流行的开源消息队列系统,本身已经具备了较强的并发处理速度及运行稳定性,然而在大规模的实际应用中,往往还需要使用集群配置来保证系统中消息通信部分的高可用性,并发处理性能及异常恢复能力。这里将介绍一种实用的消息集群架构,以及一种能够快速、高效、可靠地部署并配置消息集群的方式,通过 ...
分类:
其他好文 时间:
2020-07-14 20:09:20
阅读次数:
80
1 什么是集群,什么是分布式 集群:就是具有完整功能的系统群集,一个集群节点坏了,其它节点能照常运行, 这是不是像一个并联电路?一个并联电路节点坏了,其它节点还是能够正常工作的。 分布式:就是把一个大而复杂的业务计算分配到多个业务节点机器上,即多个节点机器构成一个 完整的业务链。一个节点故障,则整个 ...
分类:
编程语言 时间:
2020-07-14 20:07:39
阅读次数:
97
这个事情的背景是公司的Hadoop生态集群都是原生的,不是基于CDH的,所以基本所有的东西都需要自己手动管理,比如集群修改一些属性,然后批量分发重启或者动态生效之类的。这次也算不上事故,因为没对生产环境造成什么影响,但是差一点就变成事故,写出来分享一下。 事情简单概括就是,60+台hadoop的集群 ...
分类:
其他好文 时间:
2020-07-14 13:10:45
阅读次数:
72
Spark on K8S 的几种模式 Standalone:在 K8S 启动一个长期运行的集群,所有 Job 都通过 spark-submit 向这个集群提交 Kubernetes Native:通过 spark-submit 直接向 K8S 的 API Server 提交,申请到资源后启动 Pod ...
分类:
Web程序 时间:
2020-07-14 09:25:00
阅读次数:
89
一、zookeeper集群介绍 zookeeper集群的目的是为了保证系统的性能承载更多的客户端连接设专门提供的机制。 通过集群可以实现以下功能: 读写分离:提高承载,为更多的客户端提供连接,并保障性能。 主从自动切换:提高服务容错性,部分节点故障不会影响整个服务集群。 因为 zookeeper 通 ...
分类:
其他好文 时间:
2020-07-14 00:41:44
阅读次数:
47
第1章 访问认证的概述 1.1 概念的引入 API Server作为Kubernetes集群系统的网关,是访问及管理资源对象的唯一人口, 余下所有需要访问集群资源的组件,包括kube-controller-manager、kube- scheduler 、 kubelet和kube-proxy等集群 ...
分类:
其他好文 时间:
2020-07-13 15:15:28
阅读次数:
79