理解Hadoop2.7.4集群搭建组件: HDFS 海量数据的分布式存储 Map-Reduce 海量数据的分布式计算框架 Yarn 海量数据的资源管理 两个集群 逻辑上分离,物理上常在一起 1、Hdfs 集群 三个角色:Namenode,Datanod,Secondnode 2、Yarn集群 两个 ...
分类:
其他好文 时间:
2018-07-24 17:35:29
阅读次数:
174
Hadoop是一个利用大规模计算机集群,可处理大量数据的分布式并行框架。 "Hadoop 官网" Hadoop的核心设计包括HDFS和MapReduce。 HDFS HDFS(Hadoop Distributed File System)是一种分布式文件系统。 主要特点:1.高容错性;2.高吞吐量访 ...
分类:
其他好文 时间:
2018-07-13 23:20:10
阅读次数:
194
Hadoop是一个利用大规模计算机集群,可处理大量数据的分布式并行框架。 "Hadoop 官网" Hadoop的核心设计包括HDFS和MapReduce。 HDFS HDFS(Hadoop Distributed File System)是一种分布式文件系统。 主要特点:1.高容错性;2.高吞吐量访 ...
分类:
其他好文 时间:
2018-07-13 23:18:54
阅读次数:
193
import numpy as np s=np.array([[1,2,3],[4,5,6]],np.int32)#相当于list的嵌套 s.shape#数据的分布状况 s.dtype#数据类型 type(s)#s的类型 s[0]#取出第一行或者任意行 s[:,0]#取任意列 s[0,1]#取出任意 ...
分类:
编程语言 时间:
2018-07-03 20:11:12
阅读次数:
142
一、概述 在分布式环境下,开发者通常会遇到一些分布存储的场景,例如数据库的分库分表(比如用户id尾号为1的放入数据库1,id尾号为2的放入数据库2);又如分布式缓存数据的获取(比如根据ip地址进行缓存数据的分布存放)。在这种情况下,如何快速的将数据放入指定的位置,又如何快速获取是个最基本的要求,对于 ...
分类:
编程语言 时间:
2018-06-14 18:31:26
阅读次数:
172
11.何时修改开发集、测试集和度量指标 开展一个新项目,尽快选好开发集和测试集;例子,根据度量指标A分类器排在B分类器前面,但是团队认为B分类器在实际产品上优于A分类器,这时就需要考虑修改开发集和测试集,或者评价指标了。 有三个主要原因可能导致A分类器的评分较低: (1)你需要处理实际数据的分布和开 ...
分类:
系统相关 时间:
2018-06-14 01:12:46
阅读次数:
225
1. Flink Flink介绍: Flink 是一个针对流数据和批数据的分布式处理引擎。它主要是由 Java 代码实现。目前主要还是依靠开源社区的贡献而发展。对 Flink 而言,其所要处理的主要场景就是流数据,批数据只是流数据的一个极限特例而已。再换句话说,Flink 会把所有任务当成流来处理, ...
分类:
其他好文 时间:
2018-05-11 20:11:02
阅读次数:
3306
采用五分位算法,统计一下数据的分布情况 首先,我们设置一下五分位算法点位K值,分别采用 16%,37%,63%,84%概率 根据excel自带的函数PERCENTILE,以及 K值,分别计算出四个点位值,结果如下图所示 虽然excel有自带的函数,但是java没有,必须通过自己编写程序来实现 创建 ...
分类:
编程语言 时间:
2018-04-29 19:57:09
阅读次数:
3039
简介 Redis是一个开源的,使用C语言编写,面向“键/值”对类型数据的分布式NoSQL数据库系统,特点是高性能,持久存储,适应高并发的应用场景。Redis纯粹为应用而产生,它是一个高性能的key-value数据库,并且提供了多种语言的API 性能测试结果表示SET操作每秒钟可达110000次,GE ...
分类:
其他好文 时间:
2018-04-20 17:54:33
阅读次数:
157
在运维管理中,经常遇到时间序列的数据,比如网卡流量、在线用户数、并发连接数,等等。用散点图可以直观的查看数据的分布情况。matplotlib模块的pyplot有画散点图的函数,但是该函数要求x轴是数字类型。pandas的plot函数里,散点图类型‘scatter‘也要求数字型的,用时间类型的会报错。可以使用pyplot的plot_date()画散点图。下面是完整的python代码:
分类:
编程语言 时间:
2018-04-08 18:21:00
阅读次数:
1020