搜索关键字：数据的分布，搜索到203个结果！码迷,mamicode.com！

打包项目，在本地使用

理解Hadoop2.7.4集群搭建组件： HDFS 海量数据的分布式存储 Map-Reduce 海量数据的分布式计算框架 Yarn 海量数据的资源管理两个集群逻辑上分离，物理上常在一起 1、Hdfs 集群三个角色：Namenode，Datanod，Secondnode 2、Yarn集群两个 ...

分类：其他好文时间：2018-07-24 17:35:29 阅读次数：174

Hadoop中重要概念简要总结

Hadoop是一个利用大规模计算机集群，可处理大量数据的分布式并行框架。 "Hadoop 官网" Hadoop的核心设计包括HDFS和MapReduce。 HDFS HDFS(Hadoop Distributed File System)是一种分布式文件系统。主要特点：1.高容错性；2.高吞吐量访 ...

分类：其他好文时间：2018-07-13 23:20:10 阅读次数：194

Hadoop中一些重要概念简要总结

Hadoop是一个利用大规模计算机集群，可处理大量数据的分布式并行框架。 "Hadoop 官网" Hadoop的核心设计包括HDFS和MapReduce。 HDFS HDFS(Hadoop Distributed File System)是一种分布式文件系统。主要特点：1.高容错性；2.高吞吐量访 ...

分类：其他好文时间：2018-07-13 23:18:54 阅读次数：193

python numpy教程

import numpy as np s=np.array([[1,2,3],[4,5,6]],np.int32)#相当于list的嵌套 s.shape#数据的分布状况 s.dtype#数据类型 type(s)#s的类型 s[0]#取出第一行或者任意行 s[:,0]#取任意列 s[0,1]#取出任意 ...

分类：编程语言时间：2018-07-03 20:11:12 阅读次数：142

一致性hash算法应用场景、详解与实现（JAVA）

一、概述在分布式环境下，开发者通常会遇到一些分布存储的场景，例如数据库的分库分表（比如用户id尾号为1的放入数据库1，id尾号为2的放入数据库2）；又如分布式缓存数据的获取（比如根据ip地址进行缓存数据的分布存放）。在这种情况下，如何快速的将数据放入指定的位置，又如何快速获取是个最基本的要求，对于 ...

分类：编程语言时间：2018-06-14 18:31:26 阅读次数：172

吴恩达《Machine Learning Yearning》总结（11-20章）

11.何时修改开发集、测试集和度量指标开展一个新项目，尽快选好开发集和测试集；例子，根据度量指标A分类器排在B分类器前面，但是团队认为B分类器在实际产品上优于A分类器，这时就需要考虑修改开发集和测试集，或者评价指标了。有三个主要原因可能导致A分类器的评分较低：（1）你需要处理实际数据的分布和开 ...

分类：系统相关时间：2018-06-14 01:12:46 阅读次数：225

Flink+kafka实现Wordcount实时计算

1. Flink Flink介绍： Flink 是一个针对流数据和批数据的分布式处理引擎。它主要是由 Java 代码实现。目前主要还是依靠开源社区的贡献而发展。对 Flink 而言，其所要处理的主要场景就是流数据，批数据只是流数据的一个极限特例而已。再换句话说，Flink 会把所有任务当成流来处理， ...

分类：其他好文时间：2018-05-11 20:11:02 阅读次数：3306

五分位算法

采用五分位算法，统计一下数据的分布情况首先，我们设置一下五分位算法点位K值，分别采用 16%，37%，63%，84%概率根据excel自带的函数PERCENTILE，以及 K值，分别计算出四个点位值，结果如下图所示虽然excel有自带的函数，但是java没有，必须通过自己编写程序来实现创建 ...

分类：编程语言时间：2018-04-29 19:57:09 阅读次数：3039

Redis学习（一）

简介 Redis是一个开源的，使用C语言编写，面向“键/值”对类型数据的分布式NoSQL数据库系统，特点是高性能，持久存储，适应高并发的应用场景。Redis纯粹为应用而产生，它是一个高性能的key-value数据库,并且提供了多种语言的API 性能测试结果表示SET操作每秒钟可达110000次，GE ...

分类：其他好文时间：2018-04-20 17:54:33 阅读次数：157

python画时间序列散点图

在运维管理中，经常遇到时间序列的数据，比如网卡流量、在线用户数、并发连接数，等等。用散点图可以直观的查看数据的分布情况。matplotlib模块的pyplot有画散点图的函数，但是该函数要求x轴是数字类型。pandas的plot函数里，散点图类型‘scatter‘也要求数字型的，用时间类型的会报错。可以使用pyplot的plot_date()画散点图。下面是完整的python代码：

分类：编程语言时间：2018-04-08 18:21:00 阅读次数：1020