一、疑问 二、知识点 1. 白化 ? 白化操作的输入是特征基准上的数据,然后对每个维度除以其特征值来对数值范围进行归一化。该变换的几何解释是:如果数据服从多变量的高斯分布,那么经过白化后,数据的分布将会是一个均值为零,且协方差相等的矩阵。该操作的代码如下: ? 警告:夸大的噪声。注意分母中添加了1e ...
分类:
其他好文 时间:
2018-04-03 12:50:40
阅读次数:
187
一、分布式的两大场景 数据存储的分布式 服务的分布式 二、数据存储的分布式 比如海量数据,单机存储不下,需要多机,以集群的方式存储,即为数据的分布式存储,数据存储的分布式一般涉及如下几个方面 数据的分片策略 全局主键的实现机制 跨结点数据的聚合 分布式事务 数据容灾机制 2.1数据分片策略 2.1. ...
分类:
其他好文 时间:
2018-03-31 00:44:36
阅读次数:
152
参考来源:http://pinkyjie.com/2010/08/31/covariance/ 我们知道标准差、均值等是用于描述数据的分布情况,但是这些大多用于一维数据,然而现实生活中会碰到各类多维数据,那么这时候则会涉及到协方差的概念,用于描述两个随机变量的关系,其在单个维度的方差定义表示如下: ...
分类:
其他好文 时间:
2018-02-13 19:52:43
阅读次数:
138
第一次参加,天池大数据竞赛(血糖预测),初赛排名1%。因为自己对python不熟悉,所以记录一下在比赛中用到的一些python方法的使用(比较基础细节,大佬绕道): 1.数据初探 使用上面两行代码,可以初步的看到整个数据的分布、缺失等情况 2.数据中存在性别是字符串表示的,使用map方法,将他数字化 ...
分类:
编程语言 时间:
2018-01-30 19:44:30
阅读次数:
293
1使用BN进行数据归一化的原因 a) 神经网络学习过程本质就是为了学习数据分布,一旦训练数据与测试数据的分布不同,那么网络的泛化能力也大大降低; b) 另外一方面,一旦每批训练数据的分布各不相同(batch 梯度下降),那么网络就要在每次迭代都去学习适应不同的分布,这样将会大大降低网络的训练速度. ...
分类:
Web程序 时间:
2018-01-18 13:35:20
阅读次数:
186
Sqoop Flume HDFS Sqoop用于从结构化数据源,例如,RDBMS导入数据 Flume 用于移动批量流数据到HDFS HDFS使用 Hadoop 生态系统存储数据的分布式文件系统 Sqoop具有连接器的体系结构。连接器知道如何连接到相应的数据源并获取数据 Flume 有一个基于代理的架 ...
分类:
Web程序 时间:
2017-12-13 17:05:24
阅读次数:
242
== 1 Hbase==Hadoop Database 是Apache的Hadoop项目的子项目。 HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。 适合于非结构化数据存储的数据库。 高可靠 ...
分类:
其他好文 时间:
2017-12-11 21:14:06
阅读次数:
202
1. 非监督学习 监督学习有数据有标签,目的是学习数据和标签之间的映射关系。而无监督学习只有数据,没有标签,目的是学习数据额隐藏结构。 2. 生成模型(Generative Models) 已知训练数据,根据训练数据的分布(distribution)生成新的样例。 无监督学习中的一个核心问题是估计分 ...
分类:
编程语言 时间:
2017-12-09 18:13:46
阅读次数:
402
在 2006 年的 OSDI 上,Google 发布了名为 Bigtable: A Distributed Storage System for Structured Data 的论文,其中描述了一个用于管理结构化数据的分布式存储系统 - Bigtable 的数据模型、接口以及实现等内容。 本文会先 ...
分类:
数据库 时间:
2017-12-06 23:46:37
阅读次数:
362
以前学习硬件方面知识比较多,对深度学习知识有一定的了解。最近开始学习深度学习来提升自己。 深度学习 首先要了解深度学习的概念。深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。 深 ...
分类:
其他好文 时间:
2017-12-01 15:12:51
阅读次数:
166