本文翻译自文章:Pandas Cheat Sheet - Python for Data Science 对于数据科学家,无论是数据分析还是数据挖掘来说,Pandas是一个非常重要的Python包。它不仅提供了很多方法,使得数据处理非常简单,同时在数据处理速度上也做了很多优化,使得和Python内置 ...
分类:
其他好文 时间:
2019-05-12 10:53:27
阅读次数:
219
一、连续变量与连续变量的相关分析 > 用相关分析 相关分析是指连续变量之间的一种非严格的相依赖的变化关系,具体表现为:当一个变量发生时,另一个变量随之发生相应线性变动的关系,我们一般可以用相关系数 r 大小来衡量两个连续变量的相关性强弱(注意:不是衡量因果关系),例如衡量客户入网时长和每月话费的相关 ...
分类:
其他好文 时间:
2019-04-13 21:45:43
阅读次数:
176
一、np.var 数学上学过方差: $$D(X)=\sum_{i\in [0,n)} ({x \bar{x}})^2 $$ np.var实际上是均方差。 函数原型: 计算张量a在axis轴上的方差 a:一个ndarray,不一定是一维 axis:可取值为None,int,int元组。当取值为None ...
分类:
其他好文 时间:
2019-04-12 00:45:13
阅读次数:
1172
3.1 数据预处理 数据质量的三个要素:准确性、完整性和一致性。 3.1.2 数据预处理的主要任务 数据清理:填写缺失的值,光滑噪声数据,识别或删除离群点,并解决不一致性来”清理“数据。 数据集成:相关性分析,卡方,协方差,相关系数 数据归约:大->小,维归约,数据压小 数据变换和数据离散化:规范化 ...
分类:
其他好文 时间:
2019-04-06 22:47:56
阅读次数:
253
1.数据库 Dataset1.txt:328个同学的身高、体重、性别数据(78个女生250个男生) Dataset2.txt:124个同学的数据(40女、84男) Dataset3.txt:90个同学的数据(16女,74男) 数据集:提取码:e8ph 2.需要完成的工作 (1)以dataset1为训 ...
分类:
其他好文 时间:
2019-03-31 13:36:42
阅读次数:
185
内容目录 1. 统计函数 2. 窗口函数 3. 加深加强 数据准备 1.统计函数 最常见的计算工具莫过于一些统计函数了。 这里我们首先构建一个包含了用户年龄与收入的 DataFrame。我们可以通过 cov 函数来求出年龄与收入之间的协方差,计算的时候会丢弃缺失值。除了协方差之外,我们还可以通过 c ...
分类:
其他好文 时间:
2019-03-11 23:38:30
阅读次数:
252
[TOC] 近期广泛阅读券商关于 宏观高频数据 的研报,发现了两点不足: 就研究手段而言,比较粗放,普遍停留在仅仅比较数据相关系数的层面; 就理论高度而言,很少探讨数据背后的因果关联。 不过有些理念先进的券商团队已经开始从 产业链传导 的角度试图细致的描述数据间的关联,这正好契合了下面这篇文章的核心 ...
分类:
其他好文 时间:
2019-02-26 00:57:43
阅读次数:
173
周志华《机器学习》第三章:基本形式,线性回归,线性判别分析,多分类学习,类别不平衡问题 ...
分类:
其他好文 时间:
2019-01-30 18:28:49
阅读次数:
208
参考:《 "深度学习500问" 》 期望 ?在概率论和统计学中,数学期望(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和。它反映随机变量平均取值的大小。 线性运算: $E(ax+by+c) = aE(x)+bE(y)+c$ ?推广形式: $E(\sum_{k=1}^{n}{a_ix_ ...
分类:
其他好文 时间:
2019-01-26 00:20:33
阅读次数:
296
构建模型的个基本过程: PCA 与 SVD关系 PCA : 降维度。过程:首先计算样本本协方差矩阵,然后·暴力特征分解·(非常消耗资源)。 SVD : 降维度,它的标准推导过程类似特征分解(耗资源),据说,sk-learn中它有其他实现过程。 scikit-learn的PCA算法的背后真正的实现就是 ...
分类:
其他好文 时间:
2019-01-21 16:08:54
阅读次数:
183