这部分也许是数据预处理最为关键的一个阶段。 如何对数据降维是一个很有挑战,很有深度的话题,很多理论书本均有详细深入的讲解分析。 本文仅介绍主成分分析法(PCA)和探索性因子分析法(EFA),并给出具体的实现步骤。 ...
分类:
其他好文 时间:
2017-05-20 21:56:51
阅读次数:
277
在对数据有了大致的了解以后,就需要对获取到的数据进行一个预处理了。预处理的过程并不简单,大致来说分成缺失值处理,异常值处理,数据归约等等 (可根据实际情况对这些阶段进行科学的取舍)。 下面将对这几个阶段一个个讲解。(本文中测试数据集nhanes2来自包lattice) ...
分类:
其他好文 时间:
2017-05-20 21:16:45
阅读次数:
304
1. 摘要 因为图数据库的复杂模式和不同的信息描写叙述方式,对于非专业用户来说查询复杂的图数据库是异常困难的。一个好的图查询引擎应该支持多种转化——同义词、缩略词、简写以及本体等等,而且应该可以对搜索结果进行一个非常好地排序。 基于此问题本文提出了一种新型的查询框架来方便用户查询,解放了为构造查询图 ...
分类:
数据库 时间:
2017-05-08 10:02:47
阅读次数:
163
转自:http://guanjy0129.blog.163.com/blog/static/1115494452010614113333509/ LR分析法的归约过程是规范推导的逆过程,所以LR分析过程是一种规范归约过程。 LR分析法正是给出一种能根据当前分析栈中的符号串(通常以状态表示)和向右顺序 ...
分类:
其他好文 时间:
2017-05-01 22:27:54
阅读次数:
212
最近在复习编译原理,考试之前以为自己懂了,眼高手低就没去实践。结果一考试出问题了。。。。 学习就要脚踏实地,容不得半点模糊。凭着侥幸心理很危险的。以后要引以为戒啊。 特别写出这篇文章 :一来总结一下这几天的收获。二来与君共勉。 一、概念 1.概念解释 1、活前缀:不包含句柄右侧任一符号的规范句型的前 ...
分类:
其他好文 时间:
2017-05-01 22:11:26
阅读次数:
871
整理下Eigen库的教程,参考:http://eigen.tuxfamily.org/dox/index.html 归约、迭代器和广播 归约 在Eigen中,有些函数可以统计matrix/array的某类特征,返回一个标量。 范数计算 L2范数 squareNorm(),等价于计算vector的自身 ...
分类:
其他好文 时间:
2017-01-26 15:41:09
阅读次数:
534
整理下Eigen库的教程,参考:http://eigen.tuxfamily.org/dox/index.html 归约、迭代器和广播 归约 在Eigen中,有些函数可以统计matrix/array的某类特征,返回一个标量。 范数计算 L2范数 squareNorm(),等价于计算vector的自身 ...
分类:
其他好文 时间:
2017-01-25 21:10:00
阅读次数:
214
对 NP-Hard问题和NP-Complete问题的一个直观的理解就是指那些很难(很可能是不可能)找到多项式时间算法的问题。因此一般初学算法的人都会问这样一个问题:NP-Hard和NP-Complete有什么不同?简单的回答是根据定义,如果所有NP问题都可以多项式归约到问题A,那么问题A就是 NP- ...
分类:
其他好文 时间:
2016-10-27 20:18:28
阅读次数:
323
聚类分析是一种数据归约技术,旨在揭露一个数据集中观测值的子集。它可以把大量的观测值归约为若干个类。 最常用的两种聚类方法是层次聚类(hierarchical agglomerative clustering)和划分聚类(partitioning clustering)。在层次聚类中,每一个观测值自成 ...
分类:
其他好文 时间:
2016-10-16 11:54:37
阅读次数:
171
数据预处理 1. 数据质量的三个要素:准确性、完整性、一致性 2. 数据预处理的主要任务: 数据清理、数据集成、数据归约、数据变换 一. 数据清理 数据清理主要:填补缺失的值,光滑噪声同时识别离群点,并纠正数据的不一致性。 通常是一个两步的迭代过程,包括偏差检测和数据变换 注意:在某些情况下,缺失值 ...
分类:
其他好文 时间:
2016-10-13 14:01:57
阅读次数:
151