转载:http://www.cnblogs.com/zhijianliutang/p/4050931.html 前言 本篇文章继续我们的微软挖掘系列算法总结,前几篇文章已经将相关的主要算法做了详细的介绍,我为了展示方便,特地的整理了一个目录提纲篇:大数据时代:深入浅出微软数据挖掘算法总结连载,有兴趣 ...
分类:
数据库 时间:
2016-11-05 17:19:56
阅读次数:
299
数据挖掘主要分为4类,即预测、分类、聚类和关联,根据不同的挖掘目的选择相应的算法。下面对R语言中常用的数据挖掘包做一个汇总: 连续因变量的预测: stats包 lm函数,实现多元线性回归 stats包 glm函数,实现广义线性回归 stats包 nls函数,实现非线性最小二乘回归 rpart包 rp ...
分类:
编程语言 时间:
2016-10-19 13:33:45
阅读次数:
420
1、数据挖掘的特点: 数据挖掘的数据源必须是真实的; 数据挖掘所处理的数据必须是海量的; 查询一般是决策制定者(用户)提出的随机查询; 挖掘出来的知识一般是不能预知的; 2、数据挖掘算法的组成: 模型或模式结构; 数据挖掘任务; 评分函数; 搜索和优化方法; 数据管理策略; 3、根据数据分析者的目标 ...
分类:
其他好文 时间:
2016-10-13 01:32:53
阅读次数:
191
Apriori: 其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。经典的关联规则数据挖掘算法Apriori 算法广泛应用于各种领域,通过对数据的关联性进行了分析和挖掘,挖掘出的这些信息在决策制定过程中具有重要的参考价值。 Apriori算法广泛应用于商业中,应用于消费市场价格分 ...
分类:
其他好文 时间:
2016-10-09 14:11:21
阅读次数:
207
数据分析或者挖掘到底在做什么?认为分析是为了定性地、概括地从庞大的数据中找到规律,找到数据挖掘的方向。就像解数学题之前要对题目进行定性,简单的推演以找到解决数学问题的思路。 数据挖掘是从庞大的信息源中获得知识【1】的过程。数据挖掘是为了得到目标结果而使用的方法,手段。有一些比较成熟的数据挖掘算法。如 ...
分类:
其他好文 时间:
2016-09-17 13:21:20
阅读次数:
131
在十大经典数据挖掘算法中,KNN算法算得上是最为简单的一种。该算法是一种惰性学习法(lazy learner),与决策树、朴素贝叶斯这些急切学习法(eager learner)有所区别。惰性学习法仅仅只是简单地存储训练元组,做一些少量工作,在真正进行分类或预测的时候才开始做更多的工作。有点像是平时不 ...
分类:
编程语言 时间:
2016-08-29 12:48:15
阅读次数:
394
一、分布式数据仓库技术架构 二、核心内容解读 (1)分布式数据仓库存储技术:hive+hdfs; (2)事实计算平台技术框架:spark; (3)数据挖掘算法技术框架:mllib + sparkR ...
分类:
其他好文 时间:
2016-08-19 09:41:15
阅读次数:
139
一、大数据分析的五个基本方面 1、可视化分析 大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。 2、数据挖掘算法 大数据分析的理论核心就是数据 ...
分类:
其他好文 时间:
2016-08-18 18:27:34
阅读次数:
156
(期末考试快到了,所以比较粗糙,请各位读者理解。。) 一、 概念 DBSCAN是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。低密度区域中的点被视为噪声而忽略,因此DBSCAN不产生完全聚类。 二、 伪代码 1 将所有点标记为核心点、边界点和噪声点。 2 删除噪声点。 3 为距离在 ...
分类:
数据库 时间:
2016-06-26 11:36:47
阅读次数:
264
(期末考试要到了,所以比较粗糙,请各位读者理解。。) 一、 概念 k-means是基于原型的、划分的聚类技术。它试图发现用户指定个数(K)的簇(由质心代表)。K-means算法接受输入量K,然后将N个数据对象划分为K个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度 ...
分类:
编程语言 时间:
2016-06-26 11:33:19
阅读次数:
234