1. 【十大经典数据挖掘算法】PageRank:https://www.cnblogs.com/en-heng/p/6124526.html 2. PageRank算法--从原理到实现:https://www.cnblogs.com/rubinorth/p/5799848.html 3. PageR ...
分类:
其他好文 时间:
2018-08-03 18:10:02
阅读次数:
133
推荐算法:找到相似的用户 优点:计算快,在数据完整的情况下效果最好 解决用户打分标准不同的问题(分数膨胀) 稀疏性:大多数推荐系统中,物品数量要远大于用户数量,因此用户对一个小部分物品评价对于大量数据而言就很难找到俩个相似的用户了,这就造成了数据的稀疏性 9.基于物品的协同过滤(列与列之间的):通过 ...
分类:
编程语言 时间:
2018-07-26 18:42:47
阅读次数:
200
我们经常使用决策树处理分类问题,近年来的调查表明决策树也是经常使用的数据挖掘算法K-NN可以完成多分类任务,但是它最大的缺点是无法给出数据的内在含义,决策树的主要优势在于数据形式非常容易理解决策树的优缺点:优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据缺点:可能 ...
分类:
编程语言 时间:
2018-07-22 20:45:39
阅读次数:
159
1、过拟合和欠拟合怎么判断,如何解决? 答:主要可以通过训练误差和测试误差入手判断是否过拟合或欠拟合。一般而言训练误差很低,但是测试误差较高,过拟合的概率较大,如果训练误差和测试误差都很高,一般是欠拟合。过拟合可以从增加样本量,减少特征数,降低模型复杂度等方面入手,实际的例子比如线性回归中,对于几十 ...
分类:
编程语言 时间:
2018-07-18 23:34:22
阅读次数:
235
恢复内容开始 前言 Netflix电影推荐的百万美金比赛,把“推荐”变成了时下最热门的数据挖掘算法之一。也正是由于Netflix的比赛,让企业界和学科界有了更深层次的技术碰撞。引发了各种网站“推荐”热,个性时代已经到来。 一、 推荐系统概述 电子商务网站是个性化推荐系统重要地应用的领域之一,亚马逊就 ...
分类:
其他好文 时间:
2018-06-21 00:02:21
阅读次数:
229
大多数数据挖掘算法都依赖于数值或类别型特征,从数据集中抽取数值和类别型特征,并选出最佳特征。 特征可用于建模, 模型以机器挖掘算法能够理解的近似的方式来表示现实 特征选择的另一个优点在于:降低真实世界的复杂度,模型比现实更容易操纵 特征选择 scikit-learn中的VarianceThresho ...
分类:
编程语言 时间:
2018-06-01 22:20:29
阅读次数:
1331
数据挖掘旨在让计算机根据已有数据做出决策。 数据挖掘的第一步一般是创建数据集,数据集能够描述真实世界的某一方面。数据集主要包括1.表示真实世界中物体的样本。2.描述数据集中样本的特征 接下来是调整算法。每种数据挖掘算法都有参数,它们或者是算法自身包含的,或者是使用 者添加的。这些参数会影响算法的具体 ...
分类:
编程语言 时间:
2018-05-22 19:07:05
阅读次数:
185
三.FP-tree算法 下面介绍一种使用了与Apriori完全不同的方法来发现频繁项集的算法FP-tree。FP-tree算法在过程中没有像Apriori一样产生候选集,而是采用了更为紧凑的数据结构组织tree, 再直接从这个结构中提取频繁项集。FP-tree算法的过程为: 首先对事务中的每个项计算 ...
分类:
编程语言 时间:
2018-04-23 22:39:46
阅读次数:
242
一、可视化方法 二、交互式工具 三、Python IDE类型 四、交互式可视化软件包 五、统计与数据挖掘算法 六、深度学习 ...
分类:
编程语言 时间:
2018-03-28 20:35:10
阅读次数:
292
企业对数据分析师的基础技能需求差别不大,如下: SQL数据库的基本操作,会基本的数据管理 会用Excel/SQL做基本的数据管理 会用脚本语言进行数据分析,Python or R 有获取外部数据的能力,如爬虫 会基本的数据可视化技能,能撰写数据报告 熟悉常用的数据挖掘算法:以回归分析为主 SQL数据 ...
分类:
其他好文 时间:
2018-03-09 00:25:55
阅读次数:
197