数据挖掘算法与现实生活中的应用案例 如何分辨出垃圾邮件”、“如何判断一笔交易是否属于欺诈”、“如何判断红酒的品质和档次”、“扫描王是如何做到文字识别的”、“如何判断佚名的著作是否出自某位名家之手”、“如何判断一个细胞是否属于肿瘤细胞”等等,这些问题似乎都很专业,都不太好回答。但是,如果了解一点点数据 ...
分类:
编程语言 时间:
2017-12-29 16:55:19
阅读次数:
143
二.Apriori算法 上文说到,大多数关联规则挖掘算法通常采用的策略是分解为两步: 频繁项集产生,其目标是发现满足具有最小支持度阈值的所有项集,称为频繁项集(frequent itemset)。 规则产生,其目标是从上一步得到的频繁项集中提取高置信度的规则,称为强规则(strong rule)。通 ...
分类:
编程语言 时间:
2017-12-11 14:22:10
阅读次数:
163
一.基本概念 我们来看上面的事务库,如同上表所示的二维数据集就是一个购物篮事务库。该事物库记录的是顾客购买商品的行为。这里的TID表示一次购买行为的编号,items表示顾客购买了哪些商品。 事务: 事务库中的每一条记录被称为一笔事务。在上表的购物篮事务中,每一笔事务都表示一次购物行为。 项集(T): ...
分类:
编程语言 时间:
2017-12-11 14:07:29
阅读次数:
233
1.经常使用决策树处理分类问题,决策树也是最经常使用的数据挖掘算法。 2.kNN可以完成很多分类任务,最大的缺点是无法给出数据的内在含义,决策树的优势在于数据形式容易理解。 3.1决策树的构造 决策树的优点:计算复杂度不高,输出结果易于理解,对中间值缺失不敏感,可以处理不相关特征数据。 缺点:可能会 ...
分类:
其他好文 时间:
2017-11-28 23:13:30
阅读次数:
232
大家接触的第一个聚类方法,十有八九都是K-means聚类啦。该算法十分容易理解,也很容易实现。其实几乎所有的机器学习和数据挖掘算法都有其优点和缺点。那么K-means的缺点是什么呢? 总结为下: (1)对于离群点和孤立点敏感; (2)k值选择; (3)初始聚类中心的选择; (4)只能发现球状簇。 对 ...
分类:
编程语言 时间:
2017-08-26 20:42:16
阅读次数:
165
1.决策树算法 决策树,又称判定树,是一种类似二叉树或多叉树的树结构。决策树是用样本的属性作为结点,用属性的取值作为分支,也就是类似流程图的过程,其中每个内部节点表示在一个属性上的测试,每个分支代表一个测试输出,而每个树叶节点代表类或类分布。它对大量样本的属性进行分析和归纳。根结点是所有样本中信息量 ...
分类:
数据库 时间:
2017-07-21 17:10:38
阅读次数:
209
1 简介 决策树学习是一种逼近离散值目标函数的方法,在这种学习到的函数被表示为一棵决策树。 2 决策树表示 决策树通过把实例从根节点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每一个结点指定了对实例的某个属性的测试,并且该结点的每一个后续分支对应于该属性的一个可能值。 分类实例的 ...
分类:
编程语言 时间:
2017-07-03 16:18:06
阅读次数:
265
算法工程师包括 音/视频算法工程师(通常统称为语音/视频/图形开发工程师)、图像处理算法工程师、计算机视觉算法工程师、通信基带算法工程师、信号算法工程师、射频/通信算法工程师、自然语言算法工程师、数据挖掘算法工程师、搜索算法工程师、控制算法工程师(云台算法工程师,飞控算法工程师,机器人控制算法)、导 ...
分类:
编程语言 时间:
2017-06-28 23:02:28
阅读次数:
148
欢迎转载,请附上链接 http://blog.csdn.net/iemyxie/article/details/40736773 本文所涉算法均仅仅概述核心思想。详细实现细节參看本博客“数据挖掘算法学习”分类下其它文章,不定期更新中。 參考了很多资料加上个人理解,对十大算法进行例如以下分类: ?分类 ...
分类:
编程语言 时间:
2017-06-26 12:42:19
阅读次数:
354
贝叶斯网络
序:
上上周末写完上篇朴素贝叶斯分类后,连着上了七天班,而且有四天都是晚上九点下班,一直没有多少时间学习贝叶斯网络,所以更新慢了点,利用清明节两天假期,花了大概七八个小时,写了这篇博客,...
分类:
编程语言 时间:
2017-04-08 21:48:51
阅读次数:
324