整理数据挖掘的基本概念和算法,包括关联规则挖掘、分类、聚类的常用算法,敬请期待。今天讲的是关联规则挖掘的最基本的知识。 关联规则挖掘在电商、零售、大气物理、生物医学已经有了广泛的应用,本篇文章将介绍一些基本知识和Aprori算法。 啤酒与尿布的故事已经成为了关联规则挖掘的经典案例,还有人专门出了一....
分类:
编程语言 时间:
2015-11-09 12:21:29
阅读次数:
203
树图网可视化实验1.实验要求 要求通过树,或者图、网的可视化聚类,分析某个公司的邮件社交网络。根据要求设计可视化方案,并利用D3工具实现可视化效果。2.过程2.1.可视化方案的设计思路2.1.1.可视化要求 1)可视化该邮件社交网络。 2)该可视化中的每个Edge都对应着一个权重(Emails...
分类:
Web程序 时间:
2015-11-07 14:42:20
阅读次数:
1335
什么是聚类(clustering) 个人理解:聚类就是将大量无标签的记录,根据它们的特点把它们分成簇,最后结果应当是相同簇之间相似性要尽可能大,不同簇之间相似性要尽可能小。聚类方法的分类如下图所示:一、如何计算样本之间的距离? 样本属性可能有的类型有:数值型,命名型,布尔型……在计算样本之间的距.....
分类:
其他好文 时间:
2015-11-04 01:57:53
阅读次数:
165
机器学习六--K-means聚类算法想想常见的分类算法有决策树、Logistic回归、SVM、贝叶斯等。分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足,尤其是在处理海量数据的时候,如果通过预处理使得数据满足分类算...
分类:
编程语言 时间:
2015-10-30 07:03:23
阅读次数:
281
一、下面的HIERARCHICALCLUSTERING算法需要输入一个n*n的距离矩阵d,并产生数据的n个不同的分划,以树的形式输出。HIERARCHICALCLUSTERING(d,n)形成n个类,每个类含有一个元素构建图T,为每个类分配一个单独的顶点while 存在多于一个类找到最近的2个类C1和C2将C1和C2合并成一个新的类C,C含有|C1|+|C2|个元素计算C与其他各类的距离在图T中增...
分类:
其他好文 时间:
2015-10-27 17:47:37
阅读次数:
135
在文本相似度判定中,作者将该算法用于文本聚类中,其核心思想通过比较两个文本向量中元素的相似度,即向量中所含的元素相似个数越多,则两个向量越相似,继而上述文本越相似。作者在短文本相似判定中采用了余弦相似度该算法来实现,本文借鉴数学集合取交集,借用现有组件来实现上述算法功能,继而减少工作量,也具备便捷性...
分类:
其他好文 时间:
2015-10-25 12:03:30
阅读次数:
292
1、原理解释(1)原始数据集合List按照一定的规则进行排序,初始距离阈值设置为T1、T2,T1>T2。(2)在List中随机挑选一个数据向量A,使用一个粗糙距离计算方式计算A与List中其它样本数据向量之间的距离d。(3)根据2中的距离d,把d小于T1的样本数据向量划到一个canopy中,同时把d..
分类:
其他好文 时间:
2015-10-23 00:14:57
阅读次数:
274
1.物流管理系统2.Android天气预报和日程管理3.宠物交易4.粒子群优化5.文本聚类软件设计与实现 FCM+Kmeans + TFIDF6.遗传算法优化Kmeans7.遗传算法优化资源调度8.仿今日头条的个性化推荐APP+后台9.银行信贷系统10.博客系统QQ:在博客右侧
分类:
编程语言 时间:
2015-10-22 15:42:52
阅读次数:
156
关于bmp图片的格式,网上有很多文章,具体可以参考百度百科,也有例子程序。这里只提要注意的问题。(1)结构体定义问题:首先按照百度百科介绍的定义了结构体,但是编译发现重定义BITMAPFILEHEADER等。其实只要包含了Windows.h,里面的wingdi.h就已经定义了处理bmp的结构体,故不...
分类:
编程语言 时间:
2015-10-19 19:01:19
阅读次数:
332