因为自己对python也有一定的了解,之前也用R做过一些数据分析,又恰好看到几篇文章介绍python实现算法的,觉得挺有意思,所以参考了一些书籍来自己实现一个K-means的聚类算法。《Python数据分析基础教程:NumPy学习指南(第2版)》和 《 Matplotlib手册》是做数据分析的挺不错...
分类:
编程语言 时间:
2015-11-23 18:41:18
阅读次数:
782
一、用R语言建立文档矩阵(这里我选用的是Rx643.2.2)(这里我取的是04年NIPS共计207篇文档做分析,其中文档内容已将开头的作者名和最后的参考文献进行过滤处理)##1.DataImport导入自己下的3084篇NIPStxt文档library("tm")#加载tm包stopwords<-u...
分类:
编程语言 时间:
2015-11-19 20:40:08
阅读次数:
520
一、数据挖掘的流程1.明确你的目标,收集相关数据。2.根据目标分析这些数据,找出输入列、可预测列。3.选择合适的数据挖掘方法。4.分析数据挖掘结果,给出建议。二、常见的数据挖掘方法有分类、聚类、关联、回归、时间序列分析、离散序列分成、偏差分析、贝叶斯、神经网络等等。 1. 数据挖掘算法之分类例:某....
分类:
其他好文 时间:
2015-11-13 11:40:05
阅读次数:
282
针对大数量的文本数据,采用单线程处理时,一方面消耗较长处理时间,另一方面对大量数据的I/O操作也会消耗较长处理时间,同时对内存空间的消耗也是很大,因此,本文引入MapReduce计算模型,以分布式方式处理文本数据,以期提高数据处理速率。本文结合Kmeans和DBSCAN算法,对上述算法进行改进,其中...
分类:
其他好文 时间:
2015-11-13 00:45:24
阅读次数:
605
WEKA使用教程目录1. 简介2. 数据格式3.数据准备4. 关联规则(购物篮分析)5. 分类与回归6. 聚类分析1. 简介WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),它的源代码可通过http://www.cs.waik...
分类:
其他好文 时间:
2015-11-10 16:15:00
阅读次数:
269
鉴于DBSCAN算法对输入参数,领域半径E和阈值M比较敏感,在参数调优时比较麻烦,因此本文对另一种基于密度的聚类算法OPTICS(Ordering Points To Identify the Clustering Structure)展开研究,其为DBSCAN的改进算法,与DBSCAN相比,该算法...
分类:
其他好文 时间:
2015-11-09 20:39:59
阅读次数:
312
1.想要了解上海市小学生的身高,需要抽取500个样本,这项调查中的样本是?A.从中抽取的500名学生的身高B.上海市全部小学生的身高C.从中抽取的500名小学生D.上海市全部小学生2.以下对k-means聚类算法解释正确的是A.能自动识别类的个数,随即挑选初始点为中心点计算B.能自动识别类的..
分类:
其他好文 时间:
2015-11-09 19:12:26
阅读次数:
222
鉴于基于划分的文本聚类方法只能识别球形的聚类,因此本文对基于密度的文本聚类算法展开研究。DBSCAN是一种典型的基于密度的聚类方法,可以找出形状不规则的聚类,而且聚类时无需事先知道聚类的个数。
分类:
数据库 时间:
2015-11-09 18:46:18
阅读次数:
272
1.想要了解上海市小学生的身高,需要抽取500个样本,这项调查中的样本是? A.从中抽取的500名学生的身高 B.上海市全部小学生的身高 C.从中抽取的500名小学生 D.上海市全部小学生 2.以下对k-means聚类算法解释正确的是 A.能自动识别类的个数,随即挑选初始点为中心点计算 B.能自动....
分类:
其他好文 时间:
2015-11-09 18:39:16
阅读次数:
602
Part3文本聚类分类和聚类算法,都是数据挖掘中最常接触到的算法,分类聚类算法分别有很多种。可以看下下面两篇文章对常见的分类聚类算法的简介:分类算法:http://blog.csdn.net/chl033/article/details/5204220聚类算法:http://blog.chinaun...
分类:
编程语言 时间:
2015-11-09 13:56:14
阅读次数:
1365