(一)深入浅出理解索引结构 实际上,您可以把索引理解为一种特殊的目录。微软的SQL SERVER提供了两种索引:聚集索引(clustered index,也称聚类索引、簇集索引)和非聚集索引(nonclustered index,也称非聚类索引、非簇集索引)。下面,我们举例来说明一下聚集索引和非聚集 ...
分类:
数据库 时间:
2018-05-18 11:27:50
阅读次数:
168
题目: 为了深入地了解我国人口的文化程度,利用1990年全国普查数据对全国30个省、直辖市、自治区进行聚类分析,分别选用了三个指标:(1)大学以上文化程度的人口占全部人口的比例(DXBZ);(2)初中文化程度的人口占全部人口的比例(CZBZ);(3)文盲半文盲人口占全部人口的比例(WMBZ)分别用来 ...
分类:
其他好文 时间:
2018-05-18 00:27:23
阅读次数:
208
在数据分析挖掘过程中常用的聚类算法有1.K-Means聚类,2.K-中心点,3.系统聚类. 1.K-均值聚类在最小误差基础上将数据划分为预定的类数K(采用距离作为相似性的评价指标).每次都要遍历数据,所以大数据速度慢 2.k-中心点,不采用K-means中的平均值作为簇中心点,而是选中距离平均值最近 ...
分类:
编程语言 时间:
2018-05-13 16:07:57
阅读次数:
556
恢复内容开始 百度风云榜一共有50个关键词,我们先任选其中一个打开看看。 从零基础到项目实战视频群:125240963 一、实验目的 我们的目的是通过百度风云榜,获取相关关键词的新闻内容。(后面会有一篇文章会讲到用咱们今天获取的数据做文本聚类) 运行,结果keyword全部为乱码,没有一点中文的痕迹 ...
分类:
其他好文 时间:
2018-05-12 17:29:27
阅读次数:
219
全文检索概述 数据形式 结构化数据 有固定格式或者固定长度的数据 如通常关系型数据库文件 检索方式:结构化查询语句SQL语句 非结构化数据 没有固定结构的数据,各种文档、图片、视频/音频等都属于非结构化数据。 查询方式:遍历, 全文检索 半结构化数据 半结构化数据是结构化数据的一种形式,它并不符合关 ...
分类:
Web程序 时间:
2018-05-11 00:09:25
阅读次数:
246
一、基于密度的聚类算法的概述 最近在Science上的一篇基于密度的聚类算法《Clustering by fast search and find of density peaks》引起了大家的关注(在我的博文“论文中的机器学习算法——基于密度峰值的聚类算法”中也进行了中文的描述)。于是我就想了解下 ...
分类:
数据库 时间:
2018-05-10 17:28:43
阅读次数:
256
大数据时代,用数据做出理性分析显然更为有力。做数据分析前,能够找到合适的的数据源是一件非常重要的事情,获取数据的方式有很多种,不必局限。下面将从公开的数据集、爬虫、数据采集工具、付费API等等介绍。给大家推荐一些能够用得上的数据获取方式。一、公开数据库1.常用数据公开网站UCI:经典的机器学习、数据挖掘数据集,包含分类、聚类、回归等问题下的多个数据集。很经典也比较古老,但依然活跃在科研学者的视线中
分类:
其他好文 时间:
2018-05-08 22:14:49
阅读次数:
305
首先附上官网说明 [http://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html#examples-using-sklearn-cluster-kmeans] 再附上一篇翻译文档 http://blog.cs ...
分类:
编程语言 时间:
2018-05-08 14:45:38
阅读次数:
282
之前一直用R,现在开始学python之后就来尝试用Python来实现Kmeans。 之前用R来实现kmeans的博客:笔记︱多种常见聚类模型以及分群质量评估(聚类注意事项、使用技巧) 聚类分析在客户细分中极为重要。有三类比较常见的聚类模型,K-mean聚类、层次(系统)聚类、最大期望EM算法。在聚类 ...
分类:
编程语言 时间:
2018-05-08 14:36:58
阅读次数:
1835