1 内容简介 首先通过爬虫采集链家网上所有南京二手房的房源数据,并对采集到的数据进行清洗;然后,对清洗后的数据进行可视化分析,探索隐藏在大量数据背后的规律;最后,采用一个聚类算法对所有二手房数据进行聚类分析,并根据聚类分析的结果,将这些房源大致分类,以对所有数据的概括总结。通过上述分析,我们可以了解 ...
分类:
编程语言 时间:
2018-08-08 00:28:26
阅读次数:
318
前言:以前只是调用过谱聚类算法,我也不懂为什么各家公司都问我一做文字检测的这个算法具体咋整的,没整明白还给我挂了哇擦嘞?讯飞和百度都以这个理由刷本宝,今天一怒把它给整吧清楚了,下次谁再问来!说不晕你算我输! 一、解释: 二、推导: 三、步骤: 四、优缺点: 五、链接: https://www.cnb ...
分类:
编程语言 时间:
2018-08-06 21:00:52
阅读次数:
325
Boson:是一款语义挖掘工具,可以对文本内容进行情感分析,能够将文本按照预设的分类体系进行自动区分实现信息分类,能够从文本中发现有意义的信息从而进行实体识别,还能够自动对给定的文本进行话题聚类,将语义上相似的内容归为一类,有助于海量文档、资讯的整理,和话题级别的统计分析。 BosonNLP:中文语 ...
分类:
其他好文 时间:
2018-08-04 20:25:00
阅读次数:
141
数据结构:链表、栈、队列:链表插入元素。Huffman树:树的构建。二叉树、平衡二叉树:树的遍历(前序中序后序),查找树中两个元素和为某个值的叶子节点。堆:大(小)顶堆构建,topN的数。排序:冒泡排序,插入排序。查找:二分查找,快速查找。高级数据结构:动态规划、分治算法机器学习: 监督学习算法: ...
分类:
其他好文 时间:
2018-08-02 19:17:48
阅读次数:
132
Bisecting KMeans Bisecting KMeans算法的主要思想是:首先将所有点作为一个簇,然后将该簇一分为二,之后选择能最大限度降低聚类代价函数(也就是误差平方和)的簇划分为两个簇,以此进行下去,直到簇的数目等于用户给定的数目k为止。 Gaussian Mixture Model ...
分类:
编程语言 时间:
2018-08-02 02:03:02
阅读次数:
169
微软的SQL SERVER提供了两种索引:聚集索引(clustered index,也称聚类索引、簇集索引)和非聚集索引(nonclustered index,也称非聚类索引、非簇集索引)…… (一)深入浅出理解索引结构 实际上,您可以把索引理解为一种特殊的目录。微软的SQL SERVER提供了两种 ...
分类:
数据库 时间:
2018-07-29 22:26:50
阅读次数:
171
数据挖掘所挖掘的结果是面向全部的数据,而机器学习则是预测测试样本的检测结果。 1.挖掘知识类型:1.特征化2.数据区分3.关联分析4.分类5.聚类、孤立点分析、演变分析 2.互信息值:是信息论中一个有用的信息度量。它可以看出是一个信息量里包含另一个随机变量的信息量。 互信息值越大,就代表2个属性关联 ...
分类:
其他好文 时间:
2018-07-26 18:36:23
阅读次数:
546
机器学习过程主要包括:数据的特征提取、数据预处理、训练模型、测试模型、模型评估改进等几部分 传统机器学习算法主要包括以下五类: 回归:建立一个回归方程来预测目标值,用于连续型分布预测 分类:给定大量带标签的数据,计算出未知标签样本的标签取值 聚类:将不带标签的数据根据距离聚集成不同的簇,每一簇数据有 ...
分类:
编程语言 时间:
2018-07-25 20:08:14
阅读次数:
237
一种用于度量聚类效果的指标使SSE(误差平方和),SSE值越小表示数据点越接近于他们的质心,聚类效果也越好。因为对误差取了平方,因此更加重视那些远离中心的点。一种肯定可以降低SSE值的方法是增加簇的个数,但这违背了聚类的目标。聚类的目标是在保持簇数目不变的情况下提高簇的质量 二分 K-均值算法 为克 ...
分类:
其他好文 时间:
2018-07-23 20:50:02
阅读次数:
160
一、make_blobs简介 scikit中的make_blobs方法常被用来生成聚类算法的测试数据,直观地说,make_blobs会根据用户指定的特征数量、中心点数量、范围等来生成几类数据,这些数据可用于测试聚类算法的效果。 二、函数原型 其中: n_samples是待生成的样本的总数。 n_fe ...
分类:
其他好文 时间:
2018-07-22 00:19:10
阅读次数:
186