关键词抽取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来。这个可以追溯到文献检索初期,当时还不支持全文搜索的时候,关键词就可以作为搜索这篇论文的词语。因此,目前依然可以在论文中看到关键词这一项。 除了这些,关键词还可以在文本聚类、分类、自动摘要等领域中有着重要的作用。比如在聚类时将关键词相似的 ...
分类:
编程语言 时间:
2017-07-02 18:30:01
阅读次数:
457
第十章63、什么是聚类分析 一个把数据对象划分成子集的过程。每一个子集市一个簇,使得簇中的对象彼此相似,但与其他簇中的对象不相似。由聚类分析产生的簇的集合称做一个聚类。64、数据挖掘对聚类的要求 1、可伸缩性 2、处理不同属性类型的能力 3、发现任意形状的簇 4、对于确定输入参数的领域知识的要求 5 ...
分类:
其他好文 时间:
2017-06-29 23:54:36
阅读次数:
245
数据挖掘主要有以下知识点 1.统计分析 主要包括回归/逻辑回归分析,主成分分析/因子分析 等 其中主成分/因子分析:对多维变量进行降维,以选择合适建模变量的方法 回归逻辑/回归分析:基于一组相关数据建立自变量与因变量的确定关系,并以此研究统计意义与随机变量的不确定性关系的方法 2.聚类分析 根据对象 ...
分类:
其他好文 时间:
2017-06-28 21:40:28
阅读次数:
129
一、层次聚类(系统聚类) 原理:合并法(分解法方向相反算法相同,SPSS只提供合并法) 1、将每一个样本作为一类,如果是k个样本就分k成类 2、按照某种方法度量样本之间的距离,并将距离最近的两个样本合并 为一个类别,从而形成了k-1个类别 3、再计算出新产生的类别与其他各类别之间的距离,并将距离最近 ...
分类:
其他好文 时间:
2017-06-28 17:04:36
阅读次数:
237
实验课安排 地点: 科技楼423 时间: 计科3-4班 15周周一上午、周二下午 计科1-2班 15周周一下午、周二晚上(晚上时间从18:30-21:10) 请各班学委在实验课前飞信通知大家. 实验内容 (1)八皇后及N皇后问题 八皇后问题,是一个古老而著名的问题,是回溯算法的典型案例。该问题是国际 ...
分类:
编程语言 时间:
2017-06-27 22:18:13
阅读次数:
130
?? 图像切割—基于图的图像切割(Graph-Based Image Segmentation) Reference: Efficient Graph-Based Image Segmentation,IJCV 2004,MIT Code 图像切割—基于图的图像切割(OpenCV源代码注解) 最后一 ...
分类:
其他好文 时间:
2017-06-21 09:41:45
阅读次数:
163
一、算法思想: DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一个比较有代表性的基于密度的聚类算法。与划分和层次聚类方法不同,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的 ...
分类:
数据库 时间:
2017-06-20 11:36:44
阅读次数:
236
EM的算法流程: 初始化分布参数θ; 重复以下步骤直到收敛: E步骤:根据参数初始值或上一次迭代的模型参数来计算出隐性变量的后验概率,其实就是隐性变量的期望。作为隐藏变量的现估计值: M步骤:将似然函数最大化以获得新的参数值: 这个不断的迭代,就可以得到使似然函数L(θ)最大化的参数θ了。那就得回答 ...
分类:
编程语言 时间:
2017-06-19 23:23:23
阅读次数:
320
初始目的 将样本分成K个类,其实说白了就是求一个样本例的隐含类别y,然后利用隐含类别将x归类。由于我们事先不知道类别y,那么我们首先可以对每个样例假定一个y吧,但是怎么知道假定的对不对呢?怎样评价假定的好不好呢? 我们使用样本的极大似然估计来度量,这里就是x和y的联合分布P(x,y)了。如果找到的y ...
分类:
编程语言 时间:
2017-06-19 22:15:35
阅读次数:
239