码迷,mamicode.com
首页 >  
搜索关键字:tf-idf    ( 251个结果
Bag of Features (BOF)图像检索算法
1.首先,我们用surf算法生成图像库中每幅图的特征点及描述符。 2.再用k-means算法对图像库中的特征点进行训练,生成类心。 3.生成每幅图像的BOF,具体方法为:判断图像的每个特征点与哪个类心最近,最近则放入该类心,最后将生成一列频数表,即初步的无权BOF。 4.通过tf-idf对频数表加上权重,生成最终的bof。(因为每个类心对图像的影响不同。比如超市里条形码中的第一位总是6,它对辨...
分类:编程语言   时间:2016-03-26 07:30:19    阅读次数:273
TF-IDF与余弦相似性的应用(一):自动提取关键词
这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。 有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到? 这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一...
分类:其他好文   时间:2016-03-10 12:34:47    阅读次数:304
TF-IDF与余弦相似性的应用(二):找出相似文章
上一次,我用TF-IDF算法自动提取关键词。 今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主新闻下方,还提供多条相似的新闻。 为了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。下面,...
分类:其他好文   时间:2016-03-10 12:24:36    阅读次数:175
利用sklearn计算文本相似性
利用sklearn计算文本相似性,并将文本之间的相似度矩阵保存到文件当中。这里提取文本TF-IDF特征值进行文本的相似性计算。 #!/usr/bin/python # -*- coding: utf-8 -*- import numpy import os import sys from sklea
分类:其他好文   时间:2016-03-08 00:01:24    阅读次数:2085
利用Python进行文章特征提取(二)
本篇blog是利用Python进行文章特征提取的续篇,主要介绍构建带TF-IDF权重的文章特征向量。 In [1]: # 带TF-IDF权重的扩展词库 # 在第一篇文档里 主要是利用词库模型简单判断单词是否在文档中出现。然而与单词的顺序、频率无关。然后词的频率对文档更有意义。因此本文将词频加入特征向
分类:编程语言   时间:2016-02-27 19:22:40    阅读次数:252
Mahout聚类和kafaka相关知识
1.说几种距离测度Mahout:欧式距离测度;平方欧式距离测度;曼哈顿距离测度;余弦距离测度;加权距离测度2.K-means算法参数:3.TF-IDF加权公式:4.聚类是什么?聚类是一种无监督的机器学习任务,可以自动将数据划分成类cluster。并不需要提前告知所划分的组是什么样的,因为我们可能都不...
分类:其他好文   时间:2016-01-18 22:20:54    阅读次数:339
[转] TF-IDF与余弦相似性的应用(一):自动提取关键词
原文链接:http://www.ruanyifeng.com/blog/2013/03/tf-idf.html这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请...
分类:其他好文   时间:2016-01-13 19:24:23    阅读次数:156
tf–idf算法解释及其python代码实现(下)
tf–idf算法python代码实现这是我写的一个tf-idf的核心部分的代码,没有完整实现,当然剩下的事情就非常简单了,我们知道tfidf=tf*idf,所以可以分别计算tf和idf值在相乘,首先我们创建一个简单的语料库,作为例子,只有四句话,每句表示一个文档copus=['我正在学习计算机','...
分类:编程语言   时间:2015-12-23 22:58:21    阅读次数:220
tf–idf算法解释及其python代码实现(上)
tf–idf算法解释tf–idf, 是term frequency–inverse document frequency的缩写,它通常用来衡量一个词对在一个语料库中对它所在的文档有多重要,常用在信息检索和文本挖掘中。一个很自然的想法是在一篇文档中词频越高的词对这篇文档越重要,但同时如果这个词又在非常...
分类:编程语言   时间:2015-12-23 21:12:25    阅读次数:1036
特征权重量化 TF-IDF 用于信息检索和数据挖掘的加权技术
TFIDF实际上是:TF * IDF,TF词频(Term Frequency),IDF逆向文件频率(Inverse Document Frequency)。TF表示词条在文档d中出现的频率。IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。T...
分类:其他好文   时间:2015-12-05 21:02:43    阅读次数:219
251条   上一页 1 ... 17 18 19 20 21 ... 26 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!