码迷,mamicode.com
首页 >  
搜索关键字:相关反馈 向量空间模型    ( 53个结果
[Elasticsearch] 控制相关度 (二) - Lucene中的PSF(Practical Scoring Function)与查询期间提升
本章翻译自Elasticsearch官方指南的Controlling Relevance一章。 Lucene中的Practical Scoring Function 对于多词条查询(Multiterm Queries),Lucene使用的是布尔模型(Boolean Model),TF/IDF以及向量空间模型(Vector Space Model)来将它们结合...
分类:Web程序   时间:2014-12-24 11:53:03    阅读次数:273
概率检索模型回顾
布尔模型和向量空间模型可以给出文档内容和查询是否相关的非确定性的推测,而概率论的方法可以给这种推测提供一个基本的理论。 概率论基础知识 事件A发生的概率为P(A),它满足0≤P(A)≤1,对于两个事件A、B,它们的联合事件发生的可能性通过联合概率P(A,B)描述,条件概率P(A|B)表示在事件B.....
分类:其他好文   时间:2014-12-01 23:56:46    阅读次数:329
主成分分析
本人引自http://blog.csdn.net/xiaoyu714543065/article/details/7832132问题:假设在IR中我们建立的文档-词项矩阵中,有两个词项为“learn”和“study”,在传统的向量空间模型中,认为两者独立。然而从语义的角度来讲,两者是相似的,而且两者...
分类:其他好文   时间:2014-11-26 20:39:48    阅读次数:310
关于Rocchio算法和向量空间模型反馈
关于Rocchio算法和向量空间模型反馈...
分类:编程语言   时间:2014-11-15 11:27:59    阅读次数:272
机器学习具体算法系列之最近邻居法(KNN算法)
本内容 来自微信公众平台:机器学习之窗 以及 http://www.cnblogs.com/kaituorensheng/p/3579347.html在模式识别领域中,最近邻居法(KNN算法,又译K-近邻算法)是将在特征空间中最接近的训练样本进行分类的方法。最近邻居法采用向量空间模型来分类,概念.....
分类:编程语言   时间:2014-10-29 18:58:24    阅读次数:387
从网页相关性TF-IDF到余弦定理的新闻分类的程序实现
TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。权重计算方法经常会和余弦相似度(cosine similarity)一同使用于向量空间模型中,用以判断两份文件之间的相似性。应用到余弦定理到新闻分类的算法模拟程序...
分类:Web程序   时间:2014-09-20 01:12:26    阅读次数:370
向量空间模型(VSM)
向量空间模型 (或者 词组向量模型) 作为向量的标识符(比如索引),是一个用来表示文本文件的代数模型。它应用于信息过滤、信息检索、索引以及关联规则。SMART是第一个使用这个模型的信息检索系统。 文档和查询都用向量来表示。 每一维都相当于是一个独立的词组。如果这个术语出现在了文档中,那它在向量中的值就非零。已经有很多不同的方法来计算这些值,这些值...
分类:其他好文   时间:2014-08-06 19:24:42    阅读次数:632
改进后的向量空间模型(VSM)
除了简单地给出查询词列表外,用户通常还会给出权重,该权重表示一个词项比另外一个词项更重要。这是通过在初始查询中用户人工指定词项权重来实现的。另外一种方法是自动指定权重--通过基于词项在整个文档集中出现的频率。基本思想是:不频繁出现的词的权重应该比频繁出现的词的权重更高。文献[Salton,1969;Salton,1970b]分别采用权重自动赋值与人工赋值方法计算相似度,然后进行查询比较。实验结果表...
分类:其他好文   时间:2014-08-04 14:36:17    阅读次数:337
用opencv实现的PCA算法,非API调用
理论参考文献:但此文没有代码实现,这里自己实现一下,让理解更为深刻 问题:假设在IR中我们建立的文档-词项矩阵中,有两个词项为“learn”和“study”,在传统的向量空间模型中,认为两者独立。然而从语义的角度来讲,两者是相似的,而且两者出现频率也类似,是不是可以合成为一个特征呢?        《模型选择和规则化》谈到的特征选择的问题,就是要剔除的特征主要是和类标签无关的特征。比如...
分类:Windows程序   时间:2014-07-31 13:24:06    阅读次数:634
SimHash算法
首先,SimHash算法主要是用于文本去重的。文本去重的第一步就是判断文本的相似度,如果两个文本的相似度很 高,那么我们可以认为它们是相同的文本。   对于文本相似度的计算,传统的方法是使用向量空间模型,即Vector Space Model,即VSM,VSM计算文本相似度 的方法是这样的:先对文本进行分词,提取出特征词,然后建立文本向量,把相似度的计算转化成某种特征向量距离 的计算,比...
分类:其他好文   时间:2014-06-02 05:02:30    阅读次数:500
53条   上一页 1 ... 3 4 5 6 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!