本章翻译自Elasticsearch官方指南的Controlling
Relevance一章。
Lucene中的Practical Scoring Function
对于多词条查询(Multiterm Queries),Lucene使用的是布尔模型(Boolean
Model),TF/IDF以及向量空间模型(Vector
Space Model)来将它们结合...
分类:
Web程序 时间:
2014-12-24 11:53:03
阅读次数:
273
布尔模型和向量空间模型可以给出文档内容和查询是否相关的非确定性的推测,而概率论的方法可以给这种推测提供一个基本的理论。 概率论基础知识 事件A发生的概率为P(A),它满足0≤P(A)≤1,对于两个事件A、B,它们的联合事件发生的可能性通过联合概率P(A,B)描述,条件概率P(A|B)表示在事件B.....
分类:
其他好文 时间:
2014-12-01 23:56:46
阅读次数:
329
本人引自http://blog.csdn.net/xiaoyu714543065/article/details/7832132问题:假设在IR中我们建立的文档-词项矩阵中,有两个词项为“learn”和“study”,在传统的向量空间模型中,认为两者独立。然而从语义的角度来讲,两者是相似的,而且两者...
分类:
其他好文 时间:
2014-11-26 20:39:48
阅读次数:
310
本内容 来自微信公众平台:机器学习之窗 以及 http://www.cnblogs.com/kaituorensheng/p/3579347.html在模式识别领域中,最近邻居法(KNN算法,又译K-近邻算法)是将在特征空间中最接近的训练样本进行分类的方法。最近邻居法采用向量空间模型来分类,概念.....
分类:
编程语言 时间:
2014-10-29 18:58:24
阅读次数:
387
TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。权重计算方法经常会和余弦相似度(cosine similarity)一同使用于向量空间模型中,用以判断两份文件之间的相似性。应用到余弦定理到新闻分类的算法模拟程序...
分类:
Web程序 时间:
2014-09-20 01:12:26
阅读次数:
370
向量空间模型 (或者 词组向量模型) 作为向量的标识符(比如索引),是一个用来表示文本文件的代数模型。它应用于信息过滤、信息检索、索引以及关联规则。SMART是第一个使用这个模型的信息检索系统。
文档和查询都用向量来表示。
每一维都相当于是一个独立的词组。如果这个术语出现在了文档中,那它在向量中的值就非零。已经有很多不同的方法来计算这些值,这些值...
分类:
其他好文 时间:
2014-08-06 19:24:42
阅读次数:
632
除了简单地给出查询词列表外,用户通常还会给出权重,该权重表示一个词项比另外一个词项更重要。这是通过在初始查询中用户人工指定词项权重来实现的。另外一种方法是自动指定权重--通过基于词项在整个文档集中出现的频率。基本思想是:不频繁出现的词的权重应该比频繁出现的词的权重更高。文献[Salton,1969;Salton,1970b]分别采用权重自动赋值与人工赋值方法计算相似度,然后进行查询比较。实验结果表...
分类:
其他好文 时间:
2014-08-04 14:36:17
阅读次数:
337
理论参考文献:但此文没有代码实现,这里自己实现一下,让理解更为深刻
问题:假设在IR中我们建立的文档-词项矩阵中,有两个词项为“learn”和“study”,在传统的向量空间模型中,认为两者独立。然而从语义的角度来讲,两者是相似的,而且两者出现频率也类似,是不是可以合成为一个特征呢?
《模型选择和规则化》谈到的特征选择的问题,就是要剔除的特征主要是和类标签无关的特征。比如...
首先,SimHash算法主要是用于文本去重的。文本去重的第一步就是判断文本的相似度,如果两个文本的相似度很
高,那么我们可以认为它们是相同的文本。
对于文本相似度的计算,传统的方法是使用向量空间模型,即Vector Space Model,即VSM,VSM计算文本相似度
的方法是这样的:先对文本进行分词,提取出特征词,然后建立文本向量,把相似度的计算转化成某种特征向量距离
的计算,比...
分类:
其他好文 时间:
2014-06-02 05:02:30
阅读次数:
500