VSM思想 把文档表示成R|v|上的向量,从而可以计算文档与文档之间的相似度(根据欧氏距离或者余弦夹角) 那么,如何将文档将文档表示为向量呢? 首先,需要选取基向量/dimensions,基向量须是线性独立的或者正交的向量。 在IR系统中,有两种方式决定基向量: 1.核心概念的思想(core...
分类:
其他好文 时间:
2015-10-18 15:33:57
阅读次数:
158
转自: http://lutaf.com/210.htm Lucene在进行关键词查询的时候,默认用TF-IDF算法来计算关键词和文档的相关性,用这个数据排序 TF:词频,IDF:逆向文档频率,TF-IDF是一种统计方法,或者被称为向量空间模型,名字听起来很复杂,但是它其实只包含了两个简单规则 某个...
分类:
Web程序 时间:
2015-08-30 19:09:12
阅读次数:
166
一、TF-IDF、余弦相似度、向量空间模型(1)使用TF-IDF算法,找出两篇文章的关键词;(2)每篇文章各取出若干个关键词(比如20个),合并成一个集合,计算每篇文章对于这个集合中的词的词频(为了避免文章长度的差异,可以使用相对词频);(3)生成两篇文章各自的词频向量;(4)计算两个向量的余弦相似...
分类:
其他好文 时间:
2015-07-29 19:08:52
阅读次数:
120
最近想学习下Lucene ,以前运行的Demo就感觉很神奇,什么原理呢,尤其是查找相似度最高的、最优的结果。索性就直接跳到这个问题看,很多资料都提到了VSM(Vector Space Model)即向量空间模型,根据这个模型可以对搜索的结果进行最优化的筛选,目前还不知道如何证明,只能凭借想象应该是这...
分类:
其他好文 时间:
2015-06-15 20:09:03
阅读次数:
329
Lucene在进行关键词查询的时候,默认用TF-IDF算法来计算关键词和文档的相关性,用这个数据排序TF:词频,IDF:逆向文档频率,TF-IDF是一种统计方法,或者被称为向量空间模型,名字听起来很复杂,但是它其实只包含了两个简单规则某个词或短语在一篇文章中出现的次数越多,越相关整个文档集合中包含某...
分类:
编程语言 时间:
2015-06-15 18:03:03
阅读次数:
199
问题:如果IR在该文件中,我们已经建立-词项矩阵。有两个词条目“learn”和“study”。在传统的向量空间模型,两个独立的感觉。从语义的角度来讲,两者是相似的。并且两者出现频率也类似。是不是能够合成为一个特征呢? 《模型选择和规则化》谈到的特征选择的问题,就是要剔除的特征主要是和类标签无关的特征...
分类:
其他好文 时间:
2015-06-11 19:12:11
阅读次数:
123
xml中文档(query)的结构:
CIRB010TopicZH006
科索沃難民潮
查詢科索沃戰爭中的難民潮情況,以及國際間對其採取的援助。
相關文件內容包括科省難民湧入的地點、人數,受安置的狀況,難民潮引發的問題,參與救援之國家與國際組織,其援助策略與行動內容之報導。
科省、柯省、科索沃、柯索伏、難民、難民潮、難民營、援助、收容、救援、醫療、人道、避難、馬其頓、土耳其、外交部、國...
分类:
其他好文 时间:
2015-06-04 21:07:22
阅读次数:
153
搜索引擎依托于互联网,它是互联网网站和应用的入口。1,搜索引擎技术的发展史 第一代:文本检索的一代 采用经典的信息检索模型,比如布尔模型、向量空间模型或概率模型,来计算用户查询关键词和网页文本内容的相关程度。并没有利用到网页之间的链接关系。 第二代:链接分析的一代 充分利用网页之间的链接...
分类:
其他好文 时间:
2015-05-25 23:55:12
阅读次数:
181
网络搜索引擎简介一、传统信息检索回顾传统信息检索文档集的搜索有三种基本的计算机辅助技术:布尔模型、向量空间模型和概率模型。这些模型发展与20世纪60年代,直到2000年6月,便存在3500种不同的搜索引擎技术,并且大多数搜索引擎仍然依赖于以上三种基本模型的一种或数种。下图摘自《搜索引擎-原理技术与系统》,显示了搜索的主干流程。
1.1 布尔搜索引擎信息检索中最早而且最简单的检索方法之一。布尔逻辑检...
分类:
其他好文 时间:
2015-04-21 14:43:14
阅读次数:
172
Lucene在进行关键词查询的时候,默认用TF-IDF算法来计算关键词和文档的相关性,用这个数据排序TF:词频,IDF:逆向文档频率,TF-IDF是一种统计方法,或者被称为向量空间模型,名字听起来很复杂,但是它其实只包含了两个简单规则某个词或短语在一篇文章中出现的次数越多,越相关整个文档集合中包含某...
分类:
Web程序 时间:
2015-04-08 17:58:42
阅读次数:
134