relevance score算法,简单来说,就是计算出,一个索引中的文本,与搜索文本,他们之间的关联匹配程度 Elasticsearch使用的是 term frequency/inverse document frequency算法,简称为TF/IDF算法 Term frequency(TF):搜 ...
分类:
其他好文 时间:
2017-06-26 10:26:31
阅读次数:
184
接上一篇:http://www.cnblogs.com/denny402/p/7027954.html 7. 夹角余弦(Cosine) 也可以叫余弦相似度。 几何中夹角余弦可用来衡量两个向量方向的差异,机器学习中借用这一概念来衡量样本向量之间的差异。 (1)在二维空间中向量A(x1,y1)与向量B( ...
分类:
编程语言 时间:
2017-06-16 19:21:15
阅读次数:
164
Sphinx是由俄罗斯人Andrew Aksyonoff开发的一个全文检索引擎。意图为其他应用提供高速、低空间占用、高结果 相关度的全文搜索功能。Sphinx可以非常容易的与SQL数据库和脚本语言集成。当前系统内置MySQL和PostgreSQL 数据库数据源的支持,也支持从标准输入读取特定格式 的 ...
分类:
数据库 时间:
2017-06-13 23:54:57
阅读次数:
423
欧几里德距离 > 计算两组数据之间的距离,偏好越类似的人其距离就越短。。。为了处理方便。须要一个函数来对偏好越相近的情况给出越大的值(0~1之间)。 皮尔逊相关系数相关度评价 > 皮尔逊相关系数是推断两组叔叔与某一直线拟合程度的一种度量。其相应的公式比欧几里德距离评价的计算公式要复杂,可是在数据不是 ...
分类:
其他好文 时间:
2017-06-12 16:15:26
阅读次数:
177
多值字段(Multivalue Fields) 在多值字段上使用短语匹配会产生古怪的行为: PUT /my_index/groups/1 { "names": [ "John Abraham", "Lincoln Smith"] } 运行一个针对Abraham Lincoln的短语查询: GET / ...
分类:
其他好文 时间:
2017-05-20 10:08:09
阅读次数:
169
本章翻译自Elasticsearch官方指南的Looking at Time一章。 时间数据处理(Looking at Time) 如果在ES中,搜索是最常见的行为,那么创建日期柱状图(Date Histogram)肯定是第二常见的。为什么要使用日期柱状图呢? 想象在你的数据中有一个时间戳。数据是什 ...
分类:
其他好文 时间:
2017-05-19 00:51:45
阅读次数:
220
本章翻译自Elasticsearch官方指南的Controlling Relevance一章。 忽略TF/IDF 有时我们不需要TF/IDF。我们想知道的只是一个特定的单词是否出现在了字段中。比如我们正在搜索度假酒店,希望它拥有的卖点越多越好: WiFi 花园(Garden) 泳池(Pool) 而关 ...
分类:
其他好文 时间:
2017-05-19 00:49:58
阅读次数:
317
本章翻译自Elasticsearch官方指南的Controlling Relevance一章。 Lucene中的Practical Scoring Function 对于多词条查询(Multiterm Queries),Lucene使用的是布尔模型(Boolean Model),TF/IDF以及向量 ...
分类:
Web程序 时间:
2017-05-18 23:57:21
阅读次数:
315
本章翻译自Elasticsearch官方指南的Controlling Relevance一章。 控制相关度(Controlling Relevance) 对于仅处理结构化数据(比如日期,数值和字符枚举值)的数据库,它们只需要检查一份文档(在关系数据库中是一行)是否匹配查询即可。 尽管布尔类型的YES ...
分类:
其他好文 时间:
2017-05-18 23:55:51
阅读次数:
307
什么是网页爬虫,也叫网页蜘蛛。把互联网比作一个蜘蛛网,有好多节点,这个蜘蛛在网上爬来爬去,对对网页中的每个关键字进行建立索引,然后建立索引数据库,经过复杂的排序算法后,这些算法的结果将按照相关度的高低展现出来。 一、要想写爬虫,首先就要解决第一个问题,编程语言怎么访问互联网(python)? pyt ...
分类:
编程语言 时间:
2017-05-09 11:34:45
阅读次数:
226