官方文档http://lucene.apache.org/core/4_9_0/core/org/apache/lucene/search/similarities/TFIDFSimilarity.htmlterm:不是单纯的key。是field-key,指定域下面的key影响打分的因素coord:...
分类:
Web程序 时间:
2014-10-19 14:14:04
阅读次数:
254
PCA understanding 我们希望获取玩具的位置,事实上我们只需要知道玩具在x轴的位置就可以了(但现实不知道)。我们利用三个坐标轴,获取了2*3维度的数据,现实中我们如何通过分析六维度数据来获取玩具的位置? 可以从上图看出camera A,B,C的x,y轴相关度都很明显,数据有冗余。 l ...
分类:
其他好文 时间:
2014-09-23 15:14:34
阅读次数:
336
搜索的质量评估通常是看几个指标:相关度 -- 请受过训练的人来评估每个引擎的前几个结果是否相关,评估时不参考结果的来源、引擎的品牌等。索引规模 -- 每个引擎知道自己的规模,也就是有多少网页(除去重复的),但是不知道对方的规模,可是可以根据两方搜索结果的爬取,得知有多少网页是我有他无,或他有我无,从...
分类:
其他好文 时间:
2014-09-10 00:23:29
阅读次数:
269
在某些场景需要做自定义排序(非单值字段排序、非文本相关度排序),除了自己重写collect、weight,可以借助CustomScoreQuery。场景:根据tag字段中标签的数量进行排序(tag字段中,标签的数量越多得分越高)public class CustomScoreTest { pu...
分类:
其他好文 时间:
2014-09-03 22:25:17
阅读次数:
386
前言: 上周五快要下班的时候,突然收到通知客户希望了解一下部署HTTPS的流程,这种事情谁听了都会有几分诧异的。因为这件事虽然和工作有一定的相关度,但平时不会走这个方向,实际上也较少接触。此外,客户手下应该不缺人,做运维和开发的肯定比我更懂这个,但情况却和我想的不一样。正文: 客户有需求,就应...
分类:
其他好文 时间:
2014-07-30 00:23:02
阅读次数:
414
什么是Sphinx
Sphinx 是一个全文检索引擎,一般而言,Sphinx是一个独立的搜索引擎,意图为其他应用提供高速、低空间占用、高结果相关度的全文搜索功能。Sphinx可以非常容易的与SQL数据库和脚本语言集成。当前系统内置MySQL和PostgreSQL 数据库数据源的支持,也支持从标准输入读取特定格式的XML数据。通过修改源代码,用户可以自行增加新的数据源(例如:其他类型的DBMS的原...
分类:
数据库 时间:
2014-07-09 11:22:17
阅读次数:
310
一、Sphinx简介Sphinx是由俄罗斯人Andrew Aksyonoff开发的一个全文检索引擎。意图为其他应用提供高速、低空间占用、高结果相关度的全文搜索功能。Sphinx可以非常容易的与SQL数据库和脚本语言集成。当前系统内置MySQL和PostgreSQL数据库数据源的支持,也支持从标准输入...
分类:
其他好文 时间:
2014-07-01 23:57:14
阅读次数:
372
3,排序 默认是相关度排序。 也可以按指定的字段排序。 1 package cn.itcast.g_sort; 2 3 import java.util.ArrayList; 4 import java.util.List; 5 6 import org.apache.lucene....
分类:
其他好文 时间:
2014-06-20 15:39:27
阅读次数:
203
有人说中国股票类似传销,明知道不值这个价值,但是大家都认同这个价格,并且未来能以更高的价格转手,那么这个价格接受也不是不可以,虽然一文不值,但是在转手之后却能升值。今天研究股票月线图,发现中国股票市场也是有周期性的,和国家5年计划相关度很高。每个5年之内会形成主要两个高点(5年之间的某一个时期和5年...
分类:
其他好文 时间:
2014-06-03 12:34:20
阅读次数:
187