ElasticStack学习（十）：深入ElasticSearch搜索之QueryFiltering、多/单字符串的多字段查询

时间：2019-07-21 13:13:14 阅读：101 评论：0 收藏：0 [点我收藏+]

标签：should 权重 tor 结果利用复合之间 field alt

一、复合查询

　　1、在ElasticSearch中，有Query和Filter两种不同的Context。Query Context进行了相关性算分，Filter Context不需要进行算分，同时可以利用Cache，获取更好的性能。

　　2、bool Query：一个布尔查询，是一个或者多个查询子句的组合，总共有四种类型的子句，其中2种影响算分，2种不影响算分。

　　　布尔查询也涉及相关性算分，因为匹配的子句越多，相关性算分越高。对于布尔查询中的每个查询子句计算得出的算分会被合并到总的相关性算分中。

　　　子查询可以任意顺序出现，同时可以嵌套多个子查询。

　　　技术图片

　　　布尔查询的算分过程：

　　　　1）查询Should语句中的查询；

　　　　2）对查询结果的评分进行求和；

　　　　3）乘以匹配语句的总数；

　　　　4）除以所有语句的总数；

　　3、复合查询应用

　　　　1）must_not与filter

　　技术图片

　　　　2）should

　　技术图片

　　　　3）bool嵌套

　　技术图片

　　　　4）对于should下同一层级的竞争字段，具有相同的权重，若通过嵌套bool查询，可以改变对算分的影响。

　　技术图片

　　　　5）控制字段boost权重，来影响查询返回的结果。

　　技术图片

　　　　6）要求满足相关度高的文档在前或者排除不相关条件的文档，Boosting Query提升了Precision，同时也提升了Recall。

　　技术图片

二、单字符串多字段查询

　　1）背景示例展示：

　　技术图片

　　从示例中可以看出，对title和body两个字段进行“brown fox”的匹配，由于第二条只有在body中有brown fox，而第一条在title，body中均有匹配。所以，第一条的综合算分比第二条的算分要高。

　　2）Disjunction Max Query

　　对于上例中title与body相互竞争，在查询brown fox时，更应该将第二条信息搜索出来。因此，对于搜索策略不应该将分数简单相加，而是应该找到最佳匹配的字段评分。

　　Disjunction Max Query可以按最匹配字段评分进行返回。

　　技术图片

　　从上图可以看出，通过Disjunction Max Query进行查询，获取了最合适的匹配结果。

　　3）Tie Breaker

　　技术图片

　　通过对quice pets进行查询，会发现两条文档的评分是一样的，这是因为quick pets做为查询Term存在，在title或body中存在，两者的评分是一样的。为了获取最佳匹配，可以使用Tie Breaker。如下图所示：

　　技术图片

　　可以看出，文档2排在了文档1的前面，原因是文档2的title和body，分别存有quick或pets，而文档1中只有title存在有一个quick。因此文档2的评分比文档1的高。

　　Tie Breaker的作用：Tie Breaker是一个介于0-1之间的浮点数，1代表使用最佳匹配；0代表所有语句同等重要。

　　　　获得最佳匹配语句的评分；

　　　　将其他匹配语句的评分与Tie Breaker相乘；

　　　　对以上评分求和并规范化；

　　4）Multi Match

　　当输入单个字符串进行查询时，通常会遇到三种情形：

　　　　a）最佳字段

　　　　当字段之间相互竞争，又相互关联时，评分来自于最匹配字段，比如上述的title和body字段。如当搜索“brown fox”时，此时该词组比两个独立的单词更有意义，因此文档在相同字段中包含的词最多越好，评分也来自于最匹配字段。

　　　　技术图片

　　　　b）多数字段

　　　　为了对相关度进行微调，常用的技术就是将相同的数据索引到不同的字段，以匹配更多的文档。具体操作就是：

　　　　　　在主字段抽取词干，加入同义词、变音词、口语词，以匹配更多的字段；

　　　　　　相同的文本，加入子字段，以提供更加精确的匹配；

　　　　　　其他字段作为匹配文档提高相关度的信号，匹配字段最多越好；

　　　　技术图片

　　　　通过上图可以发现，文档2更符合quicking brown的搜索条件，但是它排在了第2位，原因就是两个字段采用了英文分词器，而查询的实际上是quick、brown两个Term，在两个文档中的title或body字段中，存在于这两个词。又因为第一个文档的相应字段总词数比第二个文档的相应字段总词数少，所以文档1评分会较高。

　　　　技术图片