标签:html标签 white sim 同义词 htm bsp 索引 standard 学习
一、倒排索引
A、建立前会进行normalization,也就是说对各个单词进行相应的处理(时态、大小写、同义词等),以提升后面搜索时候搜到相关文档的概率
二、分词器
A、character filter:分词之前进行预处理,过滤html标签,&转换成and等等
B、tokenizer:分词
C、token filter: normalization的一些操作
三、内置分词器(默认:standard)
A、standard analyzer
B、simple analyzer
C、whitespace analyzer
D、language analyzer
三、query string会用跟建立倒排索引一样的分词器去分词
标签:html标签 white sim 同义词 htm bsp 索引 standard 学习
原文地址:https://www.cnblogs.com/DjanFey/p/12121010.html