Solr相关

时间：2015-10-15 00:58:11 阅读：114 评论：0 收藏：0 [点我收藏+]

标签：

1.Solr搭建

http://blog.csdn.net/zl3450341/article/details/12803189

2.Solr原理

http://www.importnew.com/12707.html

http://blog.csdn.net/babydavic/article/details/8678900

Solr全文搜索引擎，采用的是倒排索引：从关键字到文档的映射

技术分享

左边保存的是字符串序列
右边是字符串的文档（Document）编号链表，称为倒排表（Posting List）

字段串列表和文档编号链表两者构成了一个字典。现在想搜索”lucene”，那么索引直接告诉我们，包含有”lucene”的文档有：2，3，10，35，92，而无需在整个文档库中逐个查找。如果是想搜既包含”lucene”又包含”solr”的文档，那么与之对应的两个倒排表取交集即可获得：3、10、35、92。

一.索引创建

文档1 文档2

1.分词，分词结果为Token：

　　去停用词分词

2.语言处理，将Token转化为Term：

　　1）全转小写LowerCase

　　2) 单词缩减、转换cars-->car （去掉s,es,ing等） drove-->drive（字典中有映射）

3.得到的词(Term)传递给索引组件(Indexer)

　　1）创建Term到DocumentID的字典，分析每篇文档中单词出现的次数，并按字母排序，以相同单词合并该单词出现在哪些文章中，并统计其频率

用户查询

1.输入字符串str

2.对其分词，语言处理

3.按照TF/IDF排序

技术分享

Term Frequencey（tf），Term在此文档中出现的频率，tf越大表示越重要
Document Frequency（df），表示有多少文档中出现过这个Trem，df越大表示越不重要

Solr相关

标签：

原文地址：http://www.cnblogs.com/kangpp/p/4881128.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行