Sphinx实验手册 一、 环境准备: 源代码编译的LAMP环境 CentOS 6.3 Linux版本 Mysql-5.5.23 mysql版本 Apache-2.4.7 apache版本 Php-5.4.25 php版本 coreseek-3.2.14 coreseek版本 准备mysql数据 我 ...
分类:
其他好文 时间:
2016-08-02 13:26:29
阅读次数:
278
社工库的规模越来越大,MSSQL的查询速度已经不够用了,改用全文检索,目前效果不错,全库在650G左右,索引160G,全文检索响应时间在5秒以内。 主要参考了The Web Of Answers的一个搭建帖子,具体链接找不到了,做了很多修改和改进,便于添加新库。 给出一些配置信息,有兴趣的同学可以留 ...
分类:
数据库 时间:
2016-07-25 06:57:29
阅读次数:
237
(1)高速建立索引:建索引速度达到单核10-15mb/s; (2)高速查询:100万记录(约1.2GB数据)下,单核每秒支持约200次搜索; (3)高扩展性:已知最大索引簇支持对30亿条记录建立索引,每天单个连接5千万次搜索; (4)强大附属功能:支持分布式搜索,中文分词引擎,c/java/pyth ...
分类:
其他好文 时间:
2016-07-25 01:49:00
阅读次数:
287
## 数据源src1 source src1 { ## 说明数据源的类型。数据源的类型可以是:mysql,pgsql,mssql,xmlpipe,odbc,python ## 有人会奇怪,python是一种语言怎么可以成为数据源呢? ## python作为一种语言,可以操作任意其他的数据来源来获取数 ...
分类:
其他好文 时间:
2016-07-25 01:48:57
阅读次数:
287
分布式配置很简单,只需要将局域网内的机器连接即可。 vi /usr/local/coreseek/etc/csft.conf 共6台机器的索引及增量,共12项。 然后启动进程 /usr/local/coreseek/bin/searchd -c /usr/local/coreseek/etc/csf ...
分类:
其他好文 时间:
2016-07-25 01:44:43
阅读次数:
142
有如下可选的匹配模式:SPH_MATCH_ALL, 匹配所有查询词(默认模式);SPH_MATCH_ANY, 匹配查询词中的任意一个;SPH_MATCH_PHRASE, 将整个查询看作一个词组,要求按顺序完整匹配;SPH_MATCH_BOOLEAN, 将查询看作一个布尔表达式SPH_MATCH_EX ...
分类:
Web程序 时间:
2016-07-25 01:44:17
阅读次数:
181
不管是网站还是app很多产品的设计思路和产品功能多多少少都有相似之处,那么这边主要讲以下几个场景 描述、话题的搜索 主要的实现思路是全量索引+增量索引方式,可设定时任务定点跑索引 用户昵称的搜索 主要是实现思路是实时索引+分布式索引的方式,用户由于过多,故使用实时索引的方法进行增加,旧数据通过跑脚本 ...
分类:
其他好文 时间:
2016-07-25 01:40:55
阅读次数:
119
//emailid的范围 $sphinx->SetIdRange($min, $max); //属性过滤,可过滤的属性必需在配置文件中设置sql_attr_ ,之前我们定义了这些 sql_attr_uint = fromid sql_attr_uint = toid sql_attr_timesta ...
分类:
Web程序 时间:
2016-07-25 01:40:45
阅读次数:
169
排序模式可使用如下模式对搜索结果排序:SPH_SORT_RELEVANCE 模式, 按相关度降序排列(最好的匹配排在最前面)SPH_SORT_ATTR_DESC 模式, 按属性降序排列 (属性值越大的越是排在前面)SPH_SORT_ATTR_ASC 模式, 按属性升序排列(属性值越小的越是排在前面) ...
分类:
编程语言 时间:
2016-07-25 01:39:27
阅读次数:
250
sphinx是国外的一款搜索软件。 coreseek是在sphinx的基础上,增加了中文分词功能,换句话说,就是支持了中文。 Coreseek发布了3.2.14版本和4.1版本,其中的3.2.14版本是2010年发布的,它是基于Sphinx0.9.9搜索引擎的。而4.1版本是2011年发布的,它是基 ...
分类:
其他好文 时间:
2016-07-15 16:49:54
阅读次数:
222