4.10 同义词文件/Synonym 同义词文件格式 from=>to AT &T => AT&T AT & T => AT & T standarten fuehrer => Standartenfuehrer standarten fuhrer => Standartenfuehrer Ms-D ...
分类:
其他好文 时间:
2017-01-05 09:54:40
阅读次数:
146
摘自:http://blog.csdn.net/yang_yulei/article/details/46337405 哈希树的理论基础 【质数分辨定理】 简单地说就是:n个不同的质数可以“分辨”的连续整数的个数和他们的乘积相等。“分辨”就是指这些连续的整数不可能有完全相同的余数序列。 (这个定理的 ...
分类:
其他好文 时间:
2017-01-04 18:58:17
阅读次数:
230
转自:http://github.tiankonguse.com/blog/2014/12/03/sphinx-token-inverted-sort.html 外部排序 现在我们的背景是有16个已经排序的数据存在磁盘上。由于数据量很大,我们不能一次性全部读进来。 我们的目标是依次挑出最小的hit, ...
分类:
编程语言 时间:
2017-01-04 18:35:52
阅读次数:
274
coreseek常见错误原因及解决方法 coreseek常见错误原因及解决方法 Coreseek 中文全文检索引擎 Coreseek 是一款中文全文检索/搜索软件,以GPLv2许可协议开源发布,基于Sphinx研发并独立发布,专攻中文搜索和信息处理领域,适用于行业/垂直搜索、论坛/站内搜索、数据库搜 ...
分类:
其他好文 时间:
2017-01-03 23:48:58
阅读次数:
303
一,软件准备 coreseek4.1 (包含coreseek测试版和mmseg最新版本,以及测试数据包【内置中文分词与搜索、单字切分、mysql数据源、python数据源、RT实时索引等测试配置】) Mysql源码包 (必须选择与你已安装mysql的版本一致) 为了避免安装中出现依赖包缺失,你需要打 ...
分类:
数据库 时间:
2017-01-03 22:37:21
阅读次数:
508
一、sphinx 全文检索 通过sphinx检索到id,然后到mysql里面拿到记录 什么是劝我呢检索?结构化数据: 具有固定格式或者长度的数据非结构化数据: 标题 内容 等不定长的数据非机构化数据还叫做"全文数据" 检索分为两个过程:索引创建 和 搜索索引 检索结构php -> sphinx -> ...
分类:
其他好文 时间:
2017-01-03 22:03:46
阅读次数:
293
公司项目需要,要将mysql数据库中的数据快速检索并分词。 开始使用的是sphinx,这个搜索引擎安装,配置,使用,都比较简单,无需安装其他插件,相对来说功能比较单一。 对于新增记录,我的处理方法是添加增量索引,定期合并到主索引,这导致索引体积越来越大。由于sphinx在运行时是将这些索引放在内存里 ...
分类:
其他好文 时间:
2016-12-29 14:26:23
阅读次数:
396
Sphinx + Coreseek 实现中文分词搜索
Sphinx Coreseek 实现中文分词搜索
全文检索
1 全文检索 vs 数据库
2 中文检索 vs 汉化检索
3 自建全文搜索与使...
分类:
其他好文 时间:
2016-12-15 12:15:09
阅读次数:
490
发现问题 今天在github上fork了CI 3.x的中文手册,按照README文档一步步进行Sphinx和相关工具的安装,最终build生成html版手册。操作到第6步执行`make html`的时候,抛出Python异常: 显然问题出在sphinx库。必须要找到解决方案才能完成第6步。 解决方案 ...
分类:
编程语言 时间:
2016-12-12 01:29:36
阅读次数:
227
操作系统 开源世界旅行手册 鸟哥的Linux私房菜 The Linux Command Line (中英文版) Linux 设备驱动 (第三版) 深入分析Linux内核源码 UNIX TOOLBOX Docker中文指南 Docker —— 从入门到实践 Docker入门实战 Docker Chea ...
分类:
其他好文 时间:
2016-12-10 22:51:09
阅读次数:
329