从 Mysql 4.0 开始就支持全文索引功能,但是 Mysql 默认的最小索引长度是 4。如果是英文默认值是比较合理的,但是中文绝大部分词都是2个字符,这就导致小于4个字的词都不能被索引,全文索引功能就形同虚设了。国内的空间商大部 分可能并没有注意到这个问题,没有修改 Mysql 的默认设置。为什...
分类:
数据库 时间:
2015-07-29 09:05:19
阅读次数:
163
NLP 分词或word2vec之前,一般都需要先进行标点符号的预处理,直接上解决的代码,精简。#!/usr/bin/env python# coding=utf-8from string import punctuationimport reimport sysreload(sys)sys.setd...
分类:
其他好文 时间:
2015-07-27 18:13:23
阅读次数:
316
set_charset('utf-8'); $cws -> set_dict('./pscws4/etc/dict.utf8.xdb'); $cws -> set_rule('./pscws4/etc/rules.utf8.ini'); //$cws->set_multi(3); $cws -> ....
分类:
系统相关 时间:
2015-07-24 15:57:00
阅读次数:
154
log4net.dll ----记录日志 本人用能够pangu.dll ----分词工具 用于高级搜索 拆分字词 能够非常好用fastreport --------高速制作报表工具 本人仅仅做过webform的 资源在博客资源里RSS.NET.dllRSS.NET是一款操作RSS feeds的开源....
分类:
Web程序 时间:
2015-07-24 10:37:07
阅读次数:
184
一,从github上下载最新的Ik分词源码到本地 git clone https://github.com/medcl/elasticsearch-analysis-ik clone到本地后,将elasticsearch-analysis-ik目录中的 config/ik/ 整个目录拷贝到Elasticsearch安装目...
分类:
其他好文 时间:
2015-07-22 19:09:42
阅读次数:
228
目录: 一、针对这次装B 的解释 二、下载,安装插件elasticsearch-1.7.0 三、索引的mapping 四、 查询 五、对于相关度的大牛的文档三、mapping1. 索引的mapping记录了对字段的描述,是否分词,是否存储等----没有细细的研究,只是简单的区分了...
分类:
移动开发 时间:
2015-07-22 18:12:17
阅读次数:
183
1. analysis-ik安装1). 从https://github.com/medcl/elasticsearch-analysis-ik,下载elasticsearch-analysis-ik-master.zip2). 解压后, cd elasticsearch-analysis-ik-m....
分类:
其他好文 时间:
2015-07-21 23:43:00
阅读次数:
177
积累英语词汇:assemble [?'semb(?)l] vt. 集合,聚集;装配;收集assembled [?'semb?ld] adj. 组合的;安装的 v. 装配(assemble的过去分词);集合custom view hierarchy是自定义视图层次。
分类:
移动开发 时间:
2015-07-21 12:04:30
阅读次数:
132
搜狗输入法的分词算法
搜狗输入法最近的用户输入中出现了一种新的输入模式,形如 “0k1234567”,搜狗的工程师发现这一模式后了解到,这是一种新被提出的对于十五进制数字的标记模式,其中 “0k” 是标记进制为15的前缀标记,之后的部分 “1234567” 是实际的十五进制的数字串。
在发现这一标记模式后,搜狗的工程师开始尝试在已有的分词算法上进一步加入对于十五进制数字串的处理,把网页上的...
分类:
其他好文 时间:
2015-07-19 21:42:30
阅读次数:
196
这几天项目中需要重新做一个关于商品的全文搜索功能,于是想到了用Sphinx,因为需要中文分词,所以选择了Sphinx for chinese,当然你也可以选择coreseek,建议这两个中选择一个,暂时不要选择原版Sphinx(对中文的支持不是很好).又因为服务器所用MySQL在当时编译时并没有编译...