首先测试下分词尤其是中文分词功能,这个可是传统数据库如mysql,sqlserver的痛啊。 打开浏览器,并登录到http://localhost:5601,点击Dev Tools项,在Console栏输入 会在右面显示返回的结果 一切看上去都挺美好,等加入中文看看。 结果是 这显然不能忍啊,每个中 ...
分类:
其他好文 时间:
2017-02-28 15:19:09
阅读次数:
237
为什么需要使用IKAnalyzer Lucene自带的标准分析器无法中文分词 Lucene自带的中文分析器分词不准确 IKAnalyzer支持屏蔽关键词、新词汇的配置 使用示例 建立索引时 略 QueryParser查询时 略 单独使用进行分词 自定义词库 在classpath下定义IKAnalyz... ...
分类:
其他好文 时间:
2017-02-28 13:26:22
阅读次数:
207
Document Document是文档或者数据的抽象,它包含很多的Field域对象(可以重复),最终是要被持久化保存到索引库中的 Field Lucene中的域对象,是对原始数据的切割,如:文件名,文件内容,文件大小等。域对象可以指定是否分词,是否索引和是否存储。不分词则会以一个完整的字段出现在索... ...
分类:
Web程序 时间:
2017-02-28 13:20:44
阅读次数:
295
solr分词,就是solr配置的字段类型根据注册的分词文件分词断句的行为。 例如:你们村村通工程知道吗? 不分词的时候会是这样: 分词的话,我们把“村村通工程 ”名词化,分词结果为: 说说中文分词 中文分词器有多中,常用的有 IKAnalyzer、 mmseg4j。 前者最新版本更新到2012年,所 ...
分类:
其他好文 时间:
2017-02-27 15:48:01
阅读次数:
221
自然语言处理:单词计数 这一讲主要内容(Today): 1、语料库及其性质; 2、Zipf 法则; 3、标注语料库例子; 4、分词算法; 一、 语料库及其性质: a) 什么是语料库(Corpora) i. 一个语料库就是一份自然发生的语言文本的载体,以机器可读形式存储; ii. 一种平衡语料库尝试在 ...
分类:
编程语言 时间:
2017-02-26 18:48:34
阅读次数:
227
在上一篇随笔中我们提到schema.xml中<field/>元素标签的配置,该标签中有四个属性,分别是name、type、indexed与stored,这篇随笔将讲述通过设置type属性的值实现中文分词的检索功能 首先下载IK中文分词项目,下载地址https://code.google.com/ar ...
分类:
其他好文 时间:
2017-02-26 17:25:49
阅读次数:
559
前提 Elasticsearch之中文分词器插件es-ik的自定义词库 先声明,热更新词库,需要用到,web项目和Tomcat。不会的,请移步 Eclipse下Maven新建项目、自动打依赖jar包(包含普通项目和Web项目) 在Eclipse里连接Tomcat部署到项目(maven项目和web项目 ...
分类:
其他好文 时间:
2017-02-25 12:27:25
阅读次数:
3824
附注:不要问我为什么写这么快,是16年写的。 R的优点:免费、界面友好(个人认为没有matlab友好,matlab在我心中就是统计软件中极简主义的代表)、小(压缩包就几十M,MATLAB.R2009b的压缩包是1.46G)、包多(是真的多,各路好友会经常上传新的包)。 R的麻烦之处:经常升级,是经常 ...
分类:
其他好文 时间:
2017-02-25 10:45:22
阅读次数:
5208
前提 什么是倒排索引? Elasticsearch之分词器的作用 Elasticsearch之分词器的工作流程 Elasticsearch之停用词 Elasticsearch之中文分词器 Elasticsearch之几个重要的分词器 elasticsearch官方默认的分词插件 1、elastics ...
分类:
其他好文 时间:
2017-02-24 22:12:56
阅读次数:
787
前提 什么是倒排索引? Elasticsearch之分词器的作用 Elasticsearch的分词器的一般工作流程: 1、切分关键词 2、去除停用词 3、对于英文单词,把所有字母转为小写(搜索时不区分大小写) ...
分类:
其他好文 时间:
2017-02-24 21:04:34
阅读次数:
213