1. 马尔可夫模型 如果一个系统有n个有限状态$S=\{s_{1} , s_{2} ,\dots s_{n}\}$,随着时间推移,该系统将从某一状态转移到另一状态,$Q=\{q_{1},q_{2},\dots q_{n}\}$位一个随机变量序列,该序列中的变量取值为状态集S中的某个状态,其中$q_{ ...
分类:
其他好文 时间:
2016-09-24 17:49:36
阅读次数:
292
Atitit 自然语言处理原理与实现 attilax总结 1.1. 中文分词原理与实现 111 1.2. 英文分析 1941 1.3. 第6章 信息提取 2711 1.4. 第7章 自动摘要 3041 1.5. 第8章 文本分类 3191 1.6. 第9章 文本倾向性分析 3641 1.7. 第10 ...
分类:
编程语言 时间:
2016-09-24 00:51:47
阅读次数:
244
elasticsearch spring 集成 项目清单 elasticsearch服务下载包括其中插件和分词 http://download.csdn.net/detail/u014201191/8809619 项目源码 资源文件 app.properties [html] view plain ...
分类:
编程语言 时间:
2016-09-21 10:21:36
阅读次数:
234
转载请注明出处:http://www.cnblogs.com/zhuxiaojie/p/5764680.html 本教程基于solr5.5 前言 至于为什么要用solr5.5,因为最新的6.10,没有中文的分词器支持,这里使用的是ik分词器,刚好支持到5.5 ik分词器下载地址 :https://g ...
分类:
其他好文 时间:
2016-09-19 22:24:18
阅读次数:
291
我选择了elasticsearch-analysis-lc-pinyin作为拼音分词插件,它是一款elasticsearch拼音分词插件,可以支持按照全拼、首字母,中文混合搜索。 elasticsearch-analysis-lc-pinyin一共有两个版本分别是1.4.5和2.2.2,和es的版本 ...
分类:
其他好文 时间:
2016-09-19 11:26:46
阅读次数:
212
更新说明小书匠更新1.10.01.10.0 新功能实现全文搜索( web 版,及部分无法正常识别 nodejieba 分词组件的操作系统除外)更加强大的文件管理功能浮动预览模式下,可以设置旋转预览,水印预览附件自动识别(非 jpg,gif 等图片扩展名结尾的文件,自动识别为附件)添加数据库压缩功能(... ...
分类:
其他好文 时间:
2016-09-15 17:44:59
阅读次数:
142
1、什么是分词器采用一种算法,将中英文本中的字符拆分开来,形成词汇,以待用户输入关健字后搜索2、为什么要分词器因为用户输入的搜索的内容是一段文本中的一个关健字,和原始表中的内容有差别,但作为搜索引擎来讲,又得将相关的内容搜索出来,此时就得采用分词器来最大限度..
分类:
Web程序 时间:
2016-09-14 23:30:19
阅读次数:
234
jieba是一个开源的中文分词库,这几天看了下源码,就做下记录。
下载jieba后,tree得到主要部分的目录树结构如下:
├── jieba
│ ├── analyse
│ ...
分类:
其他好文 时间:
2016-09-14 12:58:01
阅读次数:
1607
1、什么是索引库索引库是Lucene的重要的存储结构,它包括二部份:原始记录表,词汇表原始记录表:存放的是原始记录信息,Lucene为存入的内容分配一个唯一的编号词汇表:存放的是经过分词器拆分出来的词汇和该词汇在原始记录表中的编号2、为什么要将索引库进行优化在默认情况下..
分类:
Web程序 时间:
2016-09-14 08:26:23
阅读次数:
266
去除停用词 链接1 链接2 结巴分词github 地址 加入自己的词典 ...
分类:
其他好文 时间:
2016-09-13 13:30:49
阅读次数:
120