前提 什么是倒排索引? Elasticsearch之分词器的作用 Elasticsearch之分词器的工作流程 Elasticsearch的停用词 1、有些词在文本中出现的频率非常高,但是对文本所携带的信息基本不产生影响。 2、英文 a、an、the、of 3、中文 的、了、着、是 、标点符号等 4 ...
分类:
其他好文 时间:
2017-02-24 21:01:36
阅读次数:
230
Analyzer(分词器)的作用是把一段文本中的词按一定规则进行切分。对应的是Analyzer类,这是一个抽象类,切分词的具体规则是由子类实现的,所以对于不同的语言,要用不同的分词器。(也就是说不同的分词器分词的规则是不同的!) 在创建索引时会用到分词器,在搜索时也会用到分词器,这两个地方要使用同一 ...
分类:
其他好文 时间:
2017-02-24 20:58:26
阅读次数:
324
博客中的文章均为meelo原创,请务必以链接形式注明本文地址 Build a Modern Computer from First Principles: Nand to Tetris Part II (project-centered course) by: Noam Nisan & Shimon ...
分类:
其他好文 时间:
2017-02-21 20:47:45
阅读次数:
518
结构化感知器(Structured Perceptron, SP)是由Collins [1]在EMNLP'02上提出来的,用于解决序列标注的问题。中文分词工具THULAC、LTP所采用的分词模型便是基于此。 1. 结构化感知器 模型 CRF全局化地以最大熵准则建模概率P(Y|X)P(Y|X);其中, ...
分类:
其他好文 时间:
2017-02-19 18:15:33
阅读次数:
268
首先,大概讲一下自然语言处理的背景。互联网上充斥着大规模、多样化、非结构化的自然语言描述的文本,如何较好的理解这些文本,服务于实际业务系统,如搜索引擎、在线广告、推荐系统、问答系统等, 给我们提出了挑战。例如在效果广告系统中,需要将 Query(User or Page) 和广告 Ad 投影到相同的 ...
分类:
其他好文 时间:
2017-02-18 18:49:11
阅读次数:
2428
环境: win7+python3.51. 下载wiki中文分词语料 使用迅雷下载会快不少,大小为1个多G https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 2. 安装opencc用于中文的简繁... ...
分类:
编程语言 时间:
2017-02-18 18:35:17
阅读次数:
7001
ThinkPHP自动获取关键词调用在线discuz词库 先按照下图路径放好插件 插件源码: AutoKeyword.php word.php ...
分类:
Web程序 时间:
2017-02-14 13:49:55
阅读次数:
242
http://blog.csdn.net/zang141588761/article/details/48780733 概率论只不过是把常识用数学公式表达了出来。 ——拉普拉斯 记得读本科的时候,最喜欢到城里的计算机书店里面去闲逛,一逛就是好几个小时;有一次,在书店看到一本书,名叫贝叶斯方法。当时数 ...
分类:
其他好文 时间:
2017-02-09 20:20:04
阅读次数:
321
使用Elastic Search分析器,集成结巴分词插件,并同时支持同义词、字符映射等功能。 ...
分类:
其他好文 时间:
2017-02-07 12:41:29
阅读次数:
610