码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
Elasticsearch之停用词
前提 什么是倒排索引? Elasticsearch之分词器的作用 Elasticsearch之分词器的工作流程 Elasticsearch的停用词 1、有些词在文本中出现的频率非常高,但是对文本所携带的信息基本不产生影响。 2、英文 a、an、the、of 3、中文 的、了、着、是 、标点符号等 4 ...
分类:其他好文   时间:2017-02-24 21:01:36    阅读次数:230
Elasticsearch之分词器的作用
Analyzer(分词器)的作用是把一段文本中的词按一定规则进行切分。对应的是Analyzer类,这是一个抽象类,切分词的具体规则是由子类实现的,所以对于不同的语言,要用不同的分词器。(也就是说不同的分词器分词的规则是不同的!) 在创建索引时会用到分词器,在搜索时也会用到分词器,这两个地方要使用同一 ...
分类:其他好文   时间:2017-02-24 20:58:26    阅读次数:324
很棒的计算机入门课程:公开课从与非门到俄罗斯方块(第二部分)
博客中的文章均为meelo原创,请务必以链接形式注明本文地址 Build a Modern Computer from First Principles: Nand to Tetris Part II (project-centered course) by: Noam Nisan & Shimon ...
分类:其他好文   时间:2017-02-21 20:47:45    阅读次数:518
【中文分词】结构化感知器SP
结构化感知器(Structured Perceptron, SP)是由Collins [1]在EMNLP'02上提出来的,用于解决序列标注的问题。中文分词工具THULAC、LTP所采用的分词模型便是基于此。 1. 结构化感知器 模型 CRF全局化地以最大熵准则建模概率P(Y|X)P(Y|X);其中, ...
分类:其他好文   时间:2017-02-19 18:15:33    阅读次数:268
NLP:language model(n-gram/Word2Vec/Glove)
首先,大概讲一下自然语言处理的背景。互联网上充斥着大规模、多样化、非结构化的自然语言描述的文本,如何较好的理解这些文本,服务于实际业务系统,如搜索引擎、在线广告、推荐系统、问答系统等, 给我们提出了挑战。例如在效果广告系统中,需要将 Query(User or Page) 和广告 Ad 投影到相同的 ...
分类:其他好文   时间:2017-02-18 18:49:11    阅读次数:2428
wiki中文语料+word2vec (python3.5 windows win7)
环境: win7+python3.51. 下载wiki中文分词语料 使用迅雷下载会快不少,大小为1个多G https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 2. 安装opencc用于中文的简繁... ...
分类:编程语言   时间:2017-02-18 18:35:17    阅读次数:7001
04.全文检索的原理-创建索引
123131231 ...
分类:其他好文   时间:2017-02-18 11:05:46    阅读次数:216
ThinkPHP3.2.3扩展之自动分词获取关键字
ThinkPHP自动获取关键词调用在线discuz词库 先按照下图路径放好插件 插件源码: AutoKeyword.php word.php ...
分类:Web程序   时间:2017-02-14 13:49:55    阅读次数:242
数学之美番外篇:平凡而又神奇的贝叶斯方法
http://blog.csdn.net/zang141588761/article/details/48780733 概率论只不过是把常识用数学公式表达了出来。 ——拉普拉斯 记得读本科的时候,最喜欢到城里的计算机书店里面去闲逛,一逛就是好几个小时;有一次,在书店看到一本书,名叫贝叶斯方法。当时数 ...
分类:其他好文   时间:2017-02-09 20:20:04    阅读次数:321
ElasticSearch自定义分析器-集成结巴分词插件
使用Elastic Search分析器,集成结巴分词插件,并同时支持同义词、字符映射等功能。 ...
分类:其他好文   时间:2017-02-07 12:41:29    阅读次数:610
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!