问题描写叙述:将一句话拆分成单个字符。而且去掉空格。 package com.mylucene; import java.io.IOException; import java.io.Reader; import org.apache.lucene.analysis.Tokenizer; impor
分类:
Web程序 时间:
2016-02-22 17:38:30
阅读次数:
176
在Elasticsearch中,内置了很多分词器(analyzers),但默认的分词器对中文的支持都不是太好。所以需要单独安装插件来支持,比较常用的是中科院ICTCLAS的smartcn和IKAnanlyzer效果还是不错的,但是目前IKAnanlyzer还不支持最新的Elasticsearch2.2.0版本,但是smartcn中文分词器..
分类:
其他好文 时间:
2016-02-20 10:33:20
阅读次数:
228
记下来 不然以后又忘记了。 AnalysisEntry:总体调动,调类的顺序;WordFrequenceInDoc:提取中文,分词,去停词,统计词频;在去停词时,要做一个词库,my.dic或者stopword.dicWordCountsInDoc:统计每个文档的单词数目;WordsInCorpusT
分类:
其他好文 时间:
2016-02-20 01:50:52
阅读次数:
195
原文:http://3dobe.com/archives/44/ 引言 做搜索技术的不可能不接触分词器。个人认为为什么搜索引擎无法被数据库所替代的原因主要有两点,一个是在数据量比较大的时候,搜索引擎的查询速度快,第二点在于,搜索引擎能做到比数据库更理解用户。第一点好理解,每当数据库的单个表大了,就是
分类:
其他好文 时间:
2016-02-18 11:59:22
阅读次数:
203
PHP修改memory_limit的三种办法 2010-06-11 10:57:11 分类: 可能是分词程序的问题。只要搜索的字段达到十个汉字以上,就会出现诸如以下的错误 Fatal error: Allowed memory size of 2345643 bytes exhausted 上网找了
分类:
Web程序 时间:
2016-02-17 09:29:44
阅读次数:
203
“情态动词+have+ done”的含义 1、Must have done的含义。“must have+过去分词”表示对过去的推测,意思是“一定已经,想必已经,准是已经….”,只用于肯定句中。例如: The streets are wet. It must have rained. 街道是湿的,准是
分类:
其他好文 时间:
2016-02-13 17:09:14
阅读次数:
287
分词的时态和语态 下面谈一下现在分词的时态和语态。 1.现在分词的完成式(having+过去分词)表示的动作发生在谓语动词所表示的动作之前或两个动作在时间上有一定的间隔。 例如: Having written the letter,John went to the post office. (=Af
分类:
其他好文 时间:
2016-02-13 17:06:10
阅读次数:
416
分词 分词有现在分词和过去分词两种。 作为谓语,现在分词和be 一起构成进行时;过去分词和be一起构成被动语态,和have一起构成完成时。 例如: I am reading a novel by Maupassant. 我正在看一本莫泊桑写的小说。(现在分词和be 一起表示主语正在进行的动作。) M
分类:
其他好文 时间:
2016-02-13 17:05:12
阅读次数:
432
独立主格结构 独立主格结构由名词或代词加上其他成分(分词、不定式、名词、代词、形容词、副词或介词短语)构成。 独立主格结构没有主语和谓语,所以在语法上不是句子。但多有名词或代词表示的逻辑主语,分词或不定式表示的逻辑谓语,有时还有其他修饰成分。(判断一个结构是否是句子的标准就是看看这个结构是否有谓语动
分类:
其他好文 时间:
2016-02-13 17:03:50
阅读次数:
328
PHPAnalysis源程序下载与演示: PHP分词系统 V2.0 版下载 | PHP分词系统演示 | PHPAnalysis类API文档 原文连接地址:http://www.phpbone.com/phpanalysis/ 分词系统简介:PHPAnalysis分词程序使用居于unicode的词库,
分类:
Web程序 时间:
2016-02-09 15:02:54
阅读次数:
336