文本中包含许多文本处理步骤,比如:分词,大写转小写,词干化,同义词转化和许多的文本处理。 文本分析既用于索引时对一文本域的处理,也用于查询时查询字符串的文本处理。文本处理对搜索引擎的搜索结果有着重要的影响,特别是对如召回率的影响。 文本分析是将一个文本域的值转化为一个词序列。词是Lucene实际索....
分类:
其他好文 时间:
2015-06-02 13:03:24
阅读次数:
3739
[搜索][搜索]波特词干(Porter Streamming)提取算法详解(3)详解(3)...
分类:
编程语言 时间:
2014-11-30 23:22:05
阅读次数:
280
最头疼的就是记单词日语单词长,无规律,构造复杂,难掌握。英语等欧洲体系的语言由词干和词缀组成,很容易掌握规律。刚开始就准备放弃了!太难了!硬着头皮学了几个月,有了一定的词汇量以后,就会发现它的规律,就很容易掌握了。英语好的人更是如鱼得水。日语词汇的构成,无非是两种,一种是原日语,一种是外来语。原日语...
分类:
其他好文 时间:
2014-08-06 22:07:42
阅读次数:
186
归一化:可以将大量重复特征聚合为单一特征,降低重复带来的相似度差异。方法: Vx = Vx /abs(v1)+...abs(Vn)词干处理:(变形词,同意词,近义词聚合) 减少特征的重复性 imaging-images buy-bought 我-俺 早餐-早饭.......停用词:(弱特征)大量出现的没有实际特征意义的虚词,副词,语气词等 I ,am, is ,a,an,always 我,啊,了...
分类:
其他好文 时间:
2014-07-02 10:41:28
阅读次数:
267