搭建环境搭建Lucene的开发环境只需要加入Lucene的Jar包,要加入的jar包至少要有: lucene-core-3.0.1.jar(核心包) contrib\analyzers\common\lucene-analyzers-3.0.1.jar(分词器) contrib\highlighte...
分类:
其他好文 时间:
2014-06-21 12:36:18
阅读次数:
290
分词器 作用:切分关键词的。 在什么地方使用到了:在建立索引和搜索时。 原文:An IndexWriter creates and maintains an index. 1,切分: An IndexWriter creates and maintains an index...
分类:
其他好文 时间:
2014-06-20 18:27:48
阅读次数:
160
搜集了一些资料,与同学一起进行了简单的測试,总结例如以下。分词工具特点支持语言原理词典及扩展性StandardAnalyzer中文、英文(unicode)中文:单字符切分英文:依据空格切分ChineseAnalyzer中文,不支持中文和英文及数字混合的文本分词按字分词,与StandardAnalyz...
分类:
其他好文 时间:
2014-06-18 14:09:29
阅读次数:
162
之前都是用计算所的分词工具进行分词,效果不错但是比较麻烦,最近开始用Python的“结巴”模块进行分词,感觉非常方便。这里将我写的一些小程序分享给大家,希望对大家有所帮助。
下面这个程序是对一个文本文件里的内容进行分词的程序:test.py
#!/usr/bin/python
#-*- encoding:utf-8 -*-
import jieba ...
分类:
编程语言 时间:
2014-06-18 06:00:59
阅读次数:
412
python的scikit-learn包下有计算tf-idf的api,研究了下做个笔记
1 安装scikit-learn包
sudo pip install scikit-learn
2 中文分词采用的jieba分词,安装jieba分词包
sudo pip install jieba
3 关于jieba分词的使用非常简单,参考这里,关键的语句就是(这里简单试水,不追求效...
分类:
编程语言 时间:
2014-06-16 14:40:05
阅读次数:
437
PHPAnalysis是目前广泛使用的中文分词类,使用反向匹配模式分词,因此兼容编码更广泛,现将其变量与常用函数详解如下:一、比较重要的成员变量$resultType = 1 生成的分词结果数据类型(1 为全部, 2为 词典词汇及单个中日韩简繁字符及英文, 3 为词典词汇及英文) ...
分类:
Web程序 时间:
2014-06-15 09:39:46
阅读次数:
196
问题描述:将一句话拆分成单个字符,并且去掉空格。
package com.mylucene;
import java.io.IOException;
import java.io.Reader;
import org.apache.lucene.analysis.Tokenizer;
import org.apache.lucene.analysis.tokenattributes.Ch...
分类:
其他好文 时间:
2014-06-14 09:22:17
阅读次数:
235
被分词的string字段也是一个multi-value字段,但是对他们进行排序往往得不到想要的结果。如果你对”fine old
art“进行分词,他将会返回三个term。我们也许对以一个term进行字母排序,然后第二个等。但是ES没有在这个期间的时间顺序。你可以使用min和max排序模式(默认使用m...
分类:
其他好文 时间:
2014-06-10 13:18:45
阅读次数:
366
1.这个技术能解决什么问题;2.怎么用;3.原理和特点;4.根据原理,自己构思一个这样的技术出来;例如:lucene:
1. 解决模糊查询的问题,类似 sql的like; 2.使用: 先分词, 再通过IndexWriter建立crud, 通过Inde...
分类:
其他好文 时间:
2014-06-10 09:02:01
阅读次数:
181