简单题,字符串处理,写的有点乱 1 import java.util.*; 2 import java.io.*; 3 4 class FastReader{ 5 BufferedReader reader; 6 StringTokenizer tokenizer; 7 ...
分类:
其他好文 时间:
2014-11-03 22:24:10
阅读次数:
243
简单题,字符串处理,注意index就可以了 1 import java.util.*; 2 import java.io.*; 3 4 class FastReader{ 5 BufferedReader reader; 6 StringTokenizer tokenizer; 7...
分类:
其他好文 时间:
2014-11-02 00:27:33
阅读次数:
262
简单题,进制转换 1 import java.util.*; 2 import java.io.*; 3 4 class FastReader{ 5 BufferedReader reader; 6 StringTokenizer tokenizer; 7 8 p...
分类:
其他好文 时间:
2014-11-01 14:44:13
阅读次数:
124
词法分析器(tokenizer)的作用是按照词法定义规则将输入流分解为token序列,同时记录与每个token匹配的串和出现的位置等信息提供给语法分析器。手工编写一个针对某种语言的词法分析器是比较容易的,事实上很多编译器的词法分析器也是手写的,这种方式的优点是直观容易理解,缺点是开发效率低且易出错。编译技术经过几十年的发展已经形成了一套成熟的理论,应用这些理论可以让我们实现词法分析器的自动构造。在Lex中,每个词法规则由正则表达式定义,我们只需要定义每个token的正则表达式,Lex就可以自动生成对应的分析...
分类:
其他好文 时间:
2014-09-22 10:56:12
阅读次数:
701
发现居然没有输入文本和输出文本,折腾了一晚上,到了半夜终于搞懂了:官方的Manual上这么写的:The tokenisation can be run as follows: ~/mosesdecoder/scripts/tokenizer/tokenizer.perl -l en \ ~/...
分类:
其他好文 时间:
2014-08-24 01:39:01
阅读次数:
298
【Open Search产品评测】-- 来往,7天轻松定制属于自己的搜索引擎[使用背景] 相信很多人都遇到过要给网站或者app做一个搜索功能的需求,很久之前自己折腾过lucene,搞了很久,要自己搞中文分词(比如用中科院的那个)重写tokenizer,自己建索引,做实时更新流程,数据量大了还要考虑怎...
分类:
其他好文 时间:
2014-08-19 18:41:15
阅读次数:
205
lucene.net中每个分词器都是一个类,同时有一个辅助类,这个辅助类完成分词的大部分逻辑。分词类以Analyzer结尾,辅助类通常以Tokenizer结尾。分类词全部继承自Analyzer类,辅助类通常也会继承某个类。首先在Analysis文件夹下建立两个类,EasyAnalyzer和EasyT...
分类:
Web程序 时间:
2014-07-23 22:24:47
阅读次数:
268
TokenStream extends AttributeSource implements Closeable:
incrementToken,end,reset,close
Tokenizer直接继承至TokenStream,其输入input是一个reader
TokenFilter也直接继承TokenStream,但input是一个TokenStream。
TokenStreamCo...
分类:
其他好文 时间:
2014-06-26 13:19:13
阅读次数:
177
问题描述:将一句话拆分成单个字符,并且去掉空格。
package com.mylucene;
import java.io.IOException;
import java.io.Reader;
import org.apache.lucene.analysis.Tokenizer;
import org.apache.lucene.analysis.tokenattributes.Ch...
分类:
其他好文 时间:
2014-06-14 09:22:17
阅读次数:
235
1.failed to lock XXXXX.spl文件
这是你建索引的时候会出现的问题,是你没有把打开的的searchd服务给关闭,因为你打开searchd服务时,他会建立一个叫xxx.spl的临时文件,建索引的时候就会出现冲突
2.FATAL: Tokenizer initialization failure.
词典路径不对,修改实际安装字典路径,默认使用相对路径,建议使用绝对路径。
...
分类:
其他好文 时间:
2014-06-05 04:32:19
阅读次数:
324