码迷,mamicode.com
首页 >  
搜索关键字:tokenizer    ( 111个结果
PAT 1073
简单题,字符串处理,写的有点乱 1 import java.util.*; 2 import java.io.*; 3 4 class FastReader{ 5 BufferedReader reader; 6 StringTokenizer tokenizer; 7 ...
分类:其他好文   时间:2014-11-03 22:24:10    阅读次数:243
PAT 1031
简单题,字符串处理,注意index就可以了 1 import java.util.*; 2 import java.io.*; 3 4 class FastReader{ 5 BufferedReader reader; 6 StringTokenizer tokenizer; 7...
分类:其他好文   时间:2014-11-02 00:27:33    阅读次数:262
PAT 1027
简单题,进制转换 1 import java.util.*; 2 import java.io.*; 3 4 class FastReader{ 5 BufferedReader reader; 6 StringTokenizer tokenizer; 7 8 p...
分类:其他好文   时间:2014-11-01 14:44:13    阅读次数:124
构造可配置词法语法分析器生成器(上)
词法分析器(tokenizer)的作用是按照词法定义规则将输入流分解为token序列,同时记录与每个token匹配的串和出现的位置等信息提供给语法分析器。手工编写一个针对某种语言的词法分析器是比较容易的,事实上很多编译器的词法分析器也是手写的,这种方式的优点是直观容易理解,缺点是开发效率低且易出错。编译技术经过几十年的发展已经形成了一套成熟的理论,应用这些理论可以让我们实现词法分析器的自动构造。在Lex中,每个词法规则由正则表达式定义,我们只需要定义每个token的正则表达式,Lex就可以自动生成对应的分析...
分类:其他好文   时间:2014-09-22 10:56:12    阅读次数:701
使用Moses中tokenizer.perl无法正常工作:纠结的"<" 和">"(已解决)
发现居然没有输入文本和输出文本,折腾了一晚上,到了半夜终于搞懂了:官方的Manual上这么写的:The tokenisation can be run as follows: ~/mosesdecoder/scripts/tokenizer/tokenizer.perl -l en \ ~/...
分类:其他好文   时间:2014-08-24 01:39:01    阅读次数:298
【Open Search产品评测】- 来往,7天轻松定制属于自己的搜索引擎
【Open Search产品评测】-- 来往,7天轻松定制属于自己的搜索引擎[使用背景] 相信很多人都遇到过要给网站或者app做一个搜索功能的需求,很久之前自己折腾过lucene,搞了很久,要自己搞中文分词(比如用中科院的那个)重写tokenizer,自己建索引,做实时更新流程,数据量大了还要考虑怎...
分类:其他好文   时间:2014-08-19 18:41:15    阅读次数:205
重写lucene.net的分词器支持3.0.3.0版本
lucene.net中每个分词器都是一个类,同时有一个辅助类,这个辅助类完成分词的大部分逻辑。分词类以Analyzer结尾,辅助类通常以Tokenizer结尾。分类词全部继承自Analyzer类,辅助类通常也会继承某个类。首先在Analysis文件夹下建立两个类,EasyAnalyzer和EasyT...
分类:Web程序   时间:2014-07-23 22:24:47    阅读次数:268
Lucene中TokenStream,Tokenizer,TokenFilter,TokenStreamComponents与Analyzer
TokenStream extends AttributeSource implements Closeable: incrementToken,end,reset,close Tokenizer直接继承至TokenStream,其输入input是一个reader TokenFilter也直接继承TokenStream,但input是一个TokenStream。 TokenStreamCo...
分类:其他好文   时间:2014-06-26 13:19:13    阅读次数:177
lucene定义自己的分词器将其分成单个字符
问题描述:将一句话拆分成单个字符,并且去掉空格。 package com.mylucene; import java.io.IOException; import java.io.Reader; import org.apache.lucene.analysis.Tokenizer; import org.apache.lucene.analysis.tokenattributes.Ch...
分类:其他好文   时间:2014-06-14 09:22:17    阅读次数:235
Coreseek:常见问题2
1.failed to lock XXXXX.spl文件 这是你建索引的时候会出现的问题,是你没有把打开的的searchd服务给关闭,因为你打开searchd服务时,他会建立一个叫xxx.spl的临时文件,建索引的时候就会出现冲突 2.FATAL: Tokenizer initialization failure. 词典路径不对,修改实际安装字典路径,默认使用相对路径,建议使用绝对路径。 ...
分类:其他好文   时间:2014-06-05 04:32:19    阅读次数:324
111条   上一页 1 ... 9 10 11 12 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!