码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
lucene示例
搭建环境搭建Lucene的开发环境只需要加入Lucene的Jar包,要加入的jar包至少要有: lucene-core-3.0.1.jar(核心包) contrib\analyzers\common\lucene-analyzers-3.0.1.jar(分词器) contrib\highlighte...
分类:其他好文   时间:2014-06-21 12:36:18    阅读次数:290
lucene 分词器
分词器 作用:切分关键词的。 在什么地方使用到了:在建立索引和搜索时。 原文:An IndexWriter creates and maintains an index. 1,切分: An IndexWriter creates and maintains an index...
分类:其他好文   时间:2014-06-20 18:27:48    阅读次数:160
几种开源分词工具的比較
搜集了一些资料,与同学一起进行了简单的測试,总结例如以下。分词工具特点支持语言原理词典及扩展性StandardAnalyzer中文、英文(unicode)中文:单字符切分英文:依据空格切分ChineseAnalyzer中文,不支持中文和英文及数字混合的文本分词按字分词,与StandardAnalyz...
分类:其他好文   时间:2014-06-18 14:09:29    阅读次数:162
【Python】用Python的“结巴”模块进行分词
之前都是用计算所的分词工具进行分词,效果不错但是比较麻烦,最近开始用Python的“结巴”模块进行分词,感觉非常方便。这里将我写的一些小程序分享给大家,希望对大家有所帮助。 下面这个程序是对一个文本文件里的内容进行分词的程序:test.py #!/usr/bin/python #-*- encoding:utf-8 -*- import jieba ...
分类:编程语言   时间:2014-06-18 06:00:59    阅读次数:412
python scikit-learn计算tf-idf词语权重
python的scikit-learn包下有计算tf-idf的api,研究了下做个笔记 1 安装scikit-learn包 sudo pip install scikit-learn 2 中文分词采用的jieba分词,安装jieba分词包 sudo pip install jieba 3  关于jieba分词的使用非常简单,参考这里,关键的语句就是(这里简单试水,不追求效...
分类:编程语言   时间:2014-06-16 14:40:05    阅读次数:437
PHPAnalysis中文分词类实用教程
PHPAnalysis是目前广泛使用的中文分词类,使用反向匹配模式分词,因此兼容编码更广泛,现将其变量与常用函数详解如下:一、比较重要的成员变量$resultType = 1 生成的分词结果数据类型(1 为全部, 2为 词典词汇及单个中日韩简繁字符及英文, 3 为词典词汇及英文) ...
分类:Web程序   时间:2014-06-15 09:39:46    阅读次数:196
盘古分词demo,盘古分词怎么用
1、下载PanGu.dll 想在地址...
分类:其他好文   时间:2014-06-14 17:37:59    阅读次数:607
lucene定义自己的分词器将其分成单个字符
问题描述:将一句话拆分成单个字符,并且去掉空格。 package com.mylucene; import java.io.IOException; import java.io.Reader; import org.apache.lucene.analysis.Tokenizer; import org.apache.lucene.analysis.tokenattributes.Ch...
分类:其他好文   时间:2014-06-14 09:22:17    阅读次数:235
字符串排序和多字段排序(string sorting and multi-fields)
被分词的string字段也是一个multi-value字段,但是对他们进行排序往往得不到想要的结果。如果你对”fine old art“进行分词,他将会返回三个term。我们也许对以一个term进行字母排序,然后第二个等。但是ES没有在这个期间的时间顺序。你可以使用min和max排序模式(默认使用m...
分类:其他好文   时间:2014-06-10 13:18:45    阅读次数:366
学习计算机技术的方式
1.这个技术能解决什么问题;2.怎么用;3.原理和特点;4.根据原理,自己构思一个这样的技术出来;例如:lucene: 1. 解决模糊查询的问题,类似 sql的like; 2.使用: 先分词, 再通过IndexWriter建立crud, 通过Inde...
分类:其他好文   时间:2014-06-10 09:02:01    阅读次数:181
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!