搜索关键字：分词，搜索到2158个结果！码迷,mamicode.com！

python 中文乱码问题解决方案

最近在项目中部署结巴分词的时候遇到了乱码情况，明明是中文，确显示不出来或者显示乱码。解决方案如下。利用isinstance 来判断是否已经编码，s是出问题的字符串。unicode是没编码isinstance(s, unicode): 用print 打印，如果结果是true说明没编码。如果是false说明编码了，但是编的码不对print isinstance(s,unicode)如果没编码，加入编码...

分类：编程语言时间：2014-12-09 15:48:34 阅读次数：177

Oracle 全文索引相关命令

--用sys用户登录,解锁ctxsys用户alter user ctxsys account unlock;--授权给对应用户grant execute on ctx_ddl to yw;--用yw用户登录--创建分词,分词名为my_lexerexec ctx_ddl.create_preferen...

分类：数据库时间：2014-12-08 19:32:25 阅读次数：222

3.Lucene3.x API分析，Director 索引操作目录，Document，分词器

?? 1 Lucene卡发包结构分析包名功能 org.apache.lucene.analysis Analysis提供自带的各种Analyzer org.apache.lucene.collation 包含collationKey...

分类：Windows程序时间：2014-12-08 00:55:24 阅读次数：390

最大正向匹配分词MM

RT，NLP第一次实验，96人民日报语料分词+unigram和bigram词频统计。一开始写了个RMM，用了各种序列排序，然后分词的算法用了简单的前缀暴力匹配，果然跑语料的时间根本无法估计、、果断重写、、又找了一个blog，发现MM算法一开始是想得太复杂了，导致循环太多，后来修改成简单版本的即可正常时间运行、 python代码： # -*- coding: cp936 -*- imp...

分类：其他好文时间：2014-12-06 22:54:40 阅读次数：250

在Solr中配置中文分词IKAnalyzer

李克华云计算高级群: 292870151 交流：Hadoop、NoSQL、分布式、lucene、solr、nutch 在Solr中配置中文分词IKAnalyzer1、在配置文件schema.xml（位置{SOLR_HOME}/config/下），配置信息如下： ...

分类：其他好文时间：2014-12-05 17:02:09 阅读次数：148

Feature hashing相关 - 1

考虑典型的文本分类，一个经典的方法就是分词，扫描所有特征，建立特征词典重新扫描所有特征，利用特征词典将特征映射到特征空间编号得到特征向量学习参数 w 存储学习参数 w ，存储特征映射词典预测截断装载学习参数w，装载特征映射词典扫描数据，将所有特征利用特征映射词典映射到特征空间编号得到...

分类：其他好文时间：2014-12-04 17:47:41 阅读次数：327

shpinx / coreseek 安装配置教程

sphinx是一个专业的开源搜索引擎，但不支持中文。coreseek相当于sphinx的中文版，使用了mmseg3来支持中文分词。虽然coreseek里面的shpinx版本很低，目前稳定版的coreseek 3.2.14自带的shpinx只有0.9.9，但还用就行。很多教程中，先安装shpinx的最新版，再安装coreseek，这个，不知道是怎么传的，反正这么安装是完全没必要的。...

分类：其他好文时间：2014-12-04 12:16:17 阅读次数：181

Lucene中内置常用Query对象

以下这几种lucene内置查询对象，不过在实际的项目开发中，这种查询方式应用的不多。一般用QueryParser去获取查询对象。因为QueryParser内部基本实现了所有的内置查询对象。这是最常见的QueryParse的写法：这是对term（最小分词单元）的查询：多值查询（BooleanQuery）可以用来连接多个子查询：前缀搜索（PrefixQuery），注意也是对词的前缀搜索：通配符搜索（WildcardQuery）：...

分类：Web程序时间：2014-12-03 21:21:41 阅读次数：207

ubunutu 源码lamp mysql5.5 PHP5.4 +swsc中文分词

1.准备环境sudoapt-getinstallgccg++cpplibncurses5-devmakelibssl-devsysv-rc-confbisonlibbz2-devlibcurl3-openssl-devlibjpeg62-devlibpng12-devlibxpm-devlibt1-devlibfreetype6-devlibgmp3-devlibmcrypt-devlibmhash-devlibpspell-devlibsnmp9-devlibmm-devlibtidy-devlib..

分类：数据库时间：2014-12-03 19:32:30 阅读次数：492

使用Lucene实现多个文档关键词检索demo（二）

上次在使用Lucene建立索引时使用的时自带的StandAnalyzer分词器，而这个分词器在对中文进行分词时只是机械的按字进行划分，因此使用它lucene就不能很好的对中文索引，也就不能实现对中文关键词的检索了，因此其实上次的实践只能对英文进行。为了解决这个问题，可以使用IKAnalyzer，它是以开源项目Lucene为应用主体的，结合词典分词和文法分析算法的中文分词组件。它支持中英文等分词...

分类：Web程序时间：2014-12-03 19:18:59 阅读次数：299

共2158条上一页 1 ... 191 192 193 194 195 ... 216 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)