当我们使用中文分词器的时候,其实也希望它能够支持对于英文的分词。试想,任何一个存储文字的字段都有可能是中英文夹杂的。
我们的项目中使用IKAnalyzer作为中文分词器,它在处理文档过程中遇到英文时,利用空格和标点将英文单词取出来,同时也会对其转全小写处理。其实这和真正的英文分词已经很接近了,只有一墙之隔:词干提取。一个真正的英文分词器除了...
分类:
其他好文 时间:
2015-08-12 13:18:15
阅读次数:
1638
1. 训练的文件segmentor_train.txt文件内容,用空格分隔词中国 进出口 银行 与 中国 银行 加强 合作新华社 北京 十二月 二十六日 电 ( 记者 周根良 )今日 三 大 股指 均 小幅 低开,随后 沪深指数 在 权重板块 集体 拉升 的 带动 下 小幅 上涨,但 创业板 却 出...
分类:
其他好文 时间:
2015-08-12 01:15:45
阅读次数:
364
1、Lucene的核心jar包 lucene-core-5.2.1.jar lucene-analyzers-common-5.2.1.jar lucene-queryparser-5.2.1.jar 2、主要开发包说明 org.apache.lucene.analysis:语言分析器,主要用于分词 org.apache.lucene.do...
分类:
Web程序 时间:
2015-08-11 12:23:30
阅读次数:
134
程序开发102脚本编程语言36地图相关7Epub电子图书工具109UI组件库16代码生成工具25SVG开发包17推荐引擎3指纹识别23拼音转换工具包24蓝牙开发295GUI开发框架35Swing开发包1137常用工具包247报表/图表制作207模板引擎159搜索引擎48中文分词库82缓存系统487网...
分类:
其他好文 时间:
2015-08-11 07:12:50
阅读次数:
176
折叠导航HanLP下载文档联系关于开源自由的汉语言处理包功能全面调用简单 欢迎使用HanLP HanLP v1.2.4 HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。不仅仅是分词,而是提供词法分析、句法分析、语义理解等完备的功能。HanLP具备功...
分类:
编程语言 时间:
2015-08-10 01:55:09
阅读次数:
334
//封装类using System;using System.Collections.Generic;using System.Linq;using System.Web;using Lucene.Net.Analysis;using Lucene.Net.Index;using Lucene.Ne...
分类:
Web程序 时间:
2015-08-08 22:50:52
阅读次数:
204
工作上,有需要对纯数字的字符串做分词,好像CJK二元分词器对这样的数字不会做分词,所以自己写了个分词器,分词器达到以下效果:对字符串1234567,分词后为:12 34 56 7 Analyzer: package?org.apache.lucene...
分类:
Web程序 时间:
2015-08-08 18:32:04
阅读次数:
198
简介Sphinx是开源的搜索引擎,它支持英文的全文检索。所以如果单独搭建Sphinx,你就已经可以使用全文索引了但是有些时候我们还要进行中文分词所有scws就出现了,我们也可以使用Coreseek来建立中文索引,而Coreseek的内核就是Sphinx1、环境PHP 5.5.23+centos 6....
分类:
Web程序 时间:
2015-08-08 01:14:46
阅读次数:
461
中文分词其实有点像古代的句读(dou),韩愈的《师说》中就有:“彼童子之师,授之书而习其句读者也”。古人文章是没有标点符号的,行文一气呵成。如果不懂离经断句,就很难理解古文的意思。从某种程度上,句读就类似今天要讲的中文分词。
北京航空航天大学的梁南元教授提出了查字典的方法
查字典的方法就是把句子从左到右扫描一遍,遇到字典里有的词就标示出来,遇到不认识的字串就分割为单字词。如果分割出的词与后面的...
分类:
其他好文 时间:
2015-08-07 23:58:13
阅读次数:
313
在《solr学习文档之添加分词词库》一文中,我们学习了如何对一个词组进行分词提取,这一章我们将会使用到分词词库,并介绍如何进行高亮展现
在此之前,我们先了解一下高亮的几个参数
hl:是否开启高亮组件,true为开启,false为不开启
hl.fl:需要开启的高亮字段,多个可用逗号隔开
hl.simple.pre:高亮字段前缀
hl.simple.post:高亮字段后缀
(其他的暂不介绍...
分类:
其他好文 时间:
2015-08-06 09:31:23
阅读次数:
132