搜索关键字：分词，搜索到2158个结果！码迷,mamicode.com！

编译Ansj之Solr插件

Ansj是一个比较优秀的中文分词组件，具体情况就不在本文介绍了。ansj作者在其官方代码中，提供了对lucene接口的支持。如果用在Solr下，还需要简单的扩展一下。1、基于maven管理 ansj是基于maven进行开发管理的。我们首先修改一下其pom.xml，具体如下所示： 4.0.0 ...

分类：其他好文时间：2015-05-05 16:24:03 阅读次数：162

初学Hadoop之WordCount分词统计

1、WordCount源码将源码文件WordCount.java放到Hadoop2.6.0文件夹中。import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configur....

分类：其他好文时间：2015-05-05 10:24:24 阅读次数：113

基于互联网内容的中文分词小实验

分词对于搜索引擎，输入法输入提示，语音识别等其它人机交互系统等都很有用。互联网的海量信息为分词研究提供了大量的，动态更新的原始资料库。很多互联网公司都有基于互联网内容的分词系统。并且采用HADOOP等分析大量数据。这些听上去很高大上，但是仔细想想基本原理应该是比较容易理解的，我们每个程序员也很容易可...

分类：其他好文时间：2015-05-03 13:13:17 阅读次数：237

中文分词之9577组同义词

这9577组同义词出自Java分布式中文分词组件 - word分词，这里列出50组同义词，更多同义词请看这里。一一?逐一一下子?一会儿一丝不动?纹丝不动一举成名?一鸣惊人一乾二净?六根清净一人得道?鸡犬升天 ...

分类：其他好文时间：2015-04-30 22:02:23 阅读次数：151

让盘古分词支持最新的Lucene.Net 3.0.3

好多年没升级过的Lucene.Net最近居然升级了，到了3.0.3后接口发生了很大变化，原来好多分词库都不能用了，所以上次我把MMSeg给修改了一下支持了Lucene.Net 3.0.3（参考《基于MMSeg算法的中文分词类库》）。然后我知道了.Net下还有一个盘古分词（http://panguse...

分类：Web程序时间：2015-04-30 06:23:53 阅读次数：156

使用Lucene.Net实现全文检索

目录一Lucene.Net概述二分词三索引四搜索五实践中的问题一Lucene.Net概述 Lucene.Net是一个C#开发的开源全文索引库，其源码包括“核心”与“外围”两部分。外围部分实现辅助功能，而核心部分包括：Lucene.Net.Index 提供索引管理，词组排序。Lucene.N....

分类：Web程序时间：2015-04-30 06:21:21 阅读次数：144

lucene.net 3.0.3、结合盘古分词进行搜索的小例子（分页功能）

转自：http://blog.csdn.net/pukuimin1226/article/details/17558247添加：2013-12-25更新：2013-12-26 新增分页功能。更新：2013-12-27 新增按分类查询功能，调整索引行新增记录的图片字段。最新盘古分词dll和词典管理工具...

分类：Web程序时间：2015-04-30 06:20:38 阅读次数：190

哈工大自然语言处理工具pyltp的本地安装方法

在研究中发现，哈工大的LTP在分词、实体识别等方面的效果甚至要优于中科院ICTCLAS，而且LTP还具备了目前在中文信息处理领域较为罕见的语义角色标注（SRL）功能。以前我都是直接以get方式通过LTP-Cloud去使用的，但是由于受限于网速，当语料较大时执行速度较慢。于是近期考虑在自己的机子上安装，由于个人比较喜欢用ython编程，所以就安装了官方发布的pyltp。在安装过程中遇到了不少问题，...

分类：编程语言时间：2015-04-27 20:12:51 阅读次数：303

python下结巴中文分词

jieba中文分词的使用 import jieba sentences = ["我喜欢吃土豆","土豆是个百搭的东西","我不喜欢今天雾霾的北京", 'costumer service'] # jieba.suggest_freq('雾霾', True) # jieba.suggest_freq('百搭', True) words = [list(jieba.cut(doc)) for...

分类：编程语言时间：2015-04-27 16:58:00 阅读次数：301

Solr分词搜索结果不准确

Solr的schema.xml默认配置分词后条件取 OR例如：大众1.6T系统会自动分词为【大众】【1.6T】(ps:不同分词器分词效果不同) 会搜索出包含【大众 OR 1.6T】的结果。想要让Solr搜索默认为【大众 AND 1.6T】则只需要修改solr\collection1\c.....

分类：其他好文时间：2015-04-24 00:40:55 阅读次数：221

共2158条上一页 1 ... 176 177 178 179 180 ... 216 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)