搜索关键字：分词，搜索到2158个结果！码迷,mamicode.com！

网络挖掘技术——text mining

一、中文分词：分词就是利用计算机识别出文本中词汇的过程。 1.典型应用：汉字处理：拼音输入法、手写识别、简繁转换；信息检索：Google 、Baidu ；内容分析：机器翻译、广告推荐、内容监控；语音处理：语音识别、语音合成。 2.分词难点：歧义、新词等。 3.分词技术：机械分词（查词典FMM/...

分类：其他好文时间：2014-06-07 06:04:35 阅读次数：511

Hadoop的改进实验（中文分词词频统计及英文词频统计）博文目录结构

声明： 1）本文由我bitpeach原创撰写，转载时请注明出处，侵权必究。2）本小实验工作环境为Windows系统下的百度云（联网），和Ubuntu系统的hadoop1-2-1（自己提前配好）。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3）本文由于过长，无法一次性上传。下面是五个部分....

分类：其他好文时间：2014-06-07 02:55:09 阅读次数：178

Hadoop的改进实验（中文分词词频统计及英文词频统计）（3/4）

声明： 1）本文由我bitpeach原创撰写，转载时请注明出处，侵权必究。2）本小实验工作环境为Windows系统下的百度云（联网），和Ubuntu系统的hadoop1-2-1（自己提前配好）。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3）本文由于过长，无法一次性上传。其相邻相关的博....

分类：其他好文时间：2014-05-30 13:25:19 阅读次数：400

Solr调研总结(转)

Solr调研总结开发类型全文检索相关开发Solr版本4.2文件内容本文介绍solr的功能使用及相关注意事项;主要包括以下内容:环境搭建及调试、两个核心配置文件介绍、中文分词器配置、维护索引、查询索引,高亮显示、拼写检查、搜索建议、分组统计、自动聚类、相似匹配、拼音检索等功能的使用方法。在代码文本框中...

分类：其他好文时间：2014-05-26 22:22:05 阅读次数：886

Coreseek常见问题1

总结一下我遇到的问题： 1.设置最小分词长度分词被搜索名字为：andy 这时搜索andy正常，但是搜索a就搜不到。解决办法，在索引配置文件中的index中添加 min_infix_len = 1 2.调用API返回记录总是只有20条因为coreseek它默认返回的result里面，function SetLimits ( $offset, $limit, $max_...

分类：其他好文时间：2014-05-26 05:32:58 阅读次数：266

基于lucene.net 和ICTCLAS2014的站内搜索的实现1

Lucene.net是一个搜索引擎的框架，它自身并不能实现搜索，需要我们自己在其中实现索引的建立，索引的查找。所有这些都是根据它自身提供的API来实现。Lucene.net本身是基于java的，但是经过翻译成.ne版本的，可以在ASP.net中使用这个来实现站内搜索。要实现基于汉语的搜索引擎，首先的要实现汉语的分词。目前网上大部分都是利用已经有的盘古分词来实现的分词系统，但是...

分类：Web程序时间：2014-05-25 21:40:26 阅读次数：512

基于lucene.net 和ICTCLAS2014的站内搜索的实现2

分词系统建立完毕，这是基础也是核心，后面我们建立索引要用到分词系统。下面依次讲解索引的建立，索引的查找。分词系统建立完毕，这是基础也是核心，后面我们建立索引要用到分词系统。下面依次讲解索引的建立，索引的查找。索引的建立采用的是倒排序，原理就是遍历所有的文本，对其进行分词，然后把分的词汇建立索引表。形式类似如下：词汇出现词汇的篇章1，篇章2，...

分类：Web程序时间：2014-05-25 20:58:39 阅读次数：413

【搜索引擎基础知识1】搜索引擎基本架构

（一）搜索引擎的开发一般可分为以下三大部分 1、数据采集层：一般使用爬虫获取互联网的数据，重要的开源项目有Heritrxi 2、数据分析处理层：将从互联网上获取到的数据进行提取归类、分词、语义分析得出索引得内容，等待用户查询使用，重要的开源项目有Lucene 3、视图层：也用户的交互界面，如一个网站的首页其基本架构可参考下图：...

分类：其他好文时间：2014-05-24 22:20:16 阅读次数：349

当前几个主要的Lucene中文分词器的比较

1.基本介绍：paoding：Lucene中文分词“庖丁解牛” PaodingAnalysisimdict ：imdict智能词典所采用的智能中文分词程序mmseg4j：用 Chih-Hao Tsai 的 MMSeg 算法实现的中文分词器ik ：采用了特有的“正向迭代最细粒度切分算法“，多子处理...

分类：其他好文时间：2014-05-24 11:47:16 阅读次数：358

中文分词器性能比较

本篇是本人在Solr的基础上，配置了中文分词器，并对其进行的性能测试总结，具体包括使用mmseg4j、IKAnalyzer、Ansj，分别从创建索引效果、创建索引性能、数据搜索效率等方面进行衡量。具体的Solr使用方法假设读者已有了基础，关于Solr的性能指标见前期的Solr博文。

分类：其他好文时间：2014-05-24 09:33:03 阅读次数：371

共2158条上一页 1 ... 212 213 214 215 216 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)