码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
平衡的三叉树
去年3月份,写了一个平衡的三叉树算法包,还写了一个基于逆向最大匹配算法的中文分词算法包。现在,将平衡的三叉树算法包上传。首先看一下包结构: 1.chinese.utility.cfg代码: package chinese.utility.cfg;/** * 获得主词典、量词词典以及扩展词典和扩展停词 ...
分类:其他好文   时间:2017-02-04 22:09:42    阅读次数:328
R文本挖掘之jiebaR包
library(jiebaRD)library(jiebaR) ##调入分词的库cutter <- worker()mydata =read.csv(file.choose(),fileEncoding = 'UTF-8',stringsAsFactors = FALSE,header=FALSE) ...
分类:其他好文   时间:2017-01-24 14:44:56    阅读次数:329
悟空分词的搜索和排序源码分析之——索引
转自:http://blog.codeg.cn/2016/02/02/wukong-source-code-reading/ 索引过程分析 下面我们来分析索引过程。 这里需要注意的是,docId参数需要调用者从外部传入,而不是在内部自己创建,这给搜索引擎的实现者更大的自由。 将文档交给分词器处理,然 ...
分类:编程语言   时间:2017-01-22 21:26:19    阅读次数:332
Python自然语言处理学习——jieba分词
jieba——“结巴”中文分词是sunjunyi开发的一款Python中文分词组件,可以在Github上查看jieba项目。 要使用jieba中文分词,首先需要安装jieba中文分词,作者给出了如下的安装方法: 1.全自动安装:easy_install jieba 或者 pip install ji ...
分类:编程语言   时间:2017-01-19 04:10:29    阅读次数:349
转]python 结巴分词(jieba)学习
原文 http://www.gowhich.com/blog/147 主题 中文分词 Python 源码下载的地址:https://github.com/fxsjy/jieba 演示地址:http://jiebademo.ap01.aws.af.cm/ 特点 1,支持三种分词模式: a,精确模式,试 ...
分类:编程语言   时间:2017-01-12 12:58:34    阅读次数:248
Solr搜索技术
Solr搜索技术 今日大纲 回顾上一天的内容: 倒排索引 lucene和solr的关系 lucene api的使用 CRUD 文档、字段、目录对象(类)、索引写入器类、索引写入器配置类、IK分词器 查询解析器、查询对象(用户要查询的内容)、索引搜索器(索引库的物理位置)、排名文档集合(包含得分文档数... ...
分类:其他好文   时间:2017-01-10 23:29:51    阅读次数:423
Elasticsearch笔记(一)—Elasticsearch安装配置
原文链接:https://my.oschina.net/jhao104/blog/644909 摘要: ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apa ...
分类:其他好文   时间:2017-01-09 12:29:54    阅读次数:281
sphinx 源码阅读之分词,压缩索引,倒排——单词对应的文档ID列表本质和lucene无异 也是外部排序再压缩 解压的时候需要全部扫描doc_ids列表偏移量相加获得最终的文档ID
转自:http://github.tiankonguse.com/blog/2014/12/03/sphinx-token-inverted-sort.html 外部排序 现在我们的背景是有16个已经排序的数据存在磁盘上。由于数据量很大,我们不能一次性全部读进来。 我们的目标是依次挑出最小的hit, ...
分类:编程语言   时间:2017-01-04 18:35:52    阅读次数:274
【整理】Linux下中文检索引擎coreseek4安装,以及PHP使用sphinx的三种方式(sphinxapi,sphinx的php扩展,SphinxSe作为mysql存储引擎)
一,软件准备 coreseek4.1 (包含coreseek测试版和mmseg最新版本,以及测试数据包【内置中文分词与搜索、单字切分、mysql数据源、python数据源、RT实时索引等测试配置】) Mysql源码包 (必须选择与你已安装mysql的版本一致) 为了避免安装中出现依赖包缺失,你需要打 ...
分类:数据库   时间:2017-01-03 22:37:21    阅读次数:508
编译安装mmseg提示cannot find input file: src/Makefile.in错误
今天安装中文词检索功能模块 coreseek,其中一个分词模块 mmseg ,编译安装到最后,出现annot find input file: src/Makefile.in aclocal //是一个perl 脚本程序,它的定义是:“aclocal - create aclocal.m4 by s ...
分类:其他好文   时间:2017-01-03 22:16:05    阅读次数:269
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!