码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
Elasticsearch5.1.1+ik分词器安装小记
一、安装elasticsearch 1.首先需要安装好java,并配置好环境变量,详细教程请看 http://tecadmin.net/install-java-8-on-centos-rhel-and-fedora/# 2.安装ElasticSearch,下载rpm包: wget https:// ...
分类:其他好文   时间:2016-12-29 14:31:13    阅读次数:1129
sphinx和elasticseach使用感受
公司项目需要,要将mysql数据库中的数据快速检索并分词。 开始使用的是sphinx,这个搜索引擎安装,配置,使用,都比较简单,无需安装其他插件,相对来说功能比较单一。 对于新增记录,我的处理方法是添加增量索引,定期合并到主索引,这导致索引体积越来越大。由于sphinx在运行时是将这些索引放在内存里 ...
分类:其他好文   时间:2016-12-29 14:26:23    阅读次数:396
Elasticsearch 5 Ik+pinyin分词配置详解
一、拼音分词的应用拼音分词在日常生活中其实很常见,也许你每天都在用。打开淘宝看一看吧,输入拼音”zhonghua”,下面会有包含”zhonghua”对应的中文”中华”的商品的提示:拼音分词是根据输入的...
分类:其他好文   时间:2016-12-28 19:08:01    阅读次数:307
Elasticsearch 5.1.1搜索高亮及Java API实现
5.1.1的搜索高亮和2.X有所变化,但是变化不大。下面分四步来介绍:创建索引(设置mapping/IK分词)、索引文档、REST API的搜索高亮、JAVA API的搜索高亮。 注:从这篇博客开始...
分类:编程语言   时间:2016-12-28 19:07:39    阅读次数:2027
倒排索引
转自:http://blog.csdn.net/hguisu/article/details/7962350 1.单词——文档矩阵 单词-文档矩阵是表达两者之间所具有的一种包含关系的概念模型,图3-1展示了其含义。图3-1的每列代表一个文档,每行代表一个单词,打对勾的位置代表包含关系。 图3-1 单 ...
分类:其他好文   时间:2016-12-28 17:59:29    阅读次数:231
用Python玩转词云
第一步:引入相关的库包: 第二部:导入分好词的西游记txt文件: 第三部:统计分词结果并去掉停用词: 第四部:统计词频: 第五步:显示词云 第六步:自定义词云形状 ...
分类:编程语言   时间:2016-12-27 13:25:07    阅读次数:933
Lucene5.x 中文 同义词
查询好好多资料,英文同义词好好的,中文就不行,多谢网友支持,拼接了好多代码,然后修改了一些,不足之处,多谢指正。 直接上代码吧,在代码中了解怎么分词的最好 1,创建分词引擎 2,同义词 3,TokenFilter 4,Analyzer 5,测试 运行结果: ...
分类:Web程序   时间:2016-12-22 19:01:27    阅读次数:218
44、NLP的其他分词功能测试
1、 命名实体识别功能测试 结果如下所示 2、句法分析功能测试 结果: 4、语义角色标注功能测试 结果如下图所示: 下面插入一段原网站的分词示例 分词依据 http://www.ltp-cloud.com/intro/#pos_how 具体大家可以来前边这个网址中查看分类依据,感觉哈工大讲得很牛呀! ...
分类:其他好文   时间:2016-12-19 07:54:13    阅读次数:254
43、哈工大NLP自然语言处理,LTP4j的测试+还是测试
1、首先需要构建自然语言处理的LTP的框架 (1)需要下载LTP的源码包即c++程序(https://github.com/HIT-SCIR/ltp)下载完解压缩之后的文件为ltp-master (2)需要下载LTP4j的封装包(https://github.com/HIT-SCIR/ltp4j), ...
分类:编程语言   时间:2016-12-19 00:10:19    阅读次数:701
Linux下安装使用Solr
Linux下安装使用Solr 1、首先下载Solr、mmseg4j分词包、tomcat并解压,这用google、百度都可以搜索得到下载地址。 2、因为要使用到中文分词,所以要设置编码,进入tomcat安装目录,使用vi修改confserver.xml配置 增加 URIEncoding="UTF-8" ...
分类:系统相关   时间:2016-12-16 16:52:39    阅读次数:249
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!