一、安装elasticsearch 1.首先需要安装好java,并配置好环境变量,详细教程请看 http://tecadmin.net/install-java-8-on-centos-rhel-and-fedora/# 2.安装ElasticSearch,下载rpm包: wget https:// ...
分类:
其他好文 时间:
2016-12-29 14:31:13
阅读次数:
1129
公司项目需要,要将mysql数据库中的数据快速检索并分词。 开始使用的是sphinx,这个搜索引擎安装,配置,使用,都比较简单,无需安装其他插件,相对来说功能比较单一。 对于新增记录,我的处理方法是添加增量索引,定期合并到主索引,这导致索引体积越来越大。由于sphinx在运行时是将这些索引放在内存里 ...
分类:
其他好文 时间:
2016-12-29 14:26:23
阅读次数:
396
一、拼音分词的应用拼音分词在日常生活中其实很常见,也许你每天都在用。打开淘宝看一看吧,输入拼音”zhonghua”,下面会有包含”zhonghua”对应的中文”中华”的商品的提示:拼音分词是根据输入的...
分类:
其他好文 时间:
2016-12-28 19:08:01
阅读次数:
307
5.1.1的搜索高亮和2.X有所变化,但是变化不大。下面分四步来介绍:创建索引(设置mapping/IK分词)、索引文档、REST API的搜索高亮、JAVA API的搜索高亮。
注:从这篇博客开始...
分类:
编程语言 时间:
2016-12-28 19:07:39
阅读次数:
2027
转自:http://blog.csdn.net/hguisu/article/details/7962350 1.单词——文档矩阵 单词-文档矩阵是表达两者之间所具有的一种包含关系的概念模型,图3-1展示了其含义。图3-1的每列代表一个文档,每行代表一个单词,打对勾的位置代表包含关系。 图3-1 单 ...
分类:
其他好文 时间:
2016-12-28 17:59:29
阅读次数:
231
第一步:引入相关的库包: 第二部:导入分好词的西游记txt文件: 第三部:统计分词结果并去掉停用词: 第四部:统计词频: 第五步:显示词云 第六步:自定义词云形状 ...
分类:
编程语言 时间:
2016-12-27 13:25:07
阅读次数:
933
查询好好多资料,英文同义词好好的,中文就不行,多谢网友支持,拼接了好多代码,然后修改了一些,不足之处,多谢指正。 直接上代码吧,在代码中了解怎么分词的最好 1,创建分词引擎 2,同义词 3,TokenFilter 4,Analyzer 5,测试 运行结果: ...
分类:
Web程序 时间:
2016-12-22 19:01:27
阅读次数:
218
1、 命名实体识别功能测试 结果如下所示 2、句法分析功能测试 结果: 4、语义角色标注功能测试 结果如下图所示: 下面插入一段原网站的分词示例 分词依据 http://www.ltp-cloud.com/intro/#pos_how 具体大家可以来前边这个网址中查看分类依据,感觉哈工大讲得很牛呀! ...
分类:
其他好文 时间:
2016-12-19 07:54:13
阅读次数:
254
1、首先需要构建自然语言处理的LTP的框架 (1)需要下载LTP的源码包即c++程序(https://github.com/HIT-SCIR/ltp)下载完解压缩之后的文件为ltp-master (2)需要下载LTP4j的封装包(https://github.com/HIT-SCIR/ltp4j), ...
分类:
编程语言 时间:
2016-12-19 00:10:19
阅读次数:
701
Linux下安装使用Solr 1、首先下载Solr、mmseg4j分词包、tomcat并解压,这用google、百度都可以搜索得到下载地址。 2、因为要使用到中文分词,所以要设置编码,进入tomcat安装目录,使用vi修改confserver.xml配置 增加 URIEncoding="UTF-8" ...
分类:
系统相关 时间:
2016-12-16 16:52:39
阅读次数:
249