添加solr仓库 1. 在solrhome下创建collection1目录[root@localhost solrhome]# mkdir collection12. 复制server/solr/configsets/_default/conf/ 到 solr-home/collection1 /下 ...
分类:
其他好文 时间:
2018-06-20 14:39:08
阅读次数:
162
一、程序说明 本程序流程是读取红楼梦txt文件 使用jieba进行分词 借助Counter读取各人名出现次数并排序 使用matplotlib将结果可视化 这里的统计除了将“熙凤”出现的次数合并到“凤姐”中外并没有其他处理,但应该也大体能反映人物提及次数情况 二、执行结果展示 条形图: 饼状图: 三、 ...
分类:
编程语言 时间:
2018-06-19 21:24:24
阅读次数:
810
一、分词器 1. 认识分词器 1.1 Analyzer 分析器 在ES中一个Analyzer 由下面三种组件组合而成: character filter :字符过滤器,对文本进行字符过滤处理,如处理文本中的html标签字符。处理完后再交给tokenizer进行分词。一个analyzer中可包含0个或 ...
分类:
其他好文 时间:
2018-06-18 19:23:03
阅读次数:
567
1. 全文检索的通用步骤: 1、建库步骤: a 分词 b 倒排索引 : 关键词和记录Id的对应关系,1对多。 2、查询步骤: a 分词 b 查索引 c 取交集或并集 2. 产品使用全文检索的一种场景 如上图, 由数据库或者应用软件生成数据,通过logstash导入elasticSearch系统。 K ...
分类:
其他好文 时间:
2018-06-15 23:31:21
阅读次数:
292
一、下载:1、官网下载Elasticsearch:https://www.elastic.co/downloads/elasticsearch我使用的版本是5.6.4,原来使用5.5.3发现此版本shrink时有bug,在5.6.4中解决2、下载IK分词插件:https://github.com/medcl/elasticsearch-analysis-ik/releases二、安装:1、解压El
分类:
其他好文 时间:
2018-06-15 13:12:13
阅读次数:
185
在之前的博客中,写了一篇用laravel5.5和vue写的个人博客。GitHub地址为:https://github.com/Johnson19900110/phpJourney。最近有空,就想着把Elasticsearch集成了进来。 因为博主比较懒,在博客园写博客,所以个人博客就没有同步了,因此 ...
分类:
其他好文 时间:
2018-06-14 23:14:43
阅读次数:
978
最近尝试了一下中文的情感分析。 主要使用了Glove和LSTM。语料数据集采用的是中文酒店评价语料 1、首先是训练Glove,获得词向量(这里是用的300d)。这一步使用的是jieba分词和中文维基。 2、将中文酒店评价语料进行清洗,并分词。分词后转化为词向量的表示形式。 3、使用LSTM网络进行训 ...
分类:
其他好文 时间:
2018-06-14 18:28:20
阅读次数:
889
相似的判断下面两个句子相同吗?怎么判断?思路呢?句子A:这只皮靴号码大了。那只号码合适句子B:这只皮靴号码不小,那只更合适1)分词句子A:这只/皮靴/号码/大了。那只/号码/合适。句子B:这只/皮靴/号码/不/小,那只/更/合适。列出所有的词:这只,皮靴,号码,大了。那只,合适,不,小,很2)计算词频(词出现的次数)句子A:这只1,皮靴1,号码2,大了1。那只1,合适1,不0,小0,更0句子B:这
分类:
其他好文 时间:
2018-06-14 14:50:54
阅读次数:
124
bleve 顶级bleve 为所有较低级别的软件包提供易于使用的包装。 analysis 包含与分析文本相关的所有代码. 通常这个包是独立于其他的。不应该依赖于索引或搜索包。 analyzer 包含预制分词器以供一般用途使用。 char 包含CharFilter接口的实现。 datetime 包含D ...
分类:
其他好文 时间:
2018-06-14 11:45:52
阅读次数:
261
Lucene API Document Document:文档对象,是一条原始数据 文档编号 | 文档内容 | 1 | 谷歌地图之父跳槽FaceBook 2 | 谷歌地图之父加盟FaceBook 3 | 谷歌地图创始人拉斯离开谷歌加盟Facebook 4 | 谷歌地图之父跳槽Facebook与Wav ...
分类:
Web程序 时间:
2018-06-13 21:45:12
阅读次数:
258