最近学习主题模型pLSA、LDA,就想拿来试试中文。首先就是找文本进行切词、去停用词等预处理,这里我找了开源工具IKAnalyzer2012,下载地址:(:(注意:这里尽量下载最新版本,我这里用的IKAnalyzer2012.zip 这本版本后来测试时发现bug,这里建议IKAnalyzer2012 ...
分类:
其他好文 时间:
2019-04-15 18:10:26
阅读次数:
278
上一篇文章讲解在win系统中如何安装solr并创建一个名为test_core的Core,接下为text_core配置Ikanalyzer 分词器 1、打开text_core的instanceDir目录,并进入conf文件夹: 2、修改managed-schema文件,在里边添加如下配置: 3、添加I ...
分类:
其他好文 时间:
2019-02-11 01:03:51
阅读次数:
208
一、前提 IKAnalyzer分词器常应用于大数据开发的数据准备阶段,它能对任意长的文字进行关键字提取、文字重组、数据清洗等二次处理,并将处理好的关键数据通过某种分割符重新拼接起来,形成一个可用于进行机器学习的数据集。 二、准备阶段 使用eclipse创建一个Maven工程,通过配置pom.xml文 ...
分类:
编程语言 时间:
2019-02-03 22:10:17
阅读次数:
464
docker-compose.yml 进入容器添加core solr@eaed99eb2ede:/opt/solr/server/solr/ik_core$ ls conf core.properties data 访问solr admin 分词 Solr 对英文提供分词支持 可以看到对于中文就只能 ...
分类:
其他好文 时间:
2018-12-26 20:15:13
阅读次数:
391
1.问题 现在项目中用的是ES5.6.3的版本,在解决Field注解没有加载mapping的问题后又发现IK分词好像不理想。 后来查看5.5.0 IKAnalyzer.cfg.xml的配置发现 这里Ik是默认帮我们配置了分词的文件,这些文件是IK已经分过的词。 然后再查看5.6.3IK的配置文件 5 ...
分类:
其他好文 时间:
2018-10-22 20:28:34
阅读次数:
239
solr的域要先定义后使用, 哪些数据需要导入? 分词器 1 分词器jar包复制 , cp IK\ Analyzer\ 2012FF_hf1/IKAnalyzer2012FF_u1.jar 中文分词器配置文件和字典 cp ext_stopword.dic IKAnalyzer.cfg.xml myd ...
分类:
其他好文 时间:
2018-09-30 14:42:43
阅读次数:
169
1 public class WordCount { 2 static Directory directory; 3 // 创建分词器 4 static Analyzer analyzer = new IKAnalyzer(); 5 static IndexWriterConfig config =... ...
分类:
编程语言 时间:
2018-09-24 20:03:17
阅读次数:
237
大家肯定遇到过想在pom文件中加入自己开发的依赖包,这些包肯定是不是在Maven仓库(http://repo1.maven.org/maven2/)的。那我们怎么将那些不存在Maven仓库中的包加入到本地的Maven库中呢?很简单。这里以IKAnalyzer.jar包为例进行讲解。 第一步:将IKA ...
分类:
编程语言 时间:
2018-08-27 11:28:51
阅读次数:
184
一)新建maven工程 1.1)项目结构如下: 1.2)IKAnalyzer.cfg.xml内容如下: 1.3)在pom文件中添加如下jar 三)运行结果如下: 可在extend.dic 与 stopword.dic 之间进行调整 分词 ...
分类:
其他好文 时间:
2018-08-20 13:42:54
阅读次数:
152
solr IK Analyzer 2012FF_hf1: IKAnalyzer 详细介绍 IK Analyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的, ...
分类:
其他好文 时间:
2018-08-07 22:00:12
阅读次数:
194