之前版本的long需要改为plong,配置文件为managed-schema。 修改配置文件后,需要重新启动tomcat。 ...
分类:
其他好文 时间:
2019-02-20 10:00:45
阅读次数:
197
简单的关键词提取的代码 文章内容关键词的提取分为三大步: (1) 分词 (2) 去停用词 (3) 关键词提取 分词方法有很多,我这里就选择常用的结巴jieba分词;去停用词,我用了一个停用词表。具体代码如下: ...
分类:
编程语言 时间:
2019-02-17 20:50:29
阅读次数:
239
| Simple Form(原型) | Past(过去式) | Past Participle(过去分词) | 中文释义 | | | | | | | abide | abode,abided | abode,abided | 持续;忍受;停留 | | alight | alighted,alit | ...
分类:
其他好文 时间:
2019-02-17 16:43:47
阅读次数:
210
Spark中文分词一、导入需要的分词包importorg.ansj.domain.Termimportorg.ansj.recognition.impl.StopRecognitionimportorg.ansj.splitWord.analysis.ToAnalysis二、停用词过滤deffilter(stopWords:Array[String]):StopRecognition={//add
分类:
其他好文 时间:
2019-02-12 18:47:20
阅读次数:
254
SparkLDA实例一、准备数据数据格式为:documents:RDD[(Long,Vector)],其中:Long为文章ID,Vector为文章分词后的词向量;通过分词以及数据格式的转换,转换成RDD[(Long,Vector)]即可。二、建立模型importorg.apache.spark.mllib.clustering._valldaOptimizer=newOnlineLDAOptimi
分类:
其他好文 时间:
2019-02-12 15:56:42
阅读次数:
344
之前在其他博客文章有提到如何对英文进行分词,也说后续会增加解释我们中文是如何分词的,我们都知道英文或者其他国家或者地区一些语言文字是词与词之间有空格(分隔符),这样子分词处理起来其实是要相对容易很多,但是像中文处理起来就没有那么容易,因为中文字与字之间,词与词之间都是紧密连接在一起的,所以第一件事需 ...
分类:
其他好文 时间:
2019-02-12 00:04:09
阅读次数:
203
分词(Segment):中英文都存在分词的问题,不过相对来说,英文单词与单词之间本来就有空格进行分割,所以处理起来相对方便。但是中文书写是没有分隔符的,所以分词的问题就比较突出。分词常用的手段可以是基于字典的最长串匹配,据说可以解决85%的问题,但是歧义分词很难。另外就是当下主流的统计机器学习的办法 ...
分类:
其他好文 时间:
2019-02-11 12:56:10
阅读次数:
175
前面我们将solr安装并创建了core同时也配置可IK分词器,接下来我们通过配置连接Mysql数据库并把数据导入到solr(使用ik分词器)。 1、配置managed-schema文件 Request Handlers如下: 2、创建data-config.xml文件并配置: data-config ...
分类:
数据库 时间:
2019-02-11 10:56:44
阅读次数:
370
上一篇文章讲解在win系统中如何安装solr并创建一个名为test_core的Core,接下为text_core配置Ikanalyzer 分词器 1、打开text_core的instanceDir目录,并进入conf文件夹: 2、修改managed-schema文件,在里边添加如下配置: 3、添加I ...
分类:
其他好文 时间:
2019-02-11 01:03:51
阅读次数:
208
本片博文主要记录Python中正则表达式re模块和中文分词模块jieba ...
分类:
其他好文 时间:
2019-02-09 17:58:35
阅读次数:
161