码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
solr 7.7.0配置中文分词器的数据类型
之前版本的long需要改为plong,配置文件为managed-schema。 修改配置文件后,需要重新启动tomcat。 ...
分类:其他好文   时间:2019-02-20 10:00:45    阅读次数:197
python实现关键词提取
简单的关键词提取的代码 文章内容关键词的提取分为三大步: (1) 分词 (2) 去停用词 (3) 关键词提取 分词方法有很多,我这里就选择常用的结巴jieba分词;去停用词,我用了一个停用词表。具体代码如下: ...
分类:编程语言   时间:2019-02-17 20:50:29    阅读次数:239
英语不规则动词表
| Simple Form(原型) | Past(过去式) | Past Participle(过去分词) | 中文释义 | | | | | | | abide | abode,abided | abode,abided | 持续;忍受;停留 | | alight | alighted,alit | ...
分类:其他好文   时间:2019-02-17 16:43:47    阅读次数:210
Spark 中文分词
Spark中文分词一、导入需要的分词包importorg.ansj.domain.Termimportorg.ansj.recognition.impl.StopRecognitionimportorg.ansj.splitWord.analysis.ToAnalysis二、停用词过滤deffilter(stopWords:Array[String]):StopRecognition={//add
分类:其他好文   时间:2019-02-12 18:47:20    阅读次数:254
Spark LDA 实例
SparkLDA实例一、准备数据数据格式为:documents:RDD[(Long,Vector)],其中:Long为文章ID,Vector为文章分词后的词向量;通过分词以及数据格式的转换,转换成RDD[(Long,Vector)]即可。二、建立模型importorg.apache.spark.mllib.clustering._valldaOptimizer=newOnlineLDAOptimi
分类:其他好文   时间:2019-02-12 15:56:42    阅读次数:344
详解中文是如何进行分词 - NLP学习(中文篇)
之前在其他博客文章有提到如何对英文进行分词,也说后续会增加解释我们中文是如何分词的,我们都知道英文或者其他国家或者地区一些语言文字是词与词之间有空格(分隔符),这样子分词处理起来其实是要相对容易很多,但是像中文处理起来就没有那么容易,因为中文字与字之间,词与词之间都是紧密连接在一起的,所以第一件事需 ...
分类:其他好文   时间:2019-02-12 00:04:09    阅读次数:203
NLP常用术语解析
分词(Segment):中英文都存在分词的问题,不过相对来说,英文单词与单词之间本来就有空格进行分割,所以处理起来相对方便。但是中文书写是没有分隔符的,所以分词的问题就比较突出。分词常用的手段可以是基于字典的最长串匹配,据说可以解决85%的问题,但是歧义分词很难。另外就是当下主流的统计机器学习的办法 ...
分类:其他好文   时间:2019-02-11 12:56:10    阅读次数:175
Solr 配置连接数据库
前面我们将solr安装并创建了core同时也配置可IK分词器,接下来我们通过配置连接Mysql数据库并把数据导入到solr(使用ik分词器)。 1、配置managed-schema文件 Request Handlers如下: 2、创建data-config.xml文件并配置: data-config ...
分类:数据库   时间:2019-02-11 10:56:44    阅读次数:370
Solr配置Ikanalyzer分词器
上一篇文章讲解在win系统中如何安装solr并创建一个名为test_core的Core,接下为text_core配置Ikanalyzer 分词器 1、打开text_core的instanceDir目录,并进入conf文件夹: 2、修改managed-schema文件,在里边添加如下配置: 3、添加I ...
分类:其他好文   时间:2019-02-11 01:03:51    阅读次数:208
#19 re&jieba模块
本片博文主要记录Python中正则表达式re模块和中文分词模块jieba ...
分类:其他好文   时间:2019-02-09 17:58:35    阅读次数:161
2158条   上一页 1 ... 48 49 50 51 52 ... 216 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!