搜索关键字：分词，搜索到2158个结果！码迷,mamicode.com！

之前版本的long需要改为plong，配置文件为managed-schema。修改配置文件后，需要重新启动tomcat。 ...

分类：其他好文时间：2019-02-20 10:00:45 阅读次数：197

简单的关键词提取的代码文章内容关键词的提取分为三大步：（1）分词（2）去停用词（3）关键词提取分词方法有很多，我这里就选择常用的结巴jieba分词；去停用词，我用了一个停用词表。具体代码如下： ...

分类：编程语言时间：2019-02-17 20:50:29 阅读次数：239

分类：其他好文时间：2019-02-17 16:43:47 阅读次数：210

Spark 中文分词

Spark中文分词一、导入需要的分词包importorg.ansj.domain.Termimportorg.ansj.recognition.impl.StopRecognitionimportorg.ansj.splitWord.analysis.ToAnalysis二、停用词过滤deffilter(stopWords:Array[String]):StopRecognition={//add

分类：其他好文时间：2019-02-12 18:47:20 阅读次数：254

Spark LDA 实例

SparkLDA实例一、准备数据数据格式为：documents:RDD[(Long,Vector)]，其中：Long为文章ID，Vector为文章分词后的词向量；通过分词以及数据格式的转换，转换成RDD[(Long,Vector)]即可。二、建立模型importorg.apache.spark.mllib.clustering._valldaOptimizer=newOnlineLDAOptimi

分类：其他好文时间：2019-02-12 15:56:42 阅读次数：344

详解中文是如何进行分词 - NLP学习（中文篇）

之前在其他博客文章有提到如何对英文进行分词，也说后续会增加解释我们中文是如何分词的，我们都知道英文或者其他国家或者地区一些语言文字是词与词之间有空格（分隔符），这样子分词处理起来其实是要相对容易很多，但是像中文处理起来就没有那么容易，因为中文字与字之间，词与词之间都是紧密连接在一起的，所以第一件事需 ...

分类：其他好文时间：2019-02-12 00:04:09 阅读次数：203

NLP常用术语解析

分词（Segment）：中英文都存在分词的问题，不过相对来说，英文单词与单词之间本来就有空格进行分割，所以处理起来相对方便。但是中文书写是没有分隔符的，所以分词的问题就比较突出。分词常用的手段可以是基于字典的最长串匹配，据说可以解决85%的问题，但是歧义分词很难。另外就是当下主流的统计机器学习的办法 ...

分类：其他好文时间：2019-02-11 12:56:10 阅读次数：175

Solr 配置连接数据库

前面我们将solr安装并创建了core同时也配置可IK分词器，接下来我们通过配置连接Mysql数据库并把数据导入到solr（使用ik分词器）。 1、配置managed-schema文件 Request Handlers如下： 2、创建data-config.xml文件并配置： data-config ...

分类：数据库时间：2019-02-11 10:56:44 阅读次数：370

Solr配置Ikanalyzer分词器

上一篇文章讲解在win系统中如何安装solr并创建一个名为test_core的Core，接下为text_core配置Ikanalyzer 分词器 1、打开text_core的instanceDir目录，并进入conf文件夹： 2、修改managed-schema文件，在里边添加如下配置： 3、添加I ...

分类：其他好文时间：2019-02-11 01:03:51 阅读次数：208

#19 re&jieba模块

本片博文主要记录Python中正则表达式re模块和中文分词模块jieba ...

分类：其他好文时间：2019-02-09 17:58:35 阅读次数：161

共2158条上一页 1 ... 48 49 50 51 52 ... 216 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)