搜索关键字：分词，搜索到2158个结果！码迷,mamicode.com！

用到的专业词汇

卷积神经网络、nlp(Natural Language Processing 分词这块)、数据挖掘、机器学习、deeplearning、文本挖掘、人工智能、livsvm、word2vecword2vec:是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算，计算出向量空...

分类：其他好文时间：2015-10-19 16:48:46 阅读次数：195

Lucene基础（三）-- 中文分词及高亮显示

Lucene分词器及高亮分词器在lucene中我们按照分词方式把文档进行索引，不同的分词器索引的效果不太一样，之前的例子使用的都是标准分词器，对于英文的效果很好，但是中文分词效果就不怎么样，他会按照汉字的字直接分词，没有词语的概念。使用分词的地方只需要把Analyzer实例化成我们第三方的分词器即可...

分类：Web程序时间：2015-10-19 01:54:10 阅读次数：215

mac环境下Rwordseg和rJava的安装

首先在安装Rwordseg之前必须先安装rJava:install.packages("rJava")试开URL’http://cran.rstudio.com/bin/macosx/mavericks/contrib/3.1/rJava_0.9-7.tgz‘Contenttype‘application/x-gzip‘length600926bytes(586Kb)打开了URL================================================..

分类：编程语言时间：2015-09-30 01:10:45 阅读次数：1118

统计分词

#!usr/bin/python#coding=utf-8import urllib2import sys, time, reimport syssys.path.append("../")import jiebajieba.load_userdict("userdict.txt")import j...

分类：其他好文时间：2015-09-27 21:20:16 阅读次数：222

形似赋值语句的参数

我们知道，在 Bash 中，当变量出现在一个赋值语句的右侧时，变量只会展开，不会分词，即便变量两边没有引号：$foo="1 2"$bar=$foo # 不会被拆分成 bar=1 和 2 两个词$echo "$bar"1 2但是，当一个形似赋值语句的词，作为...

分类：其他好文时间：2015-09-25 07:22:47 阅读次数：182

Perl 调用R分词进行文本数据分析

最近有一个文本分析的需求，因分析系统用的是Perl，而Perl下优秀的中文文本分析包又少，所以调用R处理文本数据。为什么不用Python尽管Python拥有完备的NLP开源包支持，但是理由也很简单——因为Python目前接触不多，不敢班门弄斧，Python以后再说。目前，也只是需要的是一个快速原型，...

分类：其他好文时间：2015-09-20 10:33:22 阅读次数：250

Elasticsearch搜索API使用一：创建索引并指定索引类型的mapping

ES默认是动态创建索引和索引类型的mapping的。这就相当于无需定义Solr中的Schema，无需指定各个字段的索引规则就可以索引文件，很方便。但有时方便就代表着不灵活。比如，ES默认一个字段是要做分词的，但我们有时...

分类：移动开发时间：2015-09-18 23:33:04 阅读次数：780

solr 搜索的完全匹配方法

最近是用 solr 做搜索引擎，但是由于搜索特殊性，不需要分词后的检索结果，比如搜 “汪翰翔” 会出来包含汪，翰，翔三中词的结果，但是需求只需要完全匹配 “汪翰翔” 的结果，其方法是在将关键字用双引号...

分类：其他好文时间：2015-09-18 12:19:36 阅读次数：181

IK 用java 代码实现分词

需要导入IK 对应的jar 包 IKAnalyzer2012.jar lucene-core-4.10.jarpublic static void main(String[] args) throws IOException { // String text="基于java语言开发的...

分类：编程语言时间：2015-09-17 19:05:21 阅读次数：175

Elasticsearch安装中文分词插件ik

Elasticsearch默认提供的分词器，会把每个汉字分开，而不是我们想要的根据关键词来分词。例如： curl?-XPOST??"http://localhost:9200/userinfo/_analyze?analyzer=standard&pretty=true&text=我是中国人" 我们...

分类：其他好文时间：2015-09-16 12:54:45 阅读次数：227

共2158条上一页 1 ... 160 161 162 163 164 ... 216 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)