码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
用到的专业词汇
卷积神经网络、nlp(Natural Language Processing 分词这块)、数据挖掘、机器学习、deeplearning、文本挖掘、人工智能、livsvm、word2vecword2vec:是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空...
分类:其他好文   时间:2015-10-19 16:48:46    阅读次数:195
Lucene基础(三)-- 中文分词及高亮显示
Lucene分词器及高亮分词器在lucene中我们按照分词方式把文档进行索引,不同的分词器索引的效果不太一样,之前的例子使用的都是标准分词器,对于英文的效果很好,但是中文分词效果就不怎么样,他会按照汉字的字直接分词,没有词语的概念。使用分词的地方只需要把Analyzer实例化成我们第三方的分词器即可...
分类:Web程序   时间:2015-10-19 01:54:10    阅读次数:215
mac环境下Rwordseg和rJava的安装
首先在安装Rwordseg之前必须先安装rJava:install.packages("rJava")试开URL’http://cran.rstudio.com/bin/macosx/mavericks/contrib/3.1/rJava_0.9-7.tgz‘Contenttype‘application/x-gzip‘length600926bytes(586Kb)打开了URL================================================..
分类:编程语言   时间:2015-09-30 01:10:45    阅读次数:1118
统计分词
#!usr/bin/python#coding=utf-8import urllib2import sys, time, reimport syssys.path.append("../")import jiebajieba.load_userdict("userdict.txt")import j...
分类:其他好文   时间:2015-09-27 21:20:16    阅读次数:222
形似赋值语句的参数
我们知道,在 Bash 中,当变量出现在一个赋值语句的右侧时,变量只会展开,不会分词,即便变量两边没有引号:$foo="1 2"$bar=$foo # 不会被拆分成 bar=1 和 2 两个词$echo "$bar"1 2但是,当一个形似赋值语句的词,作为...
分类:其他好文   时间:2015-09-25 07:22:47    阅读次数:182
Perl 调用R分词进行文本数据分析
最近有一个文本分析的需求,因分析系统用的是Perl,而Perl下优秀的中文文本分析包又少,所以调用R处理文本数据。为什么不用Python尽管Python拥有完备的NLP开源包支持,但是理由也很简单——因为Python目前接触不多,不敢班门弄斧,Python以后再说。目前,也只是需要的是一个快速原型,...
分类:其他好文   时间:2015-09-20 10:33:22    阅读次数:250
Elasticsearch搜索API使用一:创建索引并指定索引类型的mapping
ES默认是动态创建索引和索引类型的mapping的。这就相当于无需定义Solr中的Schema,无需指定各个字段的索引规则就可以索引文件,很方便。但有时方便就代表着不灵活。比如,ES默认一个字段是要做分词的,但我们有时...
分类:移动开发   时间:2015-09-18 23:33:04    阅读次数:780
solr 搜索 的 完全匹配方法
最近是用 solr 做搜索引擎,但是由于搜索特殊性,不需要分词后的检索结果,比如 搜 “汪翰翔” 会出来包含汪,翰,翔三中词的结果,但是需求只需要 完全匹配 “汪翰翔” 的结果, 其方法是 在 将关键字 用 双引号...
分类:其他好文   时间:2015-09-18 12:19:36    阅读次数:181
IK 用java 代码实现分词
需要导入IK 对应的jar 包 IKAnalyzer2012.jar lucene-core-4.10.jarpublic static void main(String[] args) throws IOException { // String text="基于java语言开发的...
分类:编程语言   时间:2015-09-17 19:05:21    阅读次数:175
Elasticsearch安装中文分词插件ik
Elasticsearch默认提供的分词器,会把每个汉字分开,而不是我们想要的根据关键词来分词。例如: curl?-XPOST??"http://localhost:9200/userinfo/_analyze?analyzer=standard&pretty=true&text=我是中国人" 我们...
分类:其他好文   时间:2015-09-16 12:54:45    阅读次数:227
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!