卷积神经网络、nlp(Natural Language Processing 分词这块)、数据挖掘、机器学习、deeplearning、文本挖掘、人工智能、livsvm、word2vecword2vec:是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空...
分类:
其他好文 时间:
2015-10-19 16:48:46
阅读次数:
195
Lucene分词器及高亮分词器在lucene中我们按照分词方式把文档进行索引,不同的分词器索引的效果不太一样,之前的例子使用的都是标准分词器,对于英文的效果很好,但是中文分词效果就不怎么样,他会按照汉字的字直接分词,没有词语的概念。使用分词的地方只需要把Analyzer实例化成我们第三方的分词器即可...
分类:
Web程序 时间:
2015-10-19 01:54:10
阅读次数:
215
首先在安装Rwordseg之前必须先安装rJava:install.packages("rJava")试开URL’http://cran.rstudio.com/bin/macosx/mavericks/contrib/3.1/rJava_0.9-7.tgz‘Contenttype‘application/x-gzip‘length600926bytes(586Kb)打开了URL================================================..
分类:
编程语言 时间:
2015-09-30 01:10:45
阅读次数:
1118
#!usr/bin/python#coding=utf-8import urllib2import sys, time, reimport syssys.path.append("../")import jiebajieba.load_userdict("userdict.txt")import j...
分类:
其他好文 时间:
2015-09-27 21:20:16
阅读次数:
222
我们知道,在 Bash 中,当变量出现在一个赋值语句的右侧时,变量只会展开,不会分词,即便变量两边没有引号:$foo="1 2"$bar=$foo # 不会被拆分成 bar=1 和 2 两个词$echo "$bar"1 2但是,当一个形似赋值语句的词,作为...
分类:
其他好文 时间:
2015-09-25 07:22:47
阅读次数:
182
最近有一个文本分析的需求,因分析系统用的是Perl,而Perl下优秀的中文文本分析包又少,所以调用R处理文本数据。为什么不用Python尽管Python拥有完备的NLP开源包支持,但是理由也很简单——因为Python目前接触不多,不敢班门弄斧,Python以后再说。目前,也只是需要的是一个快速原型,...
分类:
其他好文 时间:
2015-09-20 10:33:22
阅读次数:
250
ES默认是动态创建索引和索引类型的mapping的。这就相当于无需定义Solr中的Schema,无需指定各个字段的索引规则就可以索引文件,很方便。但有时方便就代表着不灵活。比如,ES默认一个字段是要做分词的,但我们有时...
分类:
移动开发 时间:
2015-09-18 23:33:04
阅读次数:
780
最近是用 solr 做搜索引擎,但是由于搜索特殊性,不需要分词后的检索结果,比如 搜 “汪翰翔” 会出来包含汪,翰,翔三中词的结果,但是需求只需要 完全匹配 “汪翰翔” 的结果, 其方法是 在 将关键字 用 双引号...
分类:
其他好文 时间:
2015-09-18 12:19:36
阅读次数:
181
需要导入IK 对应的jar 包 IKAnalyzer2012.jar lucene-core-4.10.jarpublic static void main(String[] args) throws IOException { // String text="基于java语言开发的...
分类:
编程语言 时间:
2015-09-17 19:05:21
阅读次数:
175
Elasticsearch默认提供的分词器,会把每个汉字分开,而不是我们想要的根据关键词来分词。例如: curl?-XPOST??"http://localhost:9200/userinfo/_analyze?analyzer=standard&pretty=true&text=我是中国人" 我们...
分类:
其他好文 时间:
2015-09-16 12:54:45
阅读次数:
227