ECSHOP联想下拉框1、修改page_header.lbi模版文件,将搜索文本框修改为:ecshop" class="search-input" onfocus="if(this.value=='ecshop'){this.value='';this.style.color='#000';}" ....
分类:
其他好文 时间:
2015-05-22 00:15:03
阅读次数:
399
我们如何通过计算词的语境来获得相关词呢? 语境的定义是:在一段文本中,任意一个词的语境由它的前N个词和后N个词组成。 相关词的定义是:如果两个词的语境越相似,那么这两个词就越相似,也就越相关。 算法由两...
分类:
其他好文 时间:
2015-05-21 20:01:33
阅读次数:
170
word分词中的 org.apdplat.word.WordFrequencyStatistics 类提供了词频统计的功能 命令行脚本的调用方法如下: 将需要统计词频的文本写入文件:text.txt
chmod?+x?wfs.sh?&?wfs.sh?-textFile=text.txt?-st...
分类:
其他好文 时间:
2015-05-21 15:44:47
阅读次数:
664
word分词提供了两种文本相似度计算方式: 方式一:余弦相似度,通过计算两个向量的夹角余弦值来评估他们的相似度 实现类:org.apdplat.word.analysis.CosineTextSimilarity 用法如下: String?text1?=?"我爱学...
分类:
其他好文 时间:
2015-05-20 08:20:25
阅读次数:
109
分词的目的是将测试文本按一定的根据一定的规则进行分词处理[2];便于提取文本的特征值,为文本提供特征值对比的词组。英文词组是以单词为单位,以空格为分隔,在分词上具有巨大的便利性,相对而言中文因为自身常以词语、短语、俗语等表现形式,因此中文分词具有很大的不确定性。我国经过多年的发展已经取得巨大的成就,...
分类:
其他好文 时间:
2015-05-19 20:45:56
阅读次数:
172
字典分词 代码(C)本文地址:http://blog.csdn.net/caroline_wendy给定字典, 给定一句话, 进行分词.使用深度遍历(DFS)的方法.使用一个參数string, 保存当前分支的分词后的句子; 使用一个參数vector, 保存全部可能的组合.使用一个验证函数, 推断句子...
分类:
编程语言 时间:
2015-05-18 12:32:33
阅读次数:
143
package my.IKAnalyzer;import java.io.BufferedReader;import java.io.File;import java.io.FileReader;import java.io.IOException;import java.io.StringReader;import java.util.Vector;import org.wltea.analyz...
分类:
其他好文 时间:
2015-05-18 09:09:43
阅读次数:
135
各种查询方式一:使用QueryParser与查询语法。(会使用分词器)MultiFieldQueryParser查询字符串 ------------------------> Query对象例如:上海 AND 天气上海 OR 天气上海新闻 AND site:news.163.com...方式二:直接...
分类:
Web程序 时间:
2015-05-17 18:37:26
阅读次数:
120
一般的网站都会有都会有搜索的功能,一般实现搜索主要有三种方案第一种是最差的,也是最不推荐的,使用数据库的模糊查询例如select * form table where 字段 like XXX,这种查询的缺点很明显:(1) 无法查找几个关键词不连在一起的情况(2) 全表扫描 效率低下第二种:使用Sql...
分类:
Web程序 时间:
2015-05-14 21:58:13
阅读次数:
264
目前的分词器大部分都是单机服务器进行分词,或者使用hadoop mapreduce对存储在hdfs中大量的数据文本进行分词。由于mapreduce的速度较慢,相对spark来说代码书写较繁琐。本文使用spark + ansj对存储在hdfs中的中文文本数据进行分词。...
分类:
其他好文 时间:
2015-05-14 16:43:27
阅读次数:
350